Este artigo é sobre Tecnologia

Data Science: Entenda como funciona e seus princípios

Gleisson Bispo

Data Scientist

Publicado em
15 de Janeiro de 2021

Você sabe o que é data science e como isso pode agregar sua empresa se implementado de forma correta? Então entenda seus principios e muito mais

Uma breve síntese

Este artigo tem como objetivo introduzir, assim como eu, os mais curiosos no mundo da ciência de dados, baseado nos materiais que encontrei durante o caminho dos meus estudos. Como deixo explícito no título, todos os materiais apresentados durante as linhas a seguir podem ser desfrutados de forma gratuita! Dessa forma, espero alcançar todos os públicos, mesmo aqueles que não tem ou mesmo não dispõe de nenhum capital para iniciar sua jornada no mundo dos dados.

Importante: O texto abaixo, é fruto dos materiais que encontrei durante as minhas idas e vindas neste vasto campo (que ainda é muito verde). Estes enxertos são apenas uma fração de tudo que existe disponível e de forma alguma exalam a verdade absoluta! Como citei, são apenas as anotações de forma organizada de um jovem curioso como você!

Desejo sorte e resiliência na caminhada! Vamos lá!

O Princípio

Nos últimos anos estamos vivenciando uma das mais marcantes reviravoltas da história, atingimos a 4ª Revolução Industrial (Ual) ou como ficou popularmente conhecida a Indústria 4.0. De forma totalmente geral a Indústria 4.0 é caracterizada pela popularização e utilização da internet na indústria de forma massiva. E como é de se esperar este fato pitoresco da humanidade sempre trás consigo mudanças drásticas para a vida das pessoas, o que julgo mais impactante é a mudança na forma que fazemos o trabalho! Como as folhas entre o outono e a primavera, assim são os empregos na chegada de uma nova revolução da indústria, as funções mais antiquadas e ultrapassadas caem, e novas mais arrojadas para época tomam o lugar.

Aqui chegamos ao marco zero dessa jornada! Bem parecida com o tutorial dos games, todo mundo pula, mas é importante saber rsrs.

 

A Ciência de Dados do Latim Data Science (Brincadeira)

De forma muito simplista, a Ciência dados é a arte de extrair valor dos dados através do método cientifico e técnicas de modelagem computacional. Basicamente, podemos sumarizar esta campo como a junção de três outros campos:

  • Matemática e Estatística;

  • Ciência da Computação;

  • Conhecimento do Negócio.

É importante frisar que grande parte das técnicas que utilizamos hoje em ciência de dados, já existem a décadas ou até mesmo séculos quando falamos de fundamentos. Isso mesmo, extração de valor dos dados não é nada novo (teoricamente falando).

O que temos de novo são:

  • Dados em Abundância - Com a democratização da internet estamos conectados basicamente 100% do nosso tempo: redes sociais, serviços de Streaming, mensagens, compras, pagamentos e um monte de outras coisas... Espera, respira e imagina o quanto de dado tudo isso esta gerando a cada segundo... Imagina quantos dados de transações financeiras por segundo a Nubank não está armazenando em seus bancos de dados somente neste Final de Semana!

  • Armazenamento de Dados Barato - Sabe aquela lei da oferta e demanda? Sim, ela também se aplica ao armazenamento de dados. Junte os seguintes ingredientes em uma tigela: Desenvolvimento da tecnologia em nuvem, competitividade do mercado e usuários cada vez mais conectados gerando mais dados e procurando lugares mais baratos para armazenar. "Boom", temos armazenamentos em nuvem cada vez mais baratos. Hoje armazenar dados em alguns servidores chega a custar centavos. ​​​​​​​ 

  • Democratização e Desenvolvimento de Tecnologias Poderosas - Hoje em um celular, temos mais poder computacional do que o computador que a NASA usava quando mandou o homem a lua. Temos acesso a tecnologia cada vez mais potente e mais barata. O grande impulsionador dessa onda de inovação foi a indústria de games, graças a jogos que exigem cada vez mais poder computacional a ascensão da indústria de placas de vídeo e periféricos de computador foi inevitável! E por que não utilizar esse poder de processamento assombroso para analisar dados? Ótima ideia!

Quanto somamos os três pontos citados acima e as teorias de décadas atrás, temos tudo o que precisamos para extrair valor dos dados aplicando o método científico (Imagine um coral de anjos aqui).

Por fim, a ascensão da Ciência de dados se deve pelo valor que ela pode agregar ao negócio!

Agora que você está minimamente contextualizado ao tema, vamos a Jornada!

 

Jornada de Aprendizado para se Tornar Cientista de Dados

Quando pesquisamos qual o caminho ideal para se tornar um cientista de dados, nos deparamos com a seguinte imagem do Chandrasekaran:

Mapa de Conhecimentos Ciência de Dados – Chandrasekaran

Vamos deixar algo claro aqui, de fato este pode ser um caminho ideal para se tornar uma divindade da área, um unicórnio como gostamos de falar. Mas este não é o objetivo aqui, vamos focar em um MVP (Minimum Viable Product), com as skills básicas para te introduzir de forma confortável na área!

Como citado a cima, de forma simplista a Ciência de Dados é a junção de três grandes áreas: Matemática e Estatística, Ciência da Computação e Conhecimento do Negócio. Mas dentro de cada uma dessas áreas existe uma série de habilidades que é importante dominar para desempenhar a função de cientista de dados com o mínimo de maestria! Vamos a elas: 

Matemática e Estatística

Não tem para onde correr, matemática e estatística são os alicerces dessa área, se comparássemos este processo ao de construção de uma casa, essas com certeza são as Sapatas. Vamos aos materiais:

  • Khan Academy - O Projeto Khan Academy oferece cursos que vão desde o ensino fundamental ao final do ensino médio. No portal você encontrará toda a base matemática, estatística e até álgebra linear (uma das bases da inteligência artificial);

  • Canal EstaTiDados do professor Thiago Marques - Este canal é uma das referencias quando falamos sobre estatística voltada a análise de dados. No Canal do professor Thiago é possível encontrar os mais diversos assuntos voltados a estatística e ciência de dados com uma didática muito amigável;

  • Canal O Matematico do professor Fernando Grings - Confesso que este canal me salvou durante toda minha graduação. Nos videos do professor Grings é póssível encontrar cursos completos e bem didáticos que abragem todo campo da matemática e calculo;

  • Canal Professor Guru do professor Conrad Pinheiro - O professor Conrad foi um dos meus mestres durante a minha graduação em engenharia. Uma das mentes mais brilhantes quando o assunto é Probabilidade e Estatística. Em seu canal é possível encontrar cursos completos e bem detalhados sobre estatística.

 

Programação Básica

A programação é fundamental quando iniciamos na área de dados, é através dela que utilizaremos as principais técnicas de modelagem para extrair os dados.

Quando falamos em programação para ciência de dados, duas linguagens Python e R, porém, neste artigo vamos focar no aprendizado da linguagem Python, pelos motivos que explico abaixo.

 

Python

Python é uma linguagem de programação de propósito geral, portanto, pode ser aplicada tanto em ciência de dados quanto em desenvolvimento de softwares, desenvolvimento web e até mesmo games. A facilidade de aprendizagem, generalização da utilização e empatia da comunidade, tornam o Python uma das linguagens mais queridas entre os cientistas de dados. Vamos aos materiais:

  • Primeiros passos com o Python do Canal Curso em Vídeo do professor Gustavo Guanabara - É um dos melhores cursos de Python que existem para quem está dando os primeiros passos no mundo da computação;

  • Curso Python para Zumbis do Professor Fernando Manasori é uma outra iniciativa genial para quem está iniciando em Python. O curso é gratuito e da ao aluno uma visão substancial da linguagem;

  • Python Fundamentos para Análise de Dados da Data Science Academy - Este é um dos cursos mais completos quando falamos em Python aplicado a análise de dados. O curso começa ensinando o básico e se estende até temas mais complexos como redes neurais

  • Python for Data Science and AI da IBM via Coursera - É uma das referências para todos da área, o curso pode ser feito de forma gratuita sem Certificado.

 

Banco de Dados (SQL)

Outra linguagem de programação essencial para qualquer um que está começando na área dos dados é a linguagem de consulta a banco de dados ou SQL:

  • Curso de Banco de Dados MySQL do Canal Curso em Vídeo do professor Gustavo Guanabara - É um dos mais completos quando o assunto é Banco de Dados, de forma bem humorada e fluída o professor Guanabara ensina a seus gafanhotos desde a história, até consultas e operações mais complexas.

  • SQL for Data Science da Universidade da Califórnia via Coursera - É um curso focado na análise de dados. O curso pode ser feito de forma gratuita sem Certificado.

 

Análise Exploratória de Dados

Saber fazer uma boa análise preliminar dos dados para extrair tudo que eles têm a nos dizer é algo fundamental. Uma análise descritiva dos fatos já pode ser crucial no momento de tomar decisões no negócio ou até mesmo encontrar inconsistências na base. Não abra mão de saber fazer uma boa análise exploratória dos dados.

 

Esta etapa é a primeira onde o campo da computação e o campo da matemática/estatística se encontram, portanto, aqui você terá que aplicar tudo que aprendeu na sessão de exatas com Python. Abaixo alguns cursos que irão lhe ajudar nessa missão:

  • Exploratory Data Analysis da Universidade John Hopkins via Coursera - É um curso focado na análise de dados. O curso pode ser feito de forma gratuita sem Certificado;

  • Data Analysis With Python da IBM via Coursera - É um curso focado na análise de dados. O curso pode ser feito de forma gratuita sem Certificado.

 

Visualização de Dados

Quem não é visto não é lembrado, e para a área de dados não é diferente. Boa parte do nosso tempo passaremos fazendo análises e uma das habilidades mais valiosas é transmitir todos os insights gerados nessas análises através de gráficos em dashboards. Portanto, a visualização de dados se torna um skill indispensável.

Além do bom e velho Microsoft Excel (Que em boa parte do tempo irá resolver grande parte dos seus problemas), existem softwares próprios para criação de dashboards, os mais comuns dentro das empresas são: Power Bi e Tableau. Abaixo alguns materiais sobre cada um:

Power Bi

  • Curso Power BI da Professora Karine Lago - A professora Karine é um dos grandes nomes do Power Bi no Brasil. E para impulsionar a comunidade a professora criou um curso completo de Power Bi em seu canal no Youtube.

  • Analyzing and Visualizing Data with Power BI da Microsoft via edX - Curso completo da Microsoft que pode ser feito gratuitamente sem certificado.

Tableu

  • Data Visualization with Tableau da Universidade da California via Coursera - Especialização composta de 5 cursos podem ser feitos gratuitamente sem certificado.

Neste ponto, saímos do ponto básico e entramos na parte intermediária do negócio! Se você chegou até aqui, merece uma medalha! Meus Parabéns! Mas vamos em frente

 

Machine Learning

Este é o tópico que todo estudante de Ciência de Dados mais anseia a aprender, o aprendizado de máquina. Aqui temos uma intersecção entre a Inteligência Artificial e a Ciência de dados. Abaixo estão os materiais mais bacanas da área:

  • Machine Learning da Universidade de Stanford (Andrew Ng) via Coursera - O Andrew Ng Criador deste curso é considerado por muitos um dos pais do aprendizado de máquina como conhecemos hoje. O curso pode ser feito de forma gratuita sem Certificado.

  • Machine Learning da Universidade de Washington via Coursera - Especialização de 4 cursos que podem ser feitos de forma gratuita sem certificado.

Importante: Não tem jeito, neste ponto você terá que ser bem proativo e quando se sentir seguro procurar por si só novos algoritmos e técnicas de aprendizado de máquina. Este é um dos campos mais quentes do momento, e como o universo a cada segundo está em expansão. Talvez Aprender a aprender, seja a melhor dica que eu possa te dar neste tópico.

Chegamos ao fim da parte de cursos! Abaixo vou deixar um pool de materiais, blogs que consumo para me manter atualizado do que está rolando na área!

 

Como se manter atualizado

Com a democratização da internet e democratização do conhecimento juntas na mesma década, somos agraciados com criadores de conteúdo que povoam a internet com o mais rico conhecimento a cada segundo! Abaixo os blogs que eu gosto de seguir:

  • Data Science Academy - Portal brasileiro de ciência de dados, foi um dos pioneiros a trazer o conhecimento totalmente em português para o país. Além de cursos introdutórios gratuitos, no blog você encontrará uma série de materiais, noticiais e novidades da área de dados;

  • Blog Minerando Dados - Blog brasileiro de ciência de dados e inteligência artificial, no blog dos irmãos Rodrigo e Felipe você encontrará uma série de tutoriais bem bacanas e até cursos introdutórios gratuitos da área de dados;

  • Comunidade Data Hackers - Seja no blog no medium, no podcast ou no slack a galera do Data Hackers são especialistas quando o assunto é ciência de dados. Essa é uma das maiores comunidades de Ciência de Dados no Brasil;

  • Pizza de Dados - Podcast Brasileiro focado em Ciencia de Dados de forma leve e democratizada! Com várias entrevistas com o pessoal influente da área o pessoal do Pizza consegue cativar todos os ouvintes;

 

  • Papers With Code - Este site reuni um grande acervo de papers no campo da Ciência de Dados e inteligência Artificial. O legal é que além do paper você consegue acompanhar o código no github;

 

Eu sei que tem muito mais... Mas estes são alguns dos canais que eu acompanho para me manter atualizado.

Para te ajudar ainda mais!

Para ajudar ainda mais a comunidade, em agosto de 2020 eu iniciei o projeto Análise de Dados Brasil!  A ideia do projeto é bem simples, fornecer para a comunidade vídeo aulas sobre Ciência de Dados, Machine Learning e IA, nesse momento principalmente para quem está começando na área.

 

Última Dica: Tenha um Portfólio

Como você mesmo deve estar acompanhando em todos os lugares, a demanda por profissionais de ciência de dados cresceu muito nos últimos anos. E naturalmente, estamos vivendo um início de um efeito Manada, vários profissionais estão migrando para este campo (eu fui um deles rs), a pergunta que fica é: 

 

Como me destacar?

A resposta é mais simples do que parece: Crie um portfólio de projetos. Durante os cursos acima, você irá se deparar com inúmeros projetos, portanto, faça os de forma organizada e exponha-os em seu portfólio.

Os caminhos mais comuns para a criação de um portfólio que conheço são:

  • GitHub - O Github é um portal de versionamento e compartilhamento de códigos.

  • Kaggle - Plataforma de competições de Machine Learning, mas tem sido massivamente utilizada para criação de portfólios e Kernels.

Bom, era isso meus amigos! Espero que tenham gostado! O que posso te desejar a partir daqui é Bons Estudos. Espero te ver voando por aí e chamá-lo de colega de profissão.

 

Este artigo é sobre Tecnologia

Fale conosco

Entre em contato conosco e saiba como podemos apoiar a sua empresa no caminho rumo à transformação digital

manage cookies