palestra ciência de dados
TRANSCRIPT
Muito além dos dados:
Como os Cientistas de Dados estão dominando o mercado global
SobreDiego Cardoso Alves - Linkedin: diegocardosoalves
Engenheiro da Computação pela Unifei-MG
Mestrando em Engenharia da Computação pela Unicamp
Engenheiro de Software no Instituto de Pesquisas Eldorado
Desenvolvedor Android e entusiasta de Ciência de Dados
Artigo publicado na IEEE Services 2016 - San Francisco USA
O que essa palestra NÃO vai ser
★ Não será uma palestra técnica
★ Não será uma palestra motivacional
★ Você não vai sair daqui um Cientista de Dados
O que essa palestra vai ser
★ O que é um Cientista de Dados e qual sua importância
★ Cases envolvendo Ciência de Dados
★ As habilidades esperadas de um Cientista de Dados
★ Onde procurar recursos para ir em busca dessas habilidades
Cientista de Dados
Pessoa que é melhor em estatística que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico.
Cientista de DadosCientista de Dados é um profissional híbrido, um cientista da computação com habilidades de programação , extração e gerenciamento de dados juntamente com um estatístico que sabe como dar sentido a informações supostamente não relacionadas.
Rotina de um Cientista de Dados
Encontrar Problema Buscar Dados Limpar e ExplorarDados
Comunicar Resultados Validar Hipótese Estabelecer
Hipótese
Hipótese Incorreta
Volume de dados
Total de dados sendo capturados e gravados pelas indústrias dobra a
cada 1.2 anos.
A Google sozinha processa em média 40 mil queries por
segundo.
A cada minuto são enviados 204
milhões de emails.
A cada minuto são gerados 1.8 milhões de likes no Facebook e
enviados 278 mil tweets.
Se você gravasse todo conteúdo criado em 1 dia em DVD’s, você
poderia empilhá-los e alcançar a
lua. Obs: 2 vezes.
Youtube recebe 100 horas de vídeo a cada
minuto.
Volume de dados
Filtragem de dados
Desafios
Dados não estruturados
Processamento necessário
Visualização da informação
Privacidade de dados
Importância
Maior precisão
Decisões com mais confiança
Maior eficiência operacional
Redução de custos
Redução de riscos
Mudança de mercado
Novas correlações
Tendências de negócios no local
Prevenção de doenças
Detecção de fraudes
Combate à criminalidade
Recomendações personalizadas
Cases de Ciência de dados
Alemanha, Copa do Mundo ● 12 jogadores
● Parceria SAP e Alemanha
● Análise de dados dos jogadores, performance dos times e estratégias
● Difícil tarefa de analisar dados aparentemente não relacionados
Starbucks vs Consumidor vs Local● Análise de localidade
● Análise de preferências do consumidor
● Estudo de tráfego das ruas
● Possibilidade de abrir nova Starbucks próxima à uma existente.
Apostadores● Análise de apostas de jogos.● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela,
jogadores, momentos das partidas que determinados pontos ocorrem.○ Número muito grande de informações e conexões entre as mesmas.○ Dados sendo atualizados em tempo real.
● Bons modelos trazem chance de retorno nas apostas maior do que zero.● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos
de predição de resultados.
● 25% dos americanos possuem múltiplas doenças crônicas.
● Pessoas com múltiplas doenças crônicas tem risco maior de mortalidade e de má-qualidade de vida.
● Philips tem investido cada vez mais na coleta de dados sobre as pessoas e do ambiente.
● Dados detalhados obtidos em tempo real (paciente e ambiente) dão uma visão completa sobre o estado do paciente e permite ao médico dar um melhor diagnóstico.
Philips HealthCare
Rede de hotéis utiliza Data Science para aumentar reservas
Rede de hotéis utiliza Data Science para aumentar reservas
● Informações de clima● Informações de cancelamentos de
vôos● Hora do dia● Localização de hotéis e aeroportos● Condições de tráfego
Seguradoras● Análise de fraude de clientes em tempo real● Mais informações sobre as pessoas e conexões do que antigamente ● Diversas fontes de informações● Perda financeira para a seguradora muito menor
Spotify● Milhões de usuários
● Análise de preferências do consumidor
● Recomendação de playlists e lançamentos
● Predição dos ganhadores do Grammy Awards.
○ 4 de 6 ganhadores
Netflix● “Existem 33 milhões de
diferentes versões do Netflix.”
● Comportamento de uso para cada usuário.
● Recomendação de filmes e séries baseado no histórico e correlação entre usuários.
● Predição das atividades futuras dos usuários.
Netflix● Quando você pausa e retorna.● Quais dias você assiste.● Quais horários você assiste.● Onde você assiste.● Quando você para de assistir a
uma série.● Tempo que leva para procura
de um filme e qual o comportamento nesta procura.
● Melhores categorias que você gosta de assistir.
• Interesse em determinar em qual estágio da gravidez estavam seus clientes.
• Dependendo do estágio, determinados itens são mais procurados do que outros.
• Uma semana de gravidez faz diferença, ou seja, precisão é importante.
• Modelos para obter um melhor retorno com cupons de desconto.
• Grande número de dados tanto estruturados quanto não estruturados.
• Pró: Entregar ofertas altamente direcionadas.
• Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam enviando para ela cupons para roupas de bebê e berços?!?!”
• A filha estava realmente grávida, mas o pai não sabia.
Quais habilidades para um Cientista de dados ?
E onde posso encontrá-las ?
Habilidades
Habilidades:
Programação
Linguagens
Linguagem feita para estatísticos.
Amplamente usada no meio acadêmico.
Forte no mercado, recebe grandes investimentos.
Diversas bibliotecas estatísticas prontas, facilita parte da análise
R
Linguagens
Versátil e fácil de aprender.
Comunidade muito forte de bibliotecas gerais.
Fácil para análise e produção.
Python
Linguagens - Recursos
Aprendendo R com R | Udacity + Facebook - Data analysis with R | R-bloggers Data Camp - Intro to R | Coursera - R Programming | R-Cookbook
Especialização Python ( Universidade de Michigan) | Python (CodeAcademy) | Python Class (Google) | Codewars, Codility, HackerRank
R
Python
Banco de Dados
Grande disponibilidade de SGBD.
PostgreSQL, MongoDB, MySQL, etc
SQL vs NoSQL
Databases | SQL Tutorial
Aquisição e Limpeza de dados
80% do processo é gasto entre aquisição e limpeza de dados
Inconsistência de dados é algo comum
Sem dados não há Ciência de Dados
Model Building and Validation | Cleaning data in R | Data Mining
Machine Learning
Permite criar modelos complexos e poderosos.
Sistemas de recomendação, Aprendizado Dinâmico.
Redes Neurais, KNN, Máquinas de vetor suporte.
Intro to Machine Learning | Supervised ML | Unsupervised ML | Machine Learning especialization | Machine Learning
Algoritmos
Eficiência faz diferença !
Saber implementar algoritmos paralelizáveis.
Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) | Especialização (UC San Diego)
Habilidades:
Estatística & Matemática
Distribuição e Otimização
Saber qual distribuição representa melhor o problema.
Fatoração matricial.
Autovalores e autovetores.
Métodos para minimizar uma função específica.
MIT - Linear Algebra | Convex Otimization | Intro to Statistics
Visualização de Dados
Comunicação de resultados.
Representação mais que duas dimensões.
Representação de diversas variavéis.
Udacity - Data Visualization and D3.js | Flowing Data
Visualização de Dados
Conhecimento de Domínio
Mercado Financeiro
Saúde
Ecologia
Marketing
LogísticaPsicologia
PolíticaBiologia
Esportes
Correlação não é Causalidade !
Faço graduação, como ter tempo?
Adapte seu currículo !
Concluindo
Um cientista de dados é um generalista, não um especialista
Muitas habilidades não triviais para estudar.
Inúmeras oportunidades de criar impacto.
Extremamente desafiador, muito divertido.
É preciso ir além do comum !
Dúvidas?