palestra big data - tdc 2015
TRANSCRIPT
AGENDA
2 O que é big data analytics ?
3 Pra que servem os data scientists ?
4 Algumas aplicações reais
5 Tendências e desafios
1 Quem somos
QUEM SOMOS
Empresa brasileira pioneira em Big Data Analytics,
fundada em Dezembro de 2012
Equipe de mestres e doutores em machine learning
“In God we trust. All others must bring data” (W. E. Deming, cujas ideias inspiraram o “Milagre Japonês”)
Empresa de capital nacional e um acionista
Preferred Partner da Microsoft em big data
analytics no Brasil e parceira técnica do Inep/MEC
para georreferenciamento
QUEM SOMOS
Visão: momento é de mudança de paradigma. No
futuro próximo, empresas não-data-driven
perecerão
Missão: ser líderes desse movimento no Brasil,
permitindo saltos aos nossos clientes
Sonho: construir empresa world-class nesta área
que é fronteira do conhecimento
7
Estatística Bases de Dados
Big Data Analytics
Aprendizado
de Máquina
Data Mining, Knowledge
Discovery from
Databases (KDD), Data
Science, Predictive
Analytics
POR QUE TANTOS NOMES?
• Justificativas em artigos e livros
• Papel da Indústria de Software e da Academia?
• Por que o termo Big Data pegou?
HABILIDADES DE UM DATA SCIENTIST ?
• Ciência da Computação (IA, AM, BD)
• Estatística e Otimização
• Economia e Administração
• Times de pessoas com perfis complementares?
DATA SCIENTISTS IN ACTION
• Introduzir (mais) Ciência no mundo corporativo
• Melhorar capacidade de decisão a partir de dados
• Aplicar e desenvolver metodologias de AM
• Ajudar clientes a descobrir actionable insights
Acertar o alvo (do negócio) com precisão
Quiz:
Analogia
melhor?
Alguns dados georreferenciados que trazemos para as análises
• Renda (algoritmo
proprietário
atualização mensal)
• Emprego
• Clima
• Educação
• Saúde
• Perfil Ideológico
• Estrutura etária
• Religião
NOSSOS DADOS
• 25 milhões de POIs
• Antenas de telefonia celular
• Emplacamento veicular
• Movimento de estradas
• Densidade demográfica
• Tweets
• Pontos de transporte coletivo
• Preços combustíveis
PREVISÃO DE VENDA DE REVISTAS EM BANCAS
Por que estimar?
venda
semana
?
Semanários:
• Dados de vendas em ~4k bancas
• Fatores que influenciam na venda?
• Resultados?
QUANTO EU DEVERIA ESTAR VENDENDO?
• Vendas num Setor Censitário (SC):
Vendas observadas
Potencial de vendas
• Como estimar “potencial” de vendas?SC X1 X2 ... Xd Y_obs Y_pot
1 1200 0.5 ... 5.5 2000 ?
2 900 0.4 ... 6.0 1500 ?
... 3000 0.9 ... 5.2 4000 ?
N 4500 1.0 ... 3.1 5000 ?
N+1 650 0.3 ... 7.2 ? ?
... ... ... ... ... ? ?
R 15000 1.0 ... 2.3 ? ?
Treinamento:
Y=f(X1,...,XN)
Alvo
(teste)
- Y_obs ruidoso?
- f(.) mais confiável
do que os dados?
- Como lidar?
Junte-se a nós e
divirta-se!
OTIMIZAÇÃO DE PLANO DE MÍDIA
Maximizar:
Consciência da marca?
No de potenciais compradores?
...
Vendas?
Jornal
40%
Rádio
20%
TV
5%
Outdoor
5%
Internet
30%
• Responsabilidade de I,J,R,T,O ?
• Interações (e.g., RT) ?
• Aprender Y=f(I,J,R,T,O) ?
• Renda, investimentos e preços dos
concorrentes, sazonalidade,
tendência, etc. ?
ABANDONO DE SERVIÇOS (CHURN)
• Bancos de varejo
• Assinaturas (TV a cabo, revistas...)
• Operadoras de telecomunicações
Problema prático (aparentemente) não resolvido
• Desafio:
Estimar P(ChurnX1,X2,...,XN)
Em tempo de poder agir pra evitar
Modelos interpretáveis e com variáveis alteráveis:
?
salário ?
OTIMIZAÇÃO DE PREÇOS (PRECIFICAÇÃO)
• Como otimizar preços (ou descontos) ?
• Preço = Custo + Margem
• Abordagem clássica via equação de demanda
Regressão + agrupamento + experimentação: Pode ser usado como analgésico ou vitamina
12
13
14
15
16
17
18
25 26 27 28 29 30 31
Preço (P x 1.000)
Dem
anda (
D x
1.0
00) D = 0 + 1P
Problemas:
- Pouca variação no preço
- Poucas amostras
Como tratar?
Ministério da Saúde Recomenda
TENDÊNCIAS
Crescente número de novas aplicações
Combinar algoritmos, diminuindo o no de
parâmetros críticos definidos pelo usuário
“Essentially, all models are wrong, but some are useful.”
(George E. P. Box, University of Wisconsin)
Gartner (líder em TI) prevê que em 2015 a
demanda por profissionais de big data será de
4,4 milhões...
DESAFIOS
• Data scientists: 19.428(EUA), 282(Bra), 911(Ale)
• Vagas (big data): 43.710(EUA), 154(Bra),1.211(Ale)
• CV Lattes (termo = big data): 340 (138 doutores)
• 500 estatísticos/ano, mas +1.000 vagas ofertadas
• Mais alunos em Ciência de Computação e afins?
Programação no ensino fundamental?
• Dados públicos mais organizados/acessíveis
• Questões éticas do uso de modelos automáticos
• Mudanças envolvem pessoas (conflito de interesse)
Obrigado pela atenção!
Contato:
Eduardo R. Hruschka
Chief Data Scientist
DevOps