text mining

42
®2012 dp6 - todos os direitos reservados ®2012 dp6 - todos os direitos reservados Text Mining Técnicas, Algoritmos e outras nerdices

Upload: dp6

Post on 17-Dec-2014

1.326 views

Category:

Business


0 download

DESCRIPTION

Apresentação do @LeoNaressi no Social Media Week 2013 sobre text mining (mineração de textos), análise preditiva e sua aplicação em monitoramento de redes sociais

TRANSCRIPT

Page 1: Text Mining

®2012 dp6 - todos os direitos reservados ®2012 dp6 - todos os direitos reservados

Text  Mining  Técnicas,  Algoritmos  e  outras  nerdices  

Page 2: Text Mining

Apresentação  

•  Leonardo  Naressi  –  CIO  da  dp6  –  Presidente  do  Comitê  de  Digital  

Analy9cs  da  IAB  Brasil  –  Professor  na  ESPM  São  Paulo  

–  @LeoNaressi  –  Linkedin.com/in/LeoNaressi  –  facebook.com/LeoNaressi  –  [email protected]  

Page 3: Text Mining

®2012 dp6 - todos os direitos reservados

O que fazer com Text Mining?

Categorização / Classificação

Matriz de Conceitos

Linkagem de conceitos

Extração de entidades

Análise de Sentimentos Sumarização

Identificação de autoria

Page 4: Text Mining

®2012 dp6 - todos os direitos reservados

Coloquem seus óculos...

Page 5: Text Mining

®2012 dp6 - todos os direitos reservados

OK! Ready!

Page 6: Text Mining

®2012 dp6 - todos os direitos reservados

Algoritmos mais utilizados

k-Means Naive Bayes Árvores de decisão

Singular Value Decomposition

(SVD)

Support Vector Machines

(SVM) TF-IDF

Semântica latente

Page 7: Text Mining

®2012 dp6 - todos os direitos reservados

Onde podemos fazer isso?

Page 8: Text Mining

®2012 dp6 - todos os direitos reservados

R

"   A ferramenta estatística mais famosa do mundo

" http://www.r-project.org

Page 9: Text Mining

®2012 dp6 - todos os direitos reservados

Weka

"  Ferramenta Open-Source de Modelagem e Mineração

" www.cs.waikato.ac.nz/ml/weka/

Page 10: Text Mining

®2012 dp6 - todos os direitos reservados

Orange

"  Ferramenta Open-Source de Data Mining

" http://orange.biolab.si

Page 11: Text Mining

®2012 dp6 - todos os direitos reservados

Google Prediction

"   A caixa preta de análise preditiva do Google

" https://developers.google.com/prediction/

Page 12: Text Mining

®2012 dp6 - todos os direitos reservados

O que podemos fazer com Google Prediction?

Page 13: Text Mining

®2012 dp6 - todos os direitos reservados

Cai como uma luva para nossas análises de conteúdo nas redes sociais!

Page 14: Text Mining

®2012 dp6 - todos os direitos reservados

Vamos ver como se faz?

Page 15: Text Mining

®2012 dp6 - todos os direitos reservados

Coloquem seus óculos...

Page 16: Text Mining

®2012 dp6 - todos os direitos reservados

OK! Ready!

Page 17: Text Mining

®2012 dp6 - todos os direitos reservados

Uma nuvem de palavras “simples” em R

Page 18: Text Mining

®2012 dp6 - todos os direitos reservados

Análise de Frequência e Associações em R

Page 19: Text Mining

®2012 dp6 - todos os direitos reservados

Matriz de Conceitos em R

Page 20: Text Mining

®2012 dp6 - todos os direitos reservados

Text Mining no SAS Enterprise Miner

Page 21: Text Mining

®2012 dp6 - todos os direitos reservados

Classificação / Categorização automática com Google Prediction

Page 22: Text Mining

®2012 dp6 - todos os direitos reservados

O que queremos fazer?

Coleta de dados de redes sociais

Amostragem aleatória

Classificação humana da

amostra

Criação de Modelo Preditivo

Treinamento do modelo com os

dados classificados

Validação da performance do

Modelo

Análise preditiva baseada no

modelo

Page 23: Text Mining

®2012 dp6 - todos os direitos reservados

Coleta de dados através de monitoramento de redes sociais

Page 24: Text Mining

®2012 dp6 - todos os direitos reservados

Amostragem aleatória usando Data Analysis Toolpak do Excel

Page 25: Text Mining

®2012 dp6 - todos os direitos reservados

Classificação Humana da amostra

Page 26: Text Mining

®2012 dp6 - todos os direitos reservados

Criação do modelo preditivo

Page 27: Text Mining

®2012 dp6 - todos os direitos reservados

Ixi...

Page 28: Text Mining

®2012 dp6 - todos os direitos reservados

E agora quem poderá me ajudar?

Page 29: Text Mining

®2012 dp6 - todos os direitos reservados

Não priemos cânico!

http://dp6.bi/google-prediction

Page 30: Text Mining

®2012 dp6 - todos os direitos reservados

Treinamento do modelo preditivo usando Google Prediction

Page 31: Text Mining

®2012 dp6 - todos os direitos reservados

Ixi...

Page 32: Text Mining

®2012 dp6 - todos os direitos reservados

Para facilitar existe uma integração entre Google Prediction e Google Spreadsheets J

http://dp6.bi/prediction-planilha

Page 33: Text Mining

®2012 dp6 - todos os direitos reservados

De novo: Treinamento do modelo preditivo usando Google Prediction

Page 34: Text Mining

®2012 dp6 - todos os direitos reservados

Vamos analisar o aprendizado da máquina...

{ "trainingComplete": "2013-09-23T14:48:05.007Z", "kind": "prediction#training", "id": "fastfood_tag1", "created": "2013-09-23T14:13:18.321Z", "modelInfo": { "numberLabels": "18", "numberInstances": "1260", "classificationAccuracy": "0.62", "modelType": "classification" }, "trainingStatus": "DONE" }

Meu Modelo

Precisão alcançada

Page 35: Text Mining

®2012 dp6 - todos os direitos reservados

E o que fazemos com isso agora?

Page 36: Text Mining

®2012 dp6 - todos os direitos reservados

Realizamos a classificação preditiva automágica!

Page 37: Text Mining

®2012 dp6 - todos os direitos reservados

Vamos escrever posts aleatórios e checar o que a bola de cristal nos diz...

Page 38: Text Mining

®2012 dp6 - todos os direitos reservados

Page 39: Text Mining

®2012 dp6 - todos os direitos reservados

Confiram comigo no replay...

{ "outputLabel": "Saúde", "outputMulti": [{ "score": "0.000179", "label": "Atendimento"}, { "score": "0.006472", "label": "Atribuição Prod."}, { "score": "0.000018", "label": "Atribuição prod."}, { "score": "0.002146", "label": "BigMac"}, { "score": "0.000010", "label": "Bob's"}, { "score": "0.001280", "label": "Burguer King"}, { "score": "0.003126", "label": "Campanha"}, { "score": "0.343566", "label": "Comparativo"}, { "score": "0.015228", "label": "Consumo"}, { "score": "0.018360", "label": "Desejo"}, { "score": "0.002519", "label": "Funcionário"}, { "score": "0.012200", "label": "Institucional"}, { "score": "0.000385", "label": "Lovebrand"}, { "score": "0.000010", "label": "Mc Donalds"}, { "score": "0.000009", "label": "Outros Lanches"}, { "score": "0.002906", "label": "PDV"}, { "score": "0.591548", "label": "Saúde"}, { "score": "0.000039", "label": "Whooper" }], "kind": "prediction#output", "id": "fastfood_tag1" }

Maior probabilidade

estatística

Page 40: Text Mining

®2012 dp6 - todos os direitos reservados

Leiam!

"   Mineração de Dados da Web

Social

" http://dp6.bi/mining-social

Page 41: Text Mining

®2012 dp6 - todos os direitos reservados

Não tenham medo!

Page 42: Text Mining

Obrigado!  

•  Leonardo  Naressi  –  CIO  da  dp6  –  Presidente  do  Comitê  de  Digital  

Analy9cs  da  IAB  Brasil  –  Professor  na  ESPM  São  Paulo  

–  @LeoNaressi  –  Linkedin.com/in/LeoNaressi  –  facebook.com/LeoNaressi  –  [email protected]