defensa memoria uai sentiment analysis

39
Sentiment Analysis en Twitter Javier Correa A. Valentina Poblete C. Alumnos Jorge Villalón Profesor Guía Aplicación de para el análisis de redes sociales en Bond. Propuesta de memoria para optar al Título de Ingeniero Civil Industrial Enero 2015

Upload: javier-correa

Post on 14-Feb-2017

129 views

Category:

Data & Analytics


4 download

TRANSCRIPT

Sentiment Analysis en Twitter

Javier Correa A.

Valentina Poblete C.

Alumnos

Jorge Villalón

Profesor Guía

Aplicación de

para el análisis de redes sociales en Bond.

Propuesta de memoria para optar al Título de Ingeniero Civil Industrial Enero 2015

Consultoría – Medios sociales – Comercio electrónico – Medios online – Marketing de contenidos

2

“Resolver los desafíos del negocio de los clientes, utilizando estrategias digitales integrales”.

Holanda 100 - Providencia

Basados en algunas estadísticas

92% de los consumidores da mayor importancia a los

comentarios y opiniones de la gente cercana que a la información de otros medios.

90% de los clientes reconoce que un comentario positivo

influye en la elección del producto.

3

Fuente:

Según una encuesta realizada por

Deloitte

Decisiones estratégicas

Empresas de Prestación de

servicios y Retail

Incrementar la reputación de la

marca

Generar marketing “boca

a boca”

Crear ventajas competitivas

Fuente:

Redes sociales más utilizadas

Fuente:

96%

66%

56%

34%

31%

Facebook

Youtube

Twitter

Google +

Linkedin

Actividades realizadas por los usuarios…

Fuente:66%

58%

52%

39%

37%

34%

Ver que hacen sus contactos

Ver videos, música

Enviar mensajes

Publicar contenidos

Chatear

Comentar la actualidad

Según la Fucqua School of Business de la Universidad de Duke

15% de las empresas tiene las herramientas necesarias para medir el

impacto de las redes sociales en su negocio

100% de aumento de inversión en temas de social media como

herramienta de comunicación en los próximos cinco años

66% de crecimiento en la inversión de tecnologías de análisis de

información

7

Fuente:

Considerando que las opiniones están

cargadas de sentimiento.

Incremento en comentarios analizados

2000

Tweets/Mes

150.000 Tweets/Mes

Actual Propuesto

Hablando de costos…

$840.000

Mensual

$3.375.000

Mensual

$4.215.000

Mensual

Inversión en la herramienta: $48.000.000

Recuperada en 1 AÑO

Analistas Información

VALORVentajaCompetitivaNecesidad

Información en Tiempo REALDISMINUCIÓN DE COSTOS

VALORComprender al cliente

Tendencias

Información en tiempo REAL

Visualización

Detección de problemas

Objetivo

Desarrollar una herramienta de extracción y clasificación de comentarios de Twitter asociados a una marca o producto específico, determinando si el

comentario tiene orientación positiva, neutra o negativa

13

Sentiment Analysis

“ El servicio de movistar es muy bueno, me encanta”.

Servicio movistar muy bueno encanta

𝑽𝟏 = (𝒔𝒆𝒓𝒗𝒊𝒄𝒊𝒐,𝒎𝒐𝒗𝒊𝒔𝒕𝒂𝒓,𝒎𝒖𝒚_𝒃𝒖𝒆𝒏𝒐, 𝒆𝒏𝒄𝒂𝒏𝒕𝒂)

Sentiment Analysis

Tweets

NaiveBayes

Léxico

Positivo Neutro Negativo

Algoritmo Naive Bayes

𝐶𝑚𝑎𝑝 = 𝐴𝑟𝑔𝑐𝜖𝐶𝑀𝑎𝑥 𝑃 𝐶 ∙ ෑ

1≤𝑘≤𝑛

𝑃 𝑤1, … , 𝑤𝑛|𝐶

𝐶𝑚𝑎𝑝 = 𝐴𝑟𝑔𝑐𝜖𝐶𝑀𝑎𝑥 𝑃 𝐶|𝑤1, … , 𝑤𝑛

Criterio de Máximo Posteriori

Probabilidad que sea un comentario

negativo o positivo

Probabilidad que dado una palabra W sea un comentario

positivo o negativo

" Prefiero Movistar, es mejor que peor"

Algoritmo Naive Bayes

Palabra Polaridad

Prefiero Positivo

Mejor Positivo

Peor Negativo

Cmap(positivo)=P(positivo)* P(prefiero | positivo)*P(mejor | positivo)*P(peor | positivo) = 0,0213

Cmap(negativo)= P(negativo)*P(prefiero | negativo)*P(mejor | negativo)*P(peor | negativo) = 0,0104

Cmap(positivo)=0,0213> Cmap(negativo)= 0,0104

POSITIVO

Metodología CRISP-DM

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelado

Evaluación

ImplantaciónDatos

Comprensión del negocio Comprensión del negocio

+10.000.000 Clientes

Servicios móviles y fijos

Banda Ancha

Tv digital

Extracción de los datos Comprensi

ón de los

datos

TwitteR

Extracción de los datos

21

Comprensión de los

datos

Comprensión de los datos

Problemas…

Comprensión de los

datos

Preparación de los datos Preparac

ión de los datos

1ra Extracción

Filtro: Idioma Español

Comentarios en varios idiomas

Fes possible el cap d'any tarragoní votant(és només UN CLICK) el projectehttp://t.co/Du2gaGArSj #MovistarArtsyespa…

I posted 9 photos on Facebook in thealbum"Gran Premio Movistar de Aragón 2015" http://t.co/WwtBDP6SuM

Preparación de los datos Preparac

ión de los datos

2da Extracción

Filtro: Eliminación de Retweets

Retweetsredundantes

Tweet: Si tienes una emergencia comunícate desde tu Movistar al *911 #SeguridadVial

RT @MaquinaDelAire: Si tienes una emergencia comunícate desde tu Movistar al *911 #SeguridadVial #LaMáquina

Preparación de los datos Preparac

ión de los datos

3ra Extracción

Filtro: Eliminación de palabras claves

Palabras como “Chévere” , “Concierto”,etc.

Guayaquil, la tercera ciudad con 4G LTE de Movistar: En sectores comoSamborondón(Guayas), la Alborada,Kenne... http://t.co/KoqnLvvzOC

Libera tu lumia de Argentina (Personal, Claro o Movistar), mensaje alwhatsapp+5493764725434

Chama vieron que en Venezuela ya se va Movilnet y movistar, ese día será mi muerte por si no lo sabían

Preparación de los datos Preparac

ión de los datos

Limpieza

Filtro: Eliminación de Stopwords y Puntuación

Palabras y signos que no aportan al análisis.

Maldita sea Movistar que no me deja mandar mensajes al extranjero

Maldita movistar no deja mandar mensajes extranjero

Modelamiento

Léxico

NaiveBayes

Tweets

Positivo Neutro Negativo

Modelado

Data para evaluación

+0

-

404

143

513

1060 tweets

Primer Modelo

Léxico español

NaiveBayes

Tweets

Modelado

Resultados 1er Modelo

658

94

308

404

143

513

0

100

200

300

400

500

600

700

Positivo Neutro Negativo

Co

men

tari

os

Modelo 1 Manual

Precisión

46,98%

Evaluación

Segundo Modelo

Léxico modificado

NaiveBayes

Tweets

Modelado

Resultados 2do Modelo

492

71

497

404

143

513

0

100

200

300

400

500

600

Positivo Neutro Negativo

Co

men

tari

os

Modelo 2 Manual

Precisión

60,94%

Evaluación

Resultados 2do Modelo

Real

Predicción

Precisión 60,94%

Evaluación

NEGATIVO NEUTRO POSITIVO

NEGATIVO 365 36 112 513

NEUTRO 30 7 106 143

POSITIVO 102 28 274 404

497 71 492 1060

NEGATIVO NEUTRO POSITIVO

NEGATIVO 365 36 112

NEUTRO 30 7 106

POSITIVO 102 28 274

Pasos a seguir…

Real

Predicción

Código Rstudio + Léxico + Plantilla Excel

Implementación Implementación

DESARROLLAR PRESENTAR

Implementación Implementación

• Capacitaciones

•Manual de utilización

• Encargado: Analista con conocimientos en programación

Producto final

Conclusiones & Recomendaciones

• Se entrega un producto con un precisión en la sentimentalización de un 61%, escalable y adaptable a las necesidades del usuario.(validado con el encargado de Bond)

• El producto permite incrementar la cantidad de información analizada de 2.000 a 150.000 tweets al mes.

• Se logra un ahorro inmediato en tiempo liberado de analista de 840.000 CLP al mes, y la utilización del código creado para generar una plataforma de análisis de datos de

redes sociales tiene un ahorro potencial de 135 UF/mes, cuyo costo de inversión se

recupera después de 12 meses.

• Se recomienda ampliar dicho análisis a los comentarios que se puedan extraer de

cualquier red social, como por ejemplo los comentarios del fun page de la marca en Facebook.

Sentiment Analysis en TwitterAplicación de

para el análisis de redes sociales en Bond.