defensa memoria uai sentiment analysis
TRANSCRIPT
Sentiment Analysis en Twitter
Javier Correa A.
Valentina Poblete C.
Alumnos
Jorge Villalón
Profesor Guía
Aplicación de
para el análisis de redes sociales en Bond.
Propuesta de memoria para optar al Título de Ingeniero Civil Industrial Enero 2015
Consultoría – Medios sociales – Comercio electrónico – Medios online – Marketing de contenidos
2
“Resolver los desafíos del negocio de los clientes, utilizando estrategias digitales integrales”.
Holanda 100 - Providencia
Basados en algunas estadísticas
92% de los consumidores da mayor importancia a los
comentarios y opiniones de la gente cercana que a la información de otros medios.
90% de los clientes reconoce que un comentario positivo
influye en la elección del producto.
3
Fuente:
Según una encuesta realizada por
Deloitte
Decisiones estratégicas
Empresas de Prestación de
servicios y Retail
Incrementar la reputación de la
marca
Generar marketing “boca
a boca”
Crear ventajas competitivas
Fuente:
Redes sociales más utilizadas
Fuente:
96%
66%
56%
34%
31%
Youtube
Google +
Actividades realizadas por los usuarios…
Fuente:66%
58%
52%
39%
37%
34%
Ver que hacen sus contactos
Ver videos, música
Enviar mensajes
Publicar contenidos
Chatear
Comentar la actualidad
Según la Fucqua School of Business de la Universidad de Duke
15% de las empresas tiene las herramientas necesarias para medir el
impacto de las redes sociales en su negocio
100% de aumento de inversión en temas de social media como
herramienta de comunicación en los próximos cinco años
66% de crecimiento en la inversión de tecnologías de análisis de
información
7
Fuente:
Hablando de costos…
$840.000
Mensual
$3.375.000
Mensual
$4.215.000
Mensual
Inversión en la herramienta: $48.000.000
Recuperada en 1 AÑO
Analistas Información
VALORComprender al cliente
Tendencias
Información en tiempo REAL
Visualización
Detección de problemas
Objetivo
Desarrollar una herramienta de extracción y clasificación de comentarios de Twitter asociados a una marca o producto específico, determinando si el
comentario tiene orientación positiva, neutra o negativa
13
Sentiment Analysis
“ El servicio de movistar es muy bueno, me encanta”.
Servicio movistar muy bueno encanta
𝑽𝟏 = (𝒔𝒆𝒓𝒗𝒊𝒄𝒊𝒐,𝒎𝒐𝒗𝒊𝒔𝒕𝒂𝒓,𝒎𝒖𝒚_𝒃𝒖𝒆𝒏𝒐, 𝒆𝒏𝒄𝒂𝒏𝒕𝒂)
Algoritmo Naive Bayes
𝐶𝑚𝑎𝑝 = 𝐴𝑟𝑔𝑐𝜖𝐶𝑀𝑎𝑥 𝑃 𝐶 ∙ ෑ
1≤𝑘≤𝑛
𝑃 𝑤1, … , 𝑤𝑛|𝐶
𝐶𝑚𝑎𝑝 = 𝐴𝑟𝑔𝑐𝜖𝐶𝑀𝑎𝑥 𝑃 𝐶|𝑤1, … , 𝑤𝑛
Criterio de Máximo Posteriori
Probabilidad que sea un comentario
negativo o positivo
Probabilidad que dado una palabra W sea un comentario
positivo o negativo
" Prefiero Movistar, es mejor que peor"
Algoritmo Naive Bayes
Palabra Polaridad
Prefiero Positivo
Mejor Positivo
Peor Negativo
Cmap(positivo)=P(positivo)* P(prefiero | positivo)*P(mejor | positivo)*P(peor | positivo) = 0,0213
Cmap(negativo)= P(negativo)*P(prefiero | negativo)*P(mejor | negativo)*P(peor | negativo) = 0,0104
Cmap(positivo)=0,0213> Cmap(negativo)= 0,0104
POSITIVO
Metodología CRISP-DM
Comprensión del negocio
Comprensión de los datos
Preparación de los datos
Modelado
Evaluación
ImplantaciónDatos
Comprensión del negocio Comprensión del negocio
+10.000.000 Clientes
Servicios móviles y fijos
Banda Ancha
Tv digital
Preparación de los datos Preparac
ión de los datos
1ra Extracción
Filtro: Idioma Español
Comentarios en varios idiomas
Fes possible el cap d'any tarragoní votant(és només UN CLICK) el projectehttp://t.co/Du2gaGArSj #MovistarArtsyespa…
I posted 9 photos on Facebook in thealbum"Gran Premio Movistar de Aragón 2015" http://t.co/WwtBDP6SuM
Preparación de los datos Preparac
ión de los datos
2da Extracción
Filtro: Eliminación de Retweets
Retweetsredundantes
Tweet: Si tienes una emergencia comunícate desde tu Movistar al *911 #SeguridadVial
RT @MaquinaDelAire: Si tienes una emergencia comunícate desde tu Movistar al *911 #SeguridadVial #LaMáquina
Preparación de los datos Preparac
ión de los datos
3ra Extracción
Filtro: Eliminación de palabras claves
Palabras como “Chévere” , “Concierto”,etc.
Guayaquil, la tercera ciudad con 4G LTE de Movistar: En sectores comoSamborondón(Guayas), la Alborada,Kenne... http://t.co/KoqnLvvzOC
Libera tu lumia de Argentina (Personal, Claro o Movistar), mensaje alwhatsapp+5493764725434
Chama vieron que en Venezuela ya se va Movilnet y movistar, ese día será mi muerte por si no lo sabían
Preparación de los datos Preparac
ión de los datos
Limpieza
Filtro: Eliminación de Stopwords y Puntuación
Palabras y signos que no aportan al análisis.
Maldita sea Movistar que no me deja mandar mensajes al extranjero
Maldita movistar no deja mandar mensajes extranjero
Resultados 1er Modelo
658
94
308
404
143
513
0
100
200
300
400
500
600
700
Positivo Neutro Negativo
Co
men
tari
os
Modelo 1 Manual
Precisión
46,98%
Evaluación
Resultados 2do Modelo
492
71
497
404
143
513
0
100
200
300
400
500
600
Positivo Neutro Negativo
Co
men
tari
os
Modelo 2 Manual
Precisión
60,94%
Evaluación
Resultados 2do Modelo
Real
Predicción
Precisión 60,94%
Evaluación
NEGATIVO NEUTRO POSITIVO
NEGATIVO 365 36 112 513
NEUTRO 30 7 106 143
POSITIVO 102 28 274 404
497 71 492 1060
NEGATIVO NEUTRO POSITIVO
NEGATIVO 365 36 112
NEUTRO 30 7 106
POSITIVO 102 28 274
Pasos a seguir…
Real
Predicción
Implementación Implementación
• Capacitaciones
•Manual de utilización
• Encargado: Analista con conocimientos en programación
Conclusiones & Recomendaciones
• Se entrega un producto con un precisión en la sentimentalización de un 61%, escalable y adaptable a las necesidades del usuario.(validado con el encargado de Bond)
• El producto permite incrementar la cantidad de información analizada de 2.000 a 150.000 tweets al mes.
• Se logra un ahorro inmediato en tiempo liberado de analista de 840.000 CLP al mes, y la utilización del código creado para generar una plataforma de análisis de datos de
redes sociales tiene un ahorro potencial de 135 UF/mes, cuyo costo de inversión se
recupera después de 12 meses.
• Se recomienda ampliar dicho análisis a los comentarios que se puedan extraer de
cualquier red social, como por ejemplo los comentarios del fun page de la marca en Facebook.