presentación de powerpointicipm.uach.cl/wp-content/uploads/2018/08/zil.pdf · 2018-08-14 ·...

Post on 25-Jun-2020

4 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Técnicas de Expansión de Consultas en Redes Sociales (Twitter)

Autor: Claudia Zil Bontes Director: Dr. Víctor Fresno Fernández

2015

Agenda

Motivación del Trabajo

Trabajos en el Área

Objetivos

Experimentación

Resultados

Conclusiones

Líneas Futuras

Motivación

500 millones diarios

2.1 billones diarias

Sucesos/Eventos InesperadosGeolocalización y Temporalidad

Recuperación de mensajes relevantes

asociados

Motivación

P,R

Motivación

Pseudo Relevance Feedback

t1 t2frankenstorm storm

P,R

Motivación

PRF

P,RP,R

Búsqueda Normal PRFMotivación

Pseudo Relevance FeedbackDocumentos = características especiales

t1’ t2’power safet3’ t4’

lights wind

P,R

PRF’

Motivación

P,RP,R

Búsqueda Normal PRF

P,R

PRF’ Motivación

PRF

TREC

Tiempo

Hashtag Efron,2010

Sucesos/Eventos Inesperados

Fuente de informaciónGabarain, 2008Mills et al, 2009Sinnapan, 2010

DetecciónMarcus, 2011Son et al, 2013 geolocalización ytemporalidadSakaki, 2010 y Takahashi, 2011Hughes y Palen, 2009 URL aumenta

ExtracciónVieweg, 2010 geolocalizaciónLongueville, 2009 temporalidad, URL

Miyanishi,2012 uso de RFMassoudi, 2011Lau, 2011

Trabajos en el Área

Objetivo

Suceso inesperado

Será posible aumentar el Recall

Técnicas de expansión de consulta

Información social que ofrece Twitter

Información SocialUsuario

Fecha y hora

Hashtag

Coordenadas

Coordenadas

#sandyonfox

Hashtag

Usuarios

Usuarios

Tiempo

Tiempo

Experimentación

huracán Isaachuracán Sandytiroteo en teatro en Auroratiroteo en Empire State buildingelecciones USA en NYCelecciones USA en San Francisco

Coordenadas Geográficas

Texto

Usuarios

TiempoHashtag

ID USUARIO LATITUD LONGITUD FECHA-HORA TEXTO

Estrategia de Filtro y Recuperación de Información

Normalización

Detección y Transformación Automatizada

@HDaddyswag u have a what?!

@hdaddyswag you have a white

Revisión y Corrección Manual

Estrategia de Filtro y Recuperación de Información

Estrategia de Filtro y Recuperación de Información

Uso de Wildcards

Baseline baja Precisión inicial Wildcards

Búsqueda normal términos claves iniciales

hurricane sandy

Búsqueda de términos iniciales con wildcards

hurricane* sandy*

Estrategia de Filtro y Recuperación de Información

Estrategia de Filtro y Recuperación de Información

Estrategia de Filtro y Recuperación de Información

Resultados y Discusión

Colección Huracán Sandy

Coordenadas - Hashtag

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Coordenadas Coordenadas (2 más cercanos)

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

1

0,2 0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Coordenadas Coordenadas (2 más cercanos)

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8 0,9

Pre

cisi

ón

RecallTexto Coordenadas Coordenadas (2 más cercanos)

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

Recall

Texto Coordenadas Coordenadas (2 más cercanos)

Norm -Wildcard Norm -Wildcard

Norm -Wildcard Norm -Wildcard

Hurricane Sandy

COORDENADAS

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Coordenadas Coordenadas (2 más cercanos)

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

1

0,2 0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Coordenadas Coordenadas (2 más cercanos)

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8 0,9

Pre

cisi

ón

RecallTexto Coordenadas Coordenadas (2 más cercanos)

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

Recall

Texto Coordenadas Coordenadas (2 más cercanos)

Norm -Wildcard Norm -Wildcard

Norm Wildcard Norm Wildcard

Hurricane Sandy

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

1

0,2 0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Hashtag

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7

Pre

cisi

ón

RecallTexto Hashtag

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Hashtag

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Hashtag

Norm -Wildcard Norm -Wildcard

Norm -Wildcard Norm -Wildcard

Hurricane Sandy

HASHTAG

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

1

0,2 0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Hashtag

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7

Pre

cisi

ón

RecallTexto Hashtag

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Hashtag

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8

Pre

cisi

ón

RecallTexto Hashtag

Norm -Wildcard Norm -Wildcard

Norm -Wildcard Norm -Wildcard

Hurricane Sandy

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,45 0,5 0,55 0,6 0,65 0,7 0,75 0,8 0,85

Election New York

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,85

0,9

0,95

0,3 0,4 0,5 0,6 0,7 0,8 0,9

Texto

Tiempo + Coordenadas

Hashtag + Coordenadas

Hashtag + Tiempo

Hurricane Sandy

0,5

0,55

0,6

0,65

0,7

0,75

0,8

0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

Shooting Colorado

Conclusiones

Conclusiones

Los ejes considerados en este trabajo, Hashtag, Coordenadas, Tiempo y Usuario, presentan aportes en la búsqueda en las colecciones, mejorando la recuperación de los mensajes relevantes.

Diferencia entre eventos y colecciones presidenciales.

Uso de normalización y de wildcards.

Conclusiones

Los ejes considerados en este trabajo, Hashtag, Coordenadas, Tiempo y Usuario, presentan aportes en la búsqueda en las colecciones, mejorando la recuperación de los mensajes relevantes.

Uso de normalización y de wildcards.

Diferencia entre eventos y colecciones presidenciales.

Diferencia entre eventos y colecciones presidenciales.

Conclusiones

Los ejes considerados en este trabajo, Hashtag, Coordenadas, Tiempo y Usuario, presentan aportes en la búsqueda en las colecciones, mejorando la recuperación de los mensajes relevantes.

Uso de normalización y de wildcards.

Líneas Futuras

Líneas Futuras

Continuar profundizando (análisis de significancia estadística, comparaciones relativas de uso de wildcard y normalización)

Diseñar la incorporación de los ejes en el proceso de búsqueda del propio motor

Modificando la función de expansión

Ranking de mensajes

Técnicas de Expansión de Consultas en Redes Sociales (Twitter)

Autor: Claudia Zil Bontes Director: Dr. Víctor Fresno Fernández

2015

top related