détection automatique d'évènements et d'opinion publique à...
TRANSCRIPT
![Page 1: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/1.jpg)
Détection automatique d'évènements et d'opinion publique à partir de Twitter
Houssem Eddine DRIDI Guy LAPALME
opWeb’14, Avril 2014
![Page 2: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/2.jpg)
2
![Page 3: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/3.jpg)
Notre recherche
• Détection des évènements. • Traiter des tweets qui portent sur la Tunisie. • Regrouper les termes ‘similaires’. • Trouver les dates saillantes. • Corpus :
– Nous avons extrait 258 552 tweets, entre le 08/02/2012 et 15/04/2012 (67 jours).
3
![Page 4: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/4.jpg)
Dialecte tunisien
j'ai voté, ta7ya tounes #TnElec #Vote
تصويرة بن علي رجعت في حلق الوادي
Retour de Ben Ali à La Goulette http://t.co/RqVXr5Hu #tunisie #tnelec
4
![Page 5: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/5.jpg)
Détection des évènements
• Twitter constitue un excellent moyen pour diffuser des informations, pour discuter des évènements et pour donner des avis.
• Plusieurs recherches ont montré que le contenu de ces outils reflète étroitement l’intérêt et les préoccupations des utilisateurs en temps réel.
5
![Page 6: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/6.jpg)
Détection des évènements
• Un évènement est représenté par un ensemble de termes. – Disparition de l'avion Malaysia Airlines: {#PrayForMH370, #MH370,
#MH370Flight, #MalaysiaAirlines, etc.}.
• Objectif : – Regrouper automatiquement les termes représentant un même sujet. – Trouver les sujets (évènements) les plus importants ���
(fréquence des termes, etc.).
• Défi : – Supporter les conventions d’écriture, les fautes, la taille réduite d’un
message, etc.
6
![Page 7: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/7.jpg)
Regroupement : pourquoi ?
7
0"
20"
40"
60"
80"
100"
120"
140"
160"
180"
Feb+07"
Feb+09"
Feb+11"
Feb+13"
Feb+15"
Feb+17"
Feb+19"
Feb+21"
Feb+23"
Feb+25"
Feb+27"
Feb+29"
Mar+02"
Mar+04"
Mar+06"
Mar+08"
Mar+10"
Mar+12"
Mar+14"
Mar+16"
Mar+18"
Mar+20"
Mar+22"
Mar+24"
Mar+26"
Mar+28"
Mar+30"
Apr+01"
Apr+03"
Apr+05"
Apr+07"
Apr+09"
Apr+11"
Apr+13"
Apr+15"
ghanim"
ghonim"
wajdighanim"
wajdighonim"
Visite"de"Wajdi"Ghanim"
![Page 8: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/8.jpg)
8
Regroupement : pourquoi ?
0"
20"
40"
60"
80"
100"
120"
140"
160"
180"
Feb+07"
Feb+08"
Feb+09"
Feb+10"
Feb+11"
Feb+12"
Feb+13"
Feb+14"
Feb+15"
Feb+16"
Feb+17"
Feb+18"
Feb+19"
Feb+20"
Feb+21"
Feb+22"
Feb+23"
Feb+24"
Feb+25"
Feb+26"
ghanim"
ghonim"
wajdighanim"
wajdighonim"
Visite"de"Wajdi"Ghanim"
![Page 9: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/9.jpg)
Normalisation des hashtags
• Soundex [Russel et Odell, 1922]: – Normaliser les termes qui ont une même prononciation. – Code les mots qui ont la même prononciation par la même chaine
de caractères. GHNM0 = {#ghanim, #ghenim, #ghnaim, #ghnim, #ghoneim, #ghonem, …}.
S0000 = {#sousse, #suisse, #ouais, …}
• Normalisation des dates : – 9avril = {#9avril, #9april, #9avil, #9avirl, }
• Translittération :
9
GHNM0
![Page 10: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/10.jpg)
Normalisation des hashtags : Résultats
Nb. hashtags 12 218 Nb. hashtags écrits en latin 11 693 Nb. groupes Soundex initiaux 7 810 Nb. groupes de Soundex après la normalisation des dates 7 781 Nb. groupes de Soundex en disjoignant les Noisy Soundex 8 750 Nb. groupes de Soundex après la translittération 9 033
10
![Page 11: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/11.jpg)
Regroupement hashtags : DBScan [Ester, 1996]
• Nombre de clusters est déterminé par l’algorithme. • Mesure de similarité :
– Deux hashtags apparaissant avec les mêmes hyperliens suggère que ces hashtags portent sur la même chose.
– Les hashtags qui apparaissent ensemble, sont sémantiquement similaires : Normalized Pointwise Mutual Information (NPMI)
11
![Page 12: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/12.jpg)
Regroupement : termes
• Utiliser des techniques de Topic Model (p.ex. LDA [Blei et al. , 2003]) pour regrouper les termes liés a un même sujet.
• Chaque document (tweet) peut être représenté comme un mélange de sujets latents, ou un sujet est lui-même représenté comme une distribution des mots qui ont tendance à co-occurrer.
• Les mots fortement liés à un sujet donné ont les valeurs de probabilité plus grandes.
12
![Page 13: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/13.jpg)
Déterminer les évènements
• Fréquence : – Nous avons considéré que chaque groupe obtenu représente un
évènement. – Nous avons calculé la fréquence quotidienne de chaque groupe.
• Regroupement tweets similaires : – Expansion des hashtags des tweets – Utiliser algorithme incrémental.
• Déterminer les dates saillantes : – Nous avons utilisé une méthode préexistante [Palshikar, 2009]
permettant de détecter les dates saillantes. Cette méthode permet de détecter les pics dans une série temporelle.
13
![Page 14: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/14.jpg)
Validation
• L’évaluation de l'exactitude de la méthode est une tâche difficile : pas de données de référence.
• Deux méthodes utilisées : 1. Vérification de l'importance et de la date de chaque
évènement auprès d'un ensemble des medias traditionnels (journaux numériques) fiables.
2. Recours à des experts, dans notre cas des Tunisiens au courant des évènements qui se sont déroulés en Tunisie, afin de distinguer les évènements importants parmi ceux détectés par nos méthodes.
14
![Page 15: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/15.jpg)
Validation
15
http://rali.iro.umontreal.ca:8080/dridihou/
![Page 16: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/16.jpg)
Exemple de résultats
16
Code Soundex
Hashtags Dates saillantes
DF Fréq. Écart-Type
TF-IDF
9avril #9avril #9april #9avil #9avirl
09/04 14 6070 516.73 4127,27
MPL00 #empl #emplo #emploi 16/03 67 3025 22.12 0 RCRTM #recrutement 16/03 67 2854 22.63 0 WTHR0 #weather 15/02,
16/02 65 2043 10.25 68,81
![Page 17: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/17.jpg)
Exemple de résultats
Code Soundex
Hashtags Dates saillantes
DF Fréq. Écart-Type
TF-IDF
9avril #9avril #9april #9avil #9avirl
09/04 14 6070 516.73 4127,27
MPL00 #empl #emplo #emploi 16/03 67 3025 22.12 0 RCRTM #recrutement 16/03 67 2854 22.63 0 WTHR0 #weather 15/02,
16/02 65 2043 10.25 68,81
Code Soundex
Hashtags Dates saillantes
DF Fréq. Écart-Type
TF-IDF
9avril #9avril #9april #9avil #9avirl
09/04 14 6070 516.73 4127,27
20mars #20mars, # 20مارس 20/03 15 1422 124,59 924,27
ugtt #ugtt 25/02 50 1797 97,76 182,93 NHD00 #enahda #enanhda
#enhada 21/02 66 1872 66,41 12,23
![Page 18: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/18.jpg)
Exemple de résultats
18
Code Soundex
Hashtags Dates saillantes
DF Fréq. Écart-Type
TF-IDF
9avril #9avril #9april #9avil #9avirl
09/04 14 6070 516.73 4127,27
20mars #20mars, # 20مارس 20/03 15 1422 124,59 924,27
ugtt #ugtt 25/02 50 1797 97,76 182,93 NHD00 #enahda #enanhda
#enhada 21/02 66 1872 66,41 12,23
Code Soundex
Hashtags Dates saillantes
DF Fréq. Écart-Type
TF-IDF
9avril #9avril #9april #9avil #9avirl
09/04 14 6070 516.73 4127,27
TNPHR #tunpharma 04/04 04/05 15 1710 52,79 1111,47
20mars #20mars, # 20مارس 20/03 15 1422 124,59 924,27
3PLKT #application 04/04 04/05 15 1355 41,89 880,72
![Page 19: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/19.jpg)
Évaluation
• Garder que les sujets pics selon le critère. • Annotation par 10 experts.
19
Critères fréquence variation TF-IDF Sujets pics 123 88 81 Précision 64 % 82 % 95 %
![Page 20: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/20.jpg)
Conclusion et travaux futurs
• Contenu de microblogs reflète énormément l’humeur et les préoccupations des utilisateurs.
• Regroupement des termes similaires est utile. • Déterminer l’opinion publique pour un évènement :
– Déterminer la proportion de chaque polarité (positive, négative, neutre) à partir des tweets assignés à l’évènement.
– Pas de ressources disponibles! – Corpus actuel : environ 4000 tweets annotés
20
![Page 21: Détection automatique d'évènements et d'opinion publique à ...mediamining.univ-lyon2.fr/velcin/fows/slides/dridi_slides.pdf · Regroupement : termes! • Utiliser des techniques](https://reader033.vdocuments.pub/reader033/viewer/2022041704/5e43ead69f9df3790248884a/html5/thumbnails/21.jpg)