metodologia per la classificazione automatica di commenti su social network slide
TRANSCRIPT
Metodologia per la classificazione automatica di commenti non desiderati
su social network
Università degli Studi di TriesteDipartimento di ingegneria e architetturaCorso di laurea magistrale in ingegneria informatica
Anno accademico 2014/2015
LaureandoSimone Maver
Relatoreprof. Alberto Bartoli
Correlatoreprof. Eric Medvet
1
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Il problema
All’interno di un social network:● Un utente ha uno spazio personale in cui
inserisce dei contenuti
● Riceve contenuti da altri utenti, sotto forma di commenti
● Alcuni contenuti che riceve potrebbero essere indesiderati
2
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Il problema I
● Necessità di poter moderare○ contenuti○ fonti da cui provengono
● Permettere ad un utente di farlo in maniera○ precisa○ personalizzata
3
● Alcuni contenuti potrebbero essere indesiderati
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
È importante?● Alcuni contenuti potrebbero essere indesiderati
○ Necessità riconosciuta anche dai gestori dei social network: “Twitter CEO: We suck at dealing with trolls and abuse” - The guardian, febbraio 2015)
● I social network sono un media che sta assumendo sempre maggiore importanza○ “As of January 2014, 74% of online adults use social
networking sites.” - Social networking fact sheet, PEW Research Center
○ Here’s how 9 Best Companies use Facebook, Twitter,[...] and other social networks to stay ahead of the competition: Autodesk, Boston Consulting Group, American Express, [...] - Social media superstars 2014, Forbes
4
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Obbiettivo del lavoro
● Definire un formalismo per descrivere insiemi di regole di filtraggio
● Proporre un metodo per applicare le regole
● Verificare l’usabilità del metodo proposto con un campione di utenti reali
5
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Social newtork● Twitter
○ un utente inserisce un tweet○ gli altri utenti possono rispondere con un commento
■ commento = tweet di risposta
○ esiste il concetto di conversazione■ è un insieme di tweet
● i dati su Twitter sono pubblici
6
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Scenario
7
● Gli elementi coinvolti nelle operazioni di filtraggio sono:○ commento○ utenti○ conversazione
RegolaCommento
Conversazione
Filtrato
NON filtrato
NB: filtrato = respinto dalla regola
● Oggetto del filtraggio saranno i commenti (tweet di risposta) parte di una conversazione
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Struttura di una regola
8
● In una regola possono essere presenti uno o più elementi, specificati da chi forma la regola
sono insiemi di topic
sono insiemi di label
sono dei flag booleaniun insieme di relazioni
un insieme di utenti
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Applicazione della regola● Le informazioni riguardanti commenti, utenti
e conversazione vengono confrontate con gli elementi specificati nella regola
● Se almeno uno dei confronti porta al filtraggio, allora il commento è filtrato (respinto) dalla regola
9
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Informazioni di contesto● Informazioni che potrebbero essere coinvolte nel
filtraggio:○ topic - argomenti di discussione:arte, scienza, politica, salute,
sport, ...
○ label - etichette; descrivono informazioni di contesto relative a:
■ utente:● utenteVerificato, utenteAppenaRegistrato
■ messaggio:
● volgare, georeferenziato, contieneImmagini, contieneLink, nonContieneTesto
○ relazioni tra gli utenti: segue, èSeguito
● Nel corso del lavoro sono state definite alcune funzioni per mettere in relazione elementi della regola e caratteristiche sopra descritte 10
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Esempi di regole
● Rifiuta tutti i messaggi volgari:
11
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Esempi di regole I
12
● Rifiuta tutti i messaggi quando si parla di basket, tranne i messaggi da utenti che hanno alcuni topic in comune con l’autore della regola:
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Esempi di regole II
● Rifiuta tutti i messaggi pubblicati dall'utente Prandelli quando nella conversazione si parla di sport:
13
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Estrazione dei dati
● Obbiettivo: recuperare dei dati da utilizzare nella fase di validazione
● Sorgente: social network Twitter○ dati pubblici○ privacy policy meno restrittive○ presenza di conversazioni○ API ben documentate
■ utilizzabili tramite Java
14
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Estrazione dei dati II
Presenza di conversazioni:● esiste la nozione di conversazione
○ tweet iniziale + tweet(s) di risposta
● non disponibili direttamente tramite API
15
È stato necessario ricostruire le conversazioni:● partendo dal tweet iniziale● cercando i singoli tweet di risposta
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Estrazione dei dati IIIRicostruzione conversazioni
16
● Per ricostruire conversazioni più possibile complete è stato necessario○ estrarre molti tweet○ verificare che siano risposte ai tweet già presenti
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Estrazione dei dati IVObbiettivo dell’estrazione:● 100 utenti autori di conversazioni● 100 conversazioni per ognuno degli utenti sopra● almeno 5 tweet per ogni conversazione
17
Non è stato raggiunto completamente:● non era possibile verificare la disponibilità dei dati a priori● le limitazioni temporali e quantitative imposte da Twitter
hanno inciso sulla durata● dopo ~72 ore di esecuzione l’estrazione è stata interrotta● sono stati mantenuti i dati estratti
○ 23627 conversazioni totali (1 < lunghezza < 107 tweet)○ 6 autori di conversazioni con almeno 100 conversazioni da
almeno 5 tweet
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Validazione del sistema
Obbiettivo:● verificare usabilità e efficacia del sistema di filtraggio
Come raggiungerlo:● somministrazione di più task di filtraggio a un campione
reale di utenti
18
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Validazione del sistema I
● Per ogni task vengono forniti○ descrizione testuale del filtraggio da effettuare○ qual è l’utente da impersonare○ quali utenti sono coinvolti nella conversazione○ conversazione sulla quale eseguire il filtraggio
■ informazioni di contesto necessarie (topic, label, relazioni,...)
○ possibilità di creare, eliminare e modificare regole
19
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Validazione del sistema II
Dati raccolti durante l’utilizzo1. task assegnato all’utente2. tempo di esecuzione del task assegnato3. numero di operazioni effettuate sulle
regole
20
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Applicazione web
21
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Operazioni su una regola
22
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Operazioni su una regola I
23
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Visualizzazione tweet
Evidenziazione tweet da filtrare
24
Evidenziazione tweet filtrati
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
Conclusioni
25
● Definito il formalismo per formare le regole
● Proposto un metodo per applicare le regole ai messaggi
● L’applicazione web è quasi completa
● Non è stato effettuato il test con gli utenti
Classificazione automatica di commenti non desiderati Simone Maver - DIA - UniTS
26
Grazie per l’attenzione