l’approccio lessico-grammaticale per la sentiment analysis ... · sentiment analysis task...

43
L’Approccio Lessico-Grammaticale per la Sentiment Analysis

Upload: others

Post on 13-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

L’Approccio Lessico-Grammaticale per la Sentiment Analysis

Page 2: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

L’Approccio Lessico-Grammaticale

Il metodo e la pratica di descrizione formale delle lingue

sviluppati da Maurice Gross a partire dalla seconda metà degli anni

Sessanta.

L’unità d’analisi non è la parola, ma la frase semplice, composta da

un verbo o da un altro operatore e da tutti i complementi di verbo

selezionati in base alla valenza dell’operatore stesso

Il lessico è considerato portatore di informazioni di tipo sintattico

e distribuzionale.

Background Teorico

Page 3: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Trattamento automatico di opinioni e sentimenti espressi all’interno di testi non strutturati

Cos’è la Sentiment Analiysis?

Alcune sfide nella ricerca sulla SA sono:

Sentiment and Subjectivity Classification Sentence-level Classification

Document –level Classification

Domain-specific Classification

Contextual Valence Shifting Intensificazione e Downtoning

Comparative Sentences Mining

Negation Modeling

Sentiment Analysis of Comparative Sentences

Sentiment Analysis of Interrogative Sentences

Feature-based Sentiment Analysis

Page 4: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

oj

fjk

ooijkl

hi

tl

Cos’è un’opinione?

oj è l’oggetto sul quale viene espressa l’opinione

fjk rappresenta le caratteristiche (features) dell’oggetto

ooijkl è l’orientamento (positivo o negativo) dell’opinione

hi è opinion holder, colui che esprime l’opinione

tl rappresenta il tempo in cui l’opinione viene espressa

Page 5: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

oj

fjk

ooijkl

hi

tl

Cos’è un’opinione?

oj è l’oggetto sul quale viene espressa l’opinione

fjk rappresenta le caratteristiche (features) dell’oggetto

ooijkl è l’orientamento (positivo o negativo) dell’opinione

hi è opinion holder, colui che esprime l’opinione

tl rappresenta il tempo in cui l’opinione viene espressa

Page 6: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Lessico dei Sentimenti

Page 7: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentiment Polarity Classification

Lessico dei Sentimenti

Categoria

Grammaticale Entrate Esempio

Aggettivi 5.383 allegro

Avverbi 3.626 tristemente

Avverbi composti 793 a gonfie vele

Frasi idiomatiche 552 essere in difetto

Nomi 3.122 eccellenza

Verbi psicologici 635 N0 amare N1

Altri verbi LG 879 N0 prendersla Prep N1

Parolacce 189 leccaculo

Totale 15.179 -

Page 8: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentiment Polarity Classification

Lessico dei Sentimenti

Aggettivo Tag Punteggio

Eva

lua

tio

n s

cale

meraviglioso +POS+FORTE +3

divertente +POS +2

accettabile +POS+DEB +1

insapore +NEG+DEB -1

cafone +NEG -2

disastroso +NEG+FORTE -3

Aggettivo Tag Punteggio S

tre

ng

ht

sca

le

straripante +FORTE +1

episodico +DEB -1

Page 9: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Classificazione Sentiment Polarity Classification

Page 10: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentiment Polarity Classification

Task

Cassificazione di opinionated documents a seconda che esprimano opinioni positive, negative o neutrali rispetto ad un oggetto.

Il documento nella sua interezza è considerato come unità informativa di base, sulla quale viene calcolato l’Orientamento Semantico (OS).

Metodo

Approccio basato sul lessico e sull’idea che l’OS di un testo sia strettamente dipendente da quello delle singole parole e delle sequenze di parole occorrenti in esso.

La Prior Polarity rappresenta l’OS delle parole fuori dal contesto.

Classificazione

Page 11: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentence-level analisys

Criticità: contesto locale (sintagma, frase nucleare)

Document-level analisys

Criticità: contesto testuale, discourse markers, interazione tra diversi orientamenti semantici

Domain-specic analysis

Criticità: orientamento del lessico che varia a seconda del dominio

Sentiment Polarity

Classification

Research Challanges

Classificazione

Carini gli attori, la fotografia, i dialoghi, ma il film nel complesso è noiosissimo.

+1 +1 +1 -3

È stato orribile, spaventoso, sono ancora scioccato!

Film horror

+3

Hotel -3

carino davvero carino non proprio carino più carino del tuo

+1 +2 -1

+1?

Page 12: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Contesto Contextual Valence Shifters

Page 13: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentiment Polarity Classification

Contesto

Capovolgimento +2 → -2 La Citroen non[Negative_Operator] produce auto valide[A+POS]

Slittamento +3 → -1 Grafica non[Negative_Operator] proprio spettacolare[A+POS+FORTE]

Negazione e Intensificazione +2 → +3

+3 → -1

Personale alla reception non[Negative_Operator] sempre[AVV+FORTE] gentile[A+POS].

Page 14: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentiment Polarity Classification

Contesto

Frasi idiomatiche Comparative N0 Agg come C1

+2 → +3 Mary è bella[A+POS] come il sole.

Comparativo di Minoranza e Maggioranza

0 → +2 L'S3 è complessivamente superiore all'Iphone5

Comparativo Assoluto

+2 → +3 Il suo motore era anche il più brioso[A+POS]

0 → -3 Un film peggiore di qualsiasi telefilm.

Page 15: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Contextual Valence Shifters Esempio CVS

Indicatori Polarizzati

Parole Negative Parole

Neutrali Parole Positive

osceno cafone distratto biondo carino buono prodigioso

PRIOR POLARITY -3 -2 -1 0 +1 +2 +3

INTENSIFICAZIONE parecchio

DOWNTONING leggermente

NEGAZIONE non

Il protagonista del film

osceno cafone distratto colorato carino buono prodigioso

-3 -2 -1 0 +1 +2 +3

Page 16: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Contextual Valence Shifters Esempio CVS

Indicatori Polarizzati

Parole Negative Parole

Neutrali Parole Positive

osceno cafone distratto biondo carino buono prodigioso

PRIOR POLARITY -3 -2 -1 0 +1 +2 +3

INTENSIFICAZIONE parecchio

DOWNTONING leggermente

NEGAZIONE non

Il protagonista del film è parecchio è leggermente non è

osceno cafone distratto colorato carino buono prodigioso

Page 17: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Intensification vs

Downtoning

Task

Localizzazione degli elementi lessicali e sintattici in grado di alterare l’intensità delle espressioni orientate semanticamente.

In letteratura tale funzione viene attribuita ad alcuni aggettivi e avverbi.

Metodo

Approccio differenziato su diversi livelli:

Livello morfologico: Suffissi per il superlativo assoluto

(-issimo, -errimo); Prefissi per l’intensificazione (-

super, stra-) e il downtoning (-micro, -semi);

Livello sintattico: Ripetizione di parole

positive/negative (bello bello bello; orribile, tremendo);

Co-occorrenza di parole intensive e parole polarizzate (molto carino)

Contesto

Page 18: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Intensification vs

Downtoning

Research Challanges

Modificatori aggettivali e avverbiali: AVVmod-A: Parzialmente[-] deludente[-2] anche il reparto degli attori [-1]

AVVmod-AVV: Ne sono rimasta molto[+] favorevolmente[+2] colpita [+3]

Amod-N: Ciò che ne deriva è una terribile[-2] confusione[-2] narrativa [-3]

AVVmod-V: Alla guida ci si diverte[+2] molto[+] [+3]

Verbi intensificatori/downtoners: Maria strilla[+] il suo risentimento[-2] [-3]

Maria accenna[-] al suo risentimento[-2] [-1]

Il cuore di Maria si gonfia[+] di risentimento[-2] [-3]

Il risentimento[-2] di Maria si placa[-] [-1]

Nomi intensificatori/downtoners: La sfrenatezza[+] dell’odio[-3] di Maria [-3]

Luca difendeva[+2] Maria con fervore[+] [+3]

Contesto

Page 19: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Intensification vs

Downtoning

Research Challanges

Excess Quantifiers

Contesto

Page 20: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Comparative Sentence Mining

Task

Individuazione automatica di:

delle entità messe in gioco nelle frasi comparative

delle opinioni espresse in merito a tali entità

delle preferenze espresse, riguardanti:

una delle entità

proprietà di una delle entità

Metodo

Classificazione della frase comparativa in:

Comparativo assoluto,

Comparativo relativo

Comparativo di maggioranza

Comparativo di minoranza

Comparativo di uguaglianza

Classificazione dell’opinione in: Opinione Negativa

Opinione Positiva

Classificazione dell’intensità dell’opinione in

Intensità Forte

Intensità Debole

Contesto

Page 21: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Regole

Contesto

Comparativo di maggioranza + parole positive + (intensificatori)

Comparativo di minoranza + parole positive + (intensificatori)

Comparative Sentence

Mining

Research Challanges

Page 22: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Regole

Contesto

Comparativo di minoranza + parole negative + (intensificatori)

Comparativo di maggioranza + parole negative + (intensificatori)

Comparative Sentence

Mining

Research Challanges

Page 23: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Regole

Contesto

Comparative Sentence

Mining

Research Challanges

Comparativo di minoranza + parole positive + (intensificatori) + negazione

Comparativo di minoranza + parole positive + (intensificatori) + negazione

Page 24: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Comparative Sentence

Mining

Regole

Contesto

Research Challanges

Comparativo di minoranza + parole negative + (intensificatori) + negazione

Comparativo di maggioranza + parole positive + (intensificatori) + negazione

Page 25: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Negation Modeling

Task

Individuazione automatica delle espressioni di negazione e calcolo dell’orientamento semantico risultante.

Il Negation Scope rappresenta la porzione di significato modificato dalla negazione.

Metodo

Approccio differenziato su diversi livelli:

Livello morfologico: Prefissi di negazione (non-

, a-, de-, contro/a-, ecc… );

Livello lessicale e sintattico Co-occorrenza di operatori

di negazione e parole polarizzate

Contesto

Page 26: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Negation Modeling

Indicatori

Prefissi di negazione non-, a-, de-, contro/a-, ecc… ;

Avverbi di negazione no, non, mica, affatto, ecc… In nessun modo, per nulla al mondo, neanche per sogno, ecc…

Quantificatori A: Nessun servizio nelle stanze [-2] AVV: Costa quasi niente [+1] PRON: Non gliene frega niente a nessuno [-3]

Lexical Negation Nomi, aggettivi e verbi legati all’assenza di qualità o proprietà

(mancanza, assenza, carente, privo, ecc…)

Contesto

Page 27: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Co-occorrenza tra: • Negation Operator • Sentiment Word

Co-occorrenza tra: • 2 Negation Operators • Sentiment Word

Regole

Contesto

Negation Modeling

Research Challanges

Page 28: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Co-occorrenza tra: • Strong Negation Operator • Sentiment Word

Co-occorrenza tra: • Weak Negation Operator • Sentiment Word

Negation Modeling

Research Challanges

Regole

Contesto

Page 29: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentiment Analysis of Interrogative Sentences

Metodo

Classificazione delle frasi interrogative

Interrogative dirette Interrogative indirette Interrogative totali Interrogative parziali

Interazione tra altri contextual valence shifters e frase interrogativa

Individuazione di diversi livelli di sicurezza del giudizio

Task

Analisi della co-occorrenza tra indicatori di frase interrogativa e parole polarizzate

In che modo la presenza di una frase interrogaziva altera l’Orientamento Semantico di una parola o di una frase?

Contesto

Page 30: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Interrogative Sentences

Research Challanges

Sicurezza del giudizio

É carino? FRASI DICHIARATIVE Punteggio

Alta Molto alta Alta Molto alta Media

Si Si No No Forse si

X è carino X è davvero carino X non è carino X non è proprio carino X è più carino di Y

+1 +2 -2 -1 +1 (X)

Sicurezza del giudizio

É carino? FRASI INTERROGATIVE Punteggio

Nulla Bassa Media Alta bassa

Forse Forse Si Si Forse

X è carino? X è davvero carino? X non è carino? X non è proprio carino? X è più carino del tuo?

0 +1? +1 +2 0

Contesto

Page 31: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Interrogative Sentences

Research Challanges

Sicurezza del giudizio

É carino? FRASI DICHIARATIVE Punteggio

Alta Molto alta Alta Molto alta Media

Si Si No No Forse si

X è carino X è davvero carino X non è carino X non è proprio carino X è più carino di Y

+1 +2 -2 -1 +1 (X)

Sicurezza del giudizio

É carino? FRASI INTERROGATIVE Punteggio

Nulla Bassa Media Alta bassa

Forse Forse Si Si Forse

X è carino? X è davvero carino? X non è carino? X non è proprio carino? X è più carino del tuo?

0 +1? +1 +2 0

Contesto

Abbassamento generale della sicurezza del giudizio

Page 32: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Interrogative Sentences

Research Challanges

Sicurezza del giudizio

É carino? FRASI DICHIARATIVE Punteggio

Alta Molto alta Alta Molto alta Media

Si Si No No Forse si

X è carino X è davvero carino X non è carino X non è proprio carino X è più carino di Y

+1 +2 -2 -1 +1 (X)

Sicurezza del giudizio

É carino? FRASI INTERROGATIVE Punteggio

Nulla Bassa Media Alta bassa

Forse Forse Si Si Forse

X è carino? X è davvero carino? X non è carino? X non è proprio carino? X è più carino del tuo?

0 +1? +1 +2 0

Contesto

Abbassamento (o azzeramento) dell’intensità della polarità

Page 33: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Interrogative Sentences

Research Challanges

Sicurezza del giudizio

É carino? FRASI DICHIARATIVE Punteggio

Alta Molto alta Alta Molto alta Media

Si Si No No Forse si

X è carino X è davvero carino X non è carino X non è proprio carino X è più carino di Y

+1 +2 -2 -1 +1 (X)

Sicurezza del giudizio

É carino? FRASI INTERROGATIVE Punteggio

Nulla Bassa Media Alta bassa

Forse Forse Si Si Forse

X è carino? X è davvero carino? X non è carino? X non è proprio carino? X è più carino del tuo?

0 +1? +1 +2 0

Contesto

Inversione della polarità delle interrogative contenenti operatori di negazione

Page 34: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Features Feature-based Sentiment Analysis

Page 35: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Feature-based Sentiment Analysis

Task

Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti oggetto di opinione.

Nella quasi totalità dei casi questi nomi, essendo oggettivi e non soggettivi, non appartengono al nostro lessico dei sentimenti.

Metodo

Approccio basato sull’identificazione e sulla classificazione di nomi, semplici o composti, che nei testi appaiono frequentemente attorno a giudizi e valutazioni.

Features

Page 36: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sperimentazione

Page 37: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentiment Polarity

Classification

Risultati

Document-level (%) Cars Smartphones Movies Books Hotels Videogames Average

PRECISION 71,0 72,0 63,0 74,0 91,0 72,0 74,0

RECALL 100 98,6 100 96,1 98,9 91,2 97,5

F-measure** 83,0 83,2 77,3 83,6 94,8 80,5 84,1

Sentence-level (%) Cars Smartphones Movies Books Hotels Videogames Average

PRECISION* 79,2 74,5 56,9 73,7 81,3 78,6 74,0

RECALL 72,7 79,6 64,8 65,7 72,1 58,8 69,0

F-measure** 75,8 77,0 60,6 69,5 76,4 67,3 71,4

Sperimentazione

Page 38: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Sentiment Polarity

Classification

Visualizzazioni

Andamento della Polarità di Tweet rispetto a segmenti temporali

Sperimentazione

Page 39: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Feature-based Sentiment

Analysis

Quali sono gli indicatori migliori

per la feature extraction?

I nodi più «pesanti» corrispondono quasi sempre agli

aggettivi

Rete di similarità semantica in un corpus orientato semanticamente

Sperimentazione

Page 40: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Feature-based Sentiment

Analysis

Visualizzazioni

Sperimentazione

Feature-based Sentiment Analysis su Twitter

Page 41: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Feature-based Sentiment

Analysis

Visualizzazioni

Sperimentazione

Feature-based Sentiment Analysis su Twitter

Page 42: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Feature-based Sentiment

Analysis

Visualizzazioni

Spider Graph per il confronto fra review basato su features

Page 43: L’approccio Lessico-Grammaticale per la Sentiment Analysis ... · Sentiment Analysis Task Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti

Grazie per l’attenzione

[email protected]