deze tweet is sarcastisch, zegt de computer - etmaal 2014
Post on 14-Dec-2014
237 Views
Preview:
DESCRIPTION
TRANSCRIPT
Deze tweet is sarcastisch, zegt de computer
Christine Liebrecht MA, Florian Kunneman MA & prof.dr. Antal van den Bosch
2
3
4
5
(Liebrecht, Kunneman & Van den Bosch, 2013)
6
Sarcasme
• Omklappen van evaluatieve polariteit:– Van letterlijk positief naar de bedoelde negatieve
betekenis– Van letterlijk negatief naar de bedoelde positieve
mening(Burgers, Van Mulken & Schellens, 2011)
• Omklappen is impliciet
• Of expliciet
7
Sarcasme
8
Sarcasme
• Linguïstische middelen om sarcasme te markeren (o.a.):– Hyperbool: prachtig weer– Understatement: best slecht weer– Verkleinwoord: lekker weertje– Uitroep: lekker weer!!!!!!!– Herhaling: regen, regen en nog eens regen– Kapitalen: LEKKER weer– Emoticons: lekker weer :-s(Burgers, Van Mulken & Schellens, 2012)
9
Computationele analyse
• Kan een computer sarcastische tweets herkennen?
• Sentimentanalyse• eWOM
10
Sarcasme
• Linguïstische middelen om sarcasme te markeren (o.a.):– Hyperbool: prachtig weer– Understatement: best slecht weer– Verkleinwoord: lekker weertje– Uitroep: lekker weer!!!!!!!– Herhaling: regen, regen en nog eens regen– Kapitalen: LEKKER weer– Emoticons: lekker weer :-s(Burgers, Van Mulken & Schellens, 2012)
11
Methode
• Kan een computer sarcastische tweets herkennen?
• Hashtags: expliciete markeerders (Chang, 2010)
• Hashtags die ‘omklappen’ markeren:– #sarcasme– #ironie– #cynisme– #not(Attardo, 2007; Kreuz & Roberts, 1993; Tsur, Davidov & Rappoport, 2010)
90% van de tweets met een van deze hashtags was inderdaad sarcastisch (Cohen’s Kappa .44)
48.992 3.285 404353.758 + 406.439
12
Methode
Stap 1: de training• 406 duizend (Nederlandse) tweets met een van
de vier genoemde hashtags werd verzameld• Uit die tweets werd de hashtag verwijderd• Vervolgens gingen ze de computer in (machine
learning classifier)• Wellicht herkent de computer patronen in deze
sarcastische uitingen
13
Methode
Stap 2: herkenning• Alle (Nederlandse) tweets van een reguliere dag:• 1 februari 2013: 2.246.904 tweets• 353 daarvan hadden een van de vier hashtags• (die hashtags werden weer verwijderd)
• Lukt het de computer om die 353 eruit te halen?
14
Resultaten
Zijn de door de computer geïdentificeerde tweets sarcastisch of niet?
15
Resultaten
• Annotatie van de top 250 geïdentificeerde tweets.
• Cohen’s Kappa: .53, average mutual F-score: .72
• 35% van de tweets was volgens tenminste 2 codeurs sarcastisch
Nou woehoe nederlands …Wort super gezellig #yeahWooow gezellig hier in huis geweldigGoh #gezellig
3 codeurs: sarcastisch 3 codeurs: niet sarcastisch 2 codeurs: sarcastisch 1 codeur: sarcastisch
16
Resultaten
• 500 meest gebruikte tokens• Eerder onderzoek: veelbesproken onderwerpen
zoals tv-programma’s, school, het weer en ov(Liebrecht et al., 2013)
• Dit onderzoek: nauwelijks onderwerpen!
17
Resultaten
• Veelvoorkomende tokens: – Intensifiers: geweldig, heerlijk, prachtig, super– Niet-geïntensiveerde positieve bijwoorden en
bijvoeglijke naamwoorden: interessant, leuk, slim– Uitroepen: jippie, yes, woehoe, wow– Niet-sarcastische hashtags voor meta-
communicatie: #humor, #lml, #grapje
18
Resultaten
Trainingtweets Geannoteerde tweets
19
Resultaten
20
Conclusie
• Hashtags die sarcasme markeren zijn vrij betrouwbaar (90% vd tweets was sarcastisch)
• 307 van 353 (87%) sarcastische tweets zijn automatisch correct geïdentificeerd
• ‘In het wild’ is het lastig om letterlijke tweets van sarcastische tweets te onderscheiden (35%)
• Linguïstische markeerders zijn intensifiers, positieve bijwoorden en bijvoeglijke naamwoorden, uitroepen, andere hashtags
21
Christine Liebrecht @christineliebrFlorian Kunneman @flowian7Antal van den Bosch @avandenbosch Onderzoeksgroep @RadboudCLSLST
In progress
top related