twitter-daten in der sozialwissenschaftlichen forschung ......lexical normalisation of short text...
TRANSCRIPT
Twitter-Daten in der sozialwissenschaftlichen Forschung:
Möglichkeiten und Herausforderungen
7. Oktober 2013, 13:00-18:00 8. Oktober, 9:30-15:00
GESIS Workshop, Köln
Dr. Katrin Weller, [email protected], @kwelle
Aufbau des Workshops
Ziele
• Twitter als Datenquelle kennenlernen
• Einschätzen lernen, was mit Twitter-Daten möglich ist, und was nicht
• Überblick über Herangehensweisen, Methoden, Stand der Forschung, Schwierigkeiten
Aufbau des Workshops
1. Einführung in Twitter (mit Übung)
2. Stand der Twitter-Forschung – Ein Überblick
3. Twitter-Tools
4a. Ein erster Blick in die Twitter-Daten
4b. Twitter-Datensätze unter der Lupe
5. Studien planen – was geht, was geht nicht?
6. Übung: Studien planen
7. Diskussion: Datenqualität, Forschungsethik, rechtlicher Rahmen
Unterrichtsmaterialien
• Folien werden online zur Verfügung gestellt: http://katrinweller.net
• Weiterführende Informationen: http://kwelle.wordpress.com/2013/08/14/some-useful-resources-for-starting-twitter-research/#more-100
• Test-Datensätze bitte nicht weitergeben!
Vorstellung
• Interessen, Forschungshintergrund
• Erwartungen
• Konkrete Pläne mit Twitterdaten?
Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/
1. Twitter – Eine Einführung
gegründet in 2006, eigenständige Plattform seit 2007
Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/
Twitter 2013
Twitter in Zahlen
• March 2012: 140 million active users and 340 million Tweets a day
• December 2012: more than 200 million users
• USA, 2012: 15% of online adults use Twitter
• Germany, 2012: 4% of population
PEW Internet: http://www.pewinternet.org/Reports/2012/Twitter-Use-2012.aspx
Twitter Blog: http://blog.twitter.com/2012/03/twitter-turns-six.html
@twitter: https://twitter.com/twitter/status/281051652235087872
ARD/ZDF online Studie http://www.ard-zdf-onlinestudie.de/fileadmin/Online12/0708-2012_Busemann_Gscheidle.pdf
Twitter vs. Facebook
10
In Deutschland
Facebook: 72.1% (aller Internetnutzer)
Twitter: 10.5% (aller Internetnutzer)
German Social Media Consumer Report: http://www.socialmediathinklab.com/wp-content/uploads/2013/02/WWU_Social-Media-Consumer-Report_0213_Ansicht.pdf
Randnotizen
• Trends 2012: Olympics, Wahlen in USA.
• Twitter-Nutzer mit den meisten Followern?
• Die meisten Retweets:
https://2012.twitter.com/de/golden-tweets.html
Mar
ch, 2
01
3, h
ttp
://t
wit
terc
ou
nte
r.co
m/p
ages
/10
0
Und wie funktioniert das?
Tweet = max. 140 Zeichen
Followers / Followees
Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Network or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA.
Timeline
Retweet (RT)
Kooti, F., Yang, H., Cha, M., Gummadi, K.P. & Mason, W.A. (2012). The Emergence of Conventions in Online Social Networks. Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2012), Dublin.
@message (@mention) ≠ direct message
#hashtags
#hashtags
19 März 2013 6 Oktober 2013
URLs
Fotos
Nutzerprofile
Übung
Übung 1: Suchen
• Nach Tweets:
– mit und ohne Hashtag
• Nach Personen
– nach dem offiziellen Account der eigenen Institution
– nach einem verifizierten Account
• (Suchen ohne Login: https://twitter.com/search-home)
Übung 2: Account anlegen
Wer keinen eigenen Account anlegen möchte:
Twitter Test-Account: [aus den Folien gelöscht]
Passwort: [aus den Folien gelöscht]
Übung 3: Folgen
• 2-3 interessante Accounts aussuchen und diesen folgen
• Min. einem anderen Kursteilnehmer folgen
• Zurück-folgen!
Übung 4: Tweets schreiben
• zuerst einen ‚normalen‘ Tweet
• dann einen mit Hashtag
• und dann eine @message an einen anderen Kursteilnehmer
• und nun noch ein Retweet
Übung 5: Hashtag auswählen
• Einen gemeinsamen Hashtag für den Workshop festlegen
Übung 6: Trending topics
• Die Trending Topics ansehen
– Für Deutschland
– Weltweit
– Für ein anderes Land oder für die eigene Heimatstadt
Übung 7: Direct message schreiben
• Einem anderen Teilnehmer eine direct message schicken.
Fragen?
2. Stand der Forschung
Entwicklung der Twitter-Forschung
Twitter vs. Facebook
Scopus (TITLE-ABS-KEY(Twitter) AND PUBYEAR > 2006) (TITLE-ABS-KEY(Facebook) AND PUBYEAR > 2006)
Scopus: Publikationen aus 70 Ländern
36
pointless babble?
Frühe Twitter-Forschung
• Java et al. (2007) identifizieren einen Großteil an Tweets als “daily chatter”.
• Pear Analytics study: 40% of tweets are pointless babble (Kelly, 2009).
Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: understanding microblogging usage and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis (WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 56-65. DOI=10.1145/1348549.1348556 http://doi.acm.org/10.1145/1348549.1348556 Kelly, R. (2009). Twitter Study. Pear Analytics, retrieved from http://www.pearanalytics.com/wp-content/uploads/2012/12/Twitter-Study-August-2009.pdf
Twitter Evolution
• Kommunikation bei Twitter entwickelt sich weiter
• @-Symbol für Antworten (Honeycutt & Herring, 2009)
• Retweets
Neue Studien untersuchen Kommunikationsstruktur und Netzwerke
Honeycutt, C., and Herring, Susan C. (2009). Beyond microblogging: Conversation and collaboration via Twitter. Proceedings of the Forty-Second Hawaii International Conference on System Sciences.Los Alamitos, CA IEEE Press.
De-benalizing Twitter!
Rogers, R. (2014). Debanalizing Twitter: The transformation of an object of study. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. ix-xxvi). New York et al.: Peter Lang.
Was wird erforscht?
Was wird erforscht?
Ausgewählte Forschungsbereiche
44
Politikwissenschaft
• Kommunikationsverhalten v.a. im Wahlkampf
• Stimmungen im Wahlkampf
• Interaktionen zwischen Parteien
• eDemocracy
Ausgewählte Forschungsbereiche
45
Kommunikations- und Medienwissenschaft
• Übertragung von Methoden der Medienanalyse
• Brand communication
• Crisis communication
• Verschiedene Zielgruppen, verschiedene Kommunikationssituationen
• Rolle von @messages, RTs etc.
Ausgewählte Forschungsbereiche
46
Informatik / Informationswissenschaft
• Information Retrieval in Tweets
• Informationsflüsse
• Netzwerke
• Zitationsanalysen
Twitter in der sozialwissenschaftlichen Forschung?
Weller, K. (2013). What you can get from Twitter – and what not. Presentation at ISSC’s World Social Science Forum (WSSF) 2013. Montreal, Canada. Slides: http://de.slideshare.net/katrinweller/weller-wssf-2013presentation . Extended Abstract: http://kwelle.files.wordpress.com/2013/10/wssf2013_weller_what-do-we-get-from-twitter.pdf
No. Publication Citations Data
[1] Huberman, B. A., Romero, D. M., & Wu, F. (2009). Social networks that matter: Twitter under the microscope. First Monday,
14(1). Retrieved from http://firstmonday.org/ojs/index.php/fm/article/view/2317/2063
155 309740 Twitter users (with followers and
tweets)
[2] Marwick, A. E., & boyd, d. (2011). I tweet honestly, I tweet passionately: Twitter users, context collapse, and the imagined
audience. New Media & Society, 13(1), 114–133. doi:10.1177/1461444810365313
77 Interviews with 181 Twitter users
[3] Junco, R., Heiberger, G., & Loken, E. (2011). The effect of Twitter on college student engagement and grades. Journal of
Computer Assisted Learning, 27(2), 119–132. doi:10.1111/j.1365-2729.2010.00387.x
55 Experiment with 125 students.
[4] Yardi, S., Romero, D., Schoenebeck, G., & boyd, d. (2010). Detecting spam in a Twitter network. First Monday, 15(1). Retrieved
from http://firstmonday.org/ojs/index.php/fm/article/view/2793/2431
28 17,803 tweets from 8,616 users + 1st degree
network (3,048,360 directed edges, 631,416
unique followers, and 715,198 unique friends)
[5] Ritter, A., Cherry, C., & Dolan, B. (2010). Unsupervised modeling of Twitter conversations. In HTL'10 Human Language
Technologies. The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics
(pp. 172–180). Stroudsburg, Pa: Association for Computational Linguistics (ACL). Retrieved from
http://dl.acm.org/citation.cfm?id=1858019
27 1.3 million Twitter conversations, with each
conversation containing between 2 and 243
posts
[6] Petrovic, S., Osborne, M., & Lavrenko, V. (2010). Streaming first story detection with application to Twitter. In HTL'10 Human
Language Technologies. The 2010 Annual Conference of the North American Chapter of the Association for Computational
Linguistics (pp. 181–189). Stroudsburg, Pa: Association for Computational Linguistics (ACL). Retrieved from
http://dl.acm.org/citation.cfm?id=1858020
26 163,500,000 tweets
[7] Jiang, L., Yu, M., Zhou, M., Liu, X., & Zhao, T. (2011). Target-dependent Twitter sentiment classification. In HLT '11 Proceedings
of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies:. Short papers -
Volume 2 (pp. 151–160). Retrieved from http://dl.acm.org/citation.cfm?id=2002492
22 20,000 tweets
[8] Han, B., & Baldwin, T. (2011). Lexical normalisation of short text messages: makn sens a #twitter. In HLT '11 Proceedings of the
49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Short papers - Volume 2
(pp. 368–378). Retrieved from http://dl.acm.org/citation.cfm?id=2002520
22 449 tweets sampled from 1.5 GB of Twitter data
[9] Gimpel, K., Schneider, N., O'Connor, B., Das, D., Mills, D., Eisenstein, J., Heilmann, M., … (2011). Part-of-speech tagging for
Twitter: Annotation, features, and experiments. In HLT '11 Proceedings of the 49th Annual Meeting of the Association for
Computational Linguistics: Human Language Technologies. Short papers - Volume 2 (pp. 42–47). Retrieved from
http://dl.acm.org/citation.cfm?id=2002747
21 1,827 annotated tweets
[10] Schultz, F., Utz, S., & Göritz, A. (2011). Is the medium the message? Perceptions of and reactions to crisis communication via
twitter, blogs and traditional media. Public Relations Review, 37(1), 20–27. doi:10.1016/j.pubrev.2010.12.001
19 Experiment with 1677 participants
[11] Barbosa, L., & Feng, J. (2010). Robust sentiment detection on twitter from biased and noisy data. In COLING '10 Proceedings of
the 23rd International Conference on Computational Linguistics (pp. 36–44).
19 200,000 annotated tweets
[12] Davidov, D., Tsur, O., & Rappoport, A. (2010). Enhanced sentiment lerarning using Twitter hashtags and smileys. In COLING '10
Proceedings of the 23rd International Conference on Computational Linguistics (pp. 241–249). Retrieved from
http://dl.acm.org/citation.cfm?id=1944566.1944594
19 475,000,000 tweets
[13] Hargittai, E., & Litt, E. (2011). The tweet smell of celebrity success: Explaining variation in Twitter adoption among a diverse
group of young adults. New Media & Society, 13(5), 824–842. doi:10.1177/1461444811405805
18 Survey with 505 young American adults
[14] Zhou, X., Lee, W.-C., Peng, W.-C., Xie, X., Lee, R., & Sumiya, K. Measuring geographical regularities of crowd behaviors for
Twitter-based geo-social event detection, 1. doi:10.1145/1867699.1867701
18 21,623,947 geo-tagged tweets
[15] Gruzd, A., Wellman, B., & Takhteyev, Y. (2011). Imagining Twitter as an Imagined Community. American Behavioral Scientist,
55(10), 1294–1318. doi:10.1177/0002764211409378
17 One person’s Twitter network (652 followers,
114 followings).
3,112 tweets.
[16] Johnson, K. A. (2011). The effect of Twitter posts on students’ perceptions of instructor credibility. Learning, Media and
Technology, 36(1), 21–38. doi:10.1080/17439884.2010.534798
16 Experiments with 120 undergrad students
[17] Alina Mungiu-Pippidi, & Igor Munteanu. (2009). Moldova's "Twitter Revolution". Journal of Democracy, 20(3), 136–142.
doi:10.1353/jod.0.0102
16 none
[18] Larsson, A. O., & Moe, H. (2012). Studying political microblogging: Twitter users in the 2010 Swedish election campaign. New
Media & Society, 14(5), 729–747. doi:10.1177/1461444811422894
15 99,832 tweets
[19] Lasorsa, D. L., Lewis, S. C., & Holton, A. E. (2012). Normalizing Twitter: Journalism practice in an emerging communication
space. Journalism Studies, 13(1), 19–36. doi:10.1080/1461670X.2011.571825
15 22,248 tweets
[20] Takhteyev, Y., Gruzd, A., & Wellman, B. (2012). Geography of Twitter networks. Social Networks, 34(1), 73–81.
doi:10.1016/j.socnet.2011.05.006
14 481,248 tweets, 1,953 user pairs
Wel
ler,
K. (
20
13
). W
hat
yo
u c
an g
et f
rom
Tw
itte
r –
and
wh
at n
ot.
Pre
sen
tati
on
at
ISSC
’s W
orl
d S
oci
al S
cien
ce F
oru
m
(WSS
F) 2
01
3. M
on
trea
l, C
anad
a. S
lides
: h
ttp
://d
e.sl
ides
har
e.n
et/k
atri
nw
elle
r/w
elle
r-w
ssf-
20
13
pre
sen
tati
on
.
Exte
nd
ed A
bst
ract
: htt
p:/
/kw
elle
.file
s.w
ord
pre
ss.c
om
/20
13
/10
/wss
f20
13
_wel
ler_
wh
at-d
o-w
e-ge
t-fr
om
-tw
itte
r.p
df
Methoden?
Angewandte Methoden in den meistzitierten Publikationen: • Interviews mit Twitter-Nutzern, • Experimente, • Quantitative Analysen von Tweets und deren Eigenschaften, • Netzwerkananlysen, • Linguistische Analysen, z.B. word clustering, event detection,
sentiment analysis, • Inhaltsanalysen von Tweets.
Bisher eher selten mehrere in Kombination
Methoden
In der Forschung: viele Case Studies, wenig methodische Standards.
Standard-Metriken?
52
• Anzahl der Tweets
• Anzahl der Nutzer mit min. einem Tweet
• Tweets pro Nutzer
• Structural Analysis of Tweets:
– Original tweets, RTs, (modified RTs), @message
– Tweets mit URLs
Bruns, A., & Stieglitz, S. (2012). Quantitative Approaches to Comparing Communication Patterns on Twitter. Journal of Technology in Human Services, 30(3-4), 160–185. doi:10.1080/15228835.2012.744249
Beispiel für einen Zeitverlauf: #mla09
Zeitachse: Messung in Stunden
An
zah
l der
Tw
eets
pro
Stu
nd
e
Graphik von Cornelius Puschmann
Beispiel für ein Personennetzwerk basierend auf RTs – im Zeitverlauf
Puschmann, C., Weller, K., Dröge, E. (2011): Studying Twitter Conversations as (Dynamic) Graphs: Visualization and Structural Comparison. Poster at General Online Research (GOR 11), Düsseldorf. http://ynada.com/posters/gor11.pdf
Beispiel für Personeninformationen: #www2010
Aktivität einzelner Personen: Tweetanzahl (#www2010)
0
20
40
60
80
100
120
140
160
180
200
An
zah
l Tw
eet
s
Dröge, E., Maghferat, P., Puschmann, C., Verbina, J., & Weller, K. (2011). Konferenz-Tweets. Ein Ansatz zur Analyse der Twitter-Kommunikation bei wisseschaftlichen Konferenzen. In J. Griesbaum, T. Mandl, C. Womser-Hacker (Eds.), Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenchaft (pp. 98–110). Boizenburg: VWH.
Personeninformationen
Aktivität einzelner Personen: @-Nachrichten (#mla09)
0
5
10
15
20
25
30
35
40
An
zah
l @-N
ach
rich
ten
@-Nachrichten gesendet @-Nachrichten empfangen
Inhaltsanalyse
57
• CAQDAS Computer-Assisted Qualitative Data AnalysiS
– (z.B. MAXQDA, QDAMiner, ATLAS.ti, Qualrus, Nvivo)
– Speech Act Analyse
– Statistische Auswertungen
Einspänner, J., Dang-Anh, M., & Thimm, C. (2014). Computer-assisted content analysis of Twitter data. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. 97-108). New York et al.: Peter Lang.
Sentiment Analyse
58
Automatische Berechnung von emotionalen Tonalitäten von Tweets.
Benötigt werden Wörterbücher mit Sentiment-Werten, z.B. ANEW.
Generell mit Vorsicht zu betrachten.
Für deutsche Tweets besonders kritisch.
Thelwall, M. (2014). Sentiment analysis and time series with Twitter. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann. (Eds.): Twitter and Society (pp. 83-96). New York et al.: Peter Lang.
Besondere Fallstudien
60
The Australian Twitter-Sphere
Von Axel Bruns: http://www.cci.edu.au/node/1362
Rhythm of a City
61
Siehe http://engineering.twitter.com/2012/06/studying-rapidly-evolving-user.html
Stimmungen in US-Tweets
62 Pulse of the Nation: http://www.ccs.neu.edu/home/amislove/twittermood/
63
htt
p:/
/ww
w.je
un
eafr
iqu
e.co
m/A
rtic
le/A
RTJ
AW
EB2
01
30
21
51
65
82
6/i
nt
ern
et-l
ibre
ville
-acc
ra-a
dd
is-a
beb
ares
eau
x-so
ciau
x-le
s-ca
pit
ales
-af
rica
ines
-de
-tw
itte
r-q
uar
tier
-par
-qu
arti
er.h
tml#
Tun
is
64
1. FC Köln (@fckoeln)
Borussia Mönchengladbach (@VfLBorussia)
BVB Dortmund 09 II (@BVB)
FC Bayern München (@BayMuenchen)
FC Schalke 04 II (@s04, official)
FC Schalke 04 I (@FCSchalke04, inofficial)
Hamburger SV (@HSV)
SV Werder Bremen I (@Werder_Bremen)
SV Werder Bremen II (@werderbremen)
0
10000
20000
30000
40000
50000
60000
70000
80000
Jun 11 Jul 11 Aug 11 Sep 11 Oct 11 Nov 11 Dec 11 Jan 12 Feb 12 Mar 12 Apr 12 May 12 Jun 12
nu
mb
er
of
follo
we
rs
month 1. FC Augsburg (@FCAugsburg) 1. FC Kaiserslautern (@Rote_Teufel)* 1. FC Köln (@fckoeln)1. FC Nürnberg (@1_fc_nuernberg) 1. FSV Mainz 05 (1FSVMainz05) 1899 Hoffenheim (achtzehn99)Bayer 04 Leverkusen (@bayer04fussball) Borussia Mönchengladbach (@VfLBorussia) BVB Dortmund 09 I (@BVBDortmund09)BVB Dortmund 09 II (@BVB) FC Bayern München (@BayMuenchen) FC Schalke 04 II (@s04, official)FC Schalke 04 I (@FCSchalke04, inofficial) Hamburger SV (@HSV) Hannover 96 I (@ichbin96)Hannover 96 II (@hannover96) Hertha BSC Berlin (@HerthaBSC)* SC Freiburg (@sc_freiburg)SV Werder Bremen I (@Werder_Bremen) SV Werder Bremen II (@werderbremen) VfB Stuttgart (@VfB)
Siehe: Bruns, Axel; Weller, Katrin; Harrington, Stephen (2014): Twitter and Sports: Football Fandom in Emerging and Established Markets. In: Weller, Katrin; Bruns, Axel; Burgess, Jean; Mahrt, Merja; Puschmann, Cornelius (Hrsg.): Twitter and Society, New Yort et al.: Peter Lang, S. 263-280 Weller, Katrin; Bruns, Axel (2013): Das Spiel dauert 140 Zeichen: Wie deutsche Fußballvereine Twitter für Marketing und Fan-Kommunikation entdecken. In: Griesbaum, Joachim; Heuwing, Ben; Ruppenhofer, Josef; Werner, Katrin (Hrsg.): HiER 2013. Proceedings des 8. Hildesheimer Evaluierungs- und Retrievalworkshop, Hildesheim: Universität Hildesheim, S. 119-131
65
http://www.guardian.co.uk/uk/2011/dec/07/twitter-riots-how-news-spread Siehe auch: Vis, F., Faulkner, S., Parry, K., Manyukhina, Y., & Evans, L. (2014). Twitpic-ing the news. Analysing images shared during the 2011 U.K. Riots. In: K. Weller, A. Bruns, J. Burgess, M. Mahrt, C. Puschmann (Eds), Twitter and Society (pp. 385-398). New York et al: Peter Lang.
Bilder auf Twitter
66
Bruns, A., & Burgess, J. (2012). Notes towards the scientific study of Twitter. In Tokar, A., Beurskens, M., Keuneke, S., Mahrt, M., Peters, I., Puschmann, C., van Treeck, T., & Weller, K. (Eds.). (2012). Science and the Internet (pp. 159-169). Düsseldorf: Düsseldorf University Press http://nfgwin.uni-duesseldorf.de/sites/default/files/Bruns.pdf
Diskussion
Welche Themenbereiche/Methoden interessieren besonders?
Eigene Erfahrungen/ Anknüpfungspunkte?
3. Tools
TweetDeck https://about.twitter.com/products/tweetdeck
TOPSY
Übung
http://topsy.com
- Bei Topsy suchen nach a) einem Nutzer, b) einem Stichwort, c) einem Hashtag.
- Bei Topsy Analytics zwei Nutzer und zwei Hashtags vergleichen.
- Auffälligkeiten?
Vorsicht: Aktivitätskennwerte
• Klout (siehe Abbildung)
• Tweetstats.com
• Twitalyzer
• Twittercounter
• …
Co-tweeting * follower recommendation * automatic tweets * twitterwalls * data visualization * URL monitoring * follower visualization * communities * hashtag meanings * trends
Foto: http://www.zephoria.org/thoughts/archives/2009/11/24/spectacle_at_we.html
Twitter Walls
Tools zur Datensammlung
Wie erhält man die Daten?
79
API
https://dev.twitter.com/docs/api/1.1 https://dev.twitter.com/blog
Datensammlung?
80
Herausforderungen:
Archivierung in Echtzeit Eingeschränkte Anteile
Twitter APIs
81
• API = Application Programming Interface
• Zugang, um Daten für Anwendungen/Apps zu verwenden
• Nicht explizit für die wissenschaftliche Nutzung vorgesehen
• Streaming API, Rest APIs, Search API
Gaffney, D., & Puschmann, C. (2014). Data collection on Twitter. In A. Bruns, K. Weller, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society (pp. 55-67). New York, NY: Peter Lang.
Twitter APIs
82
STREAMING API
- push-basiert, Live-Stream
- Public stream vs. User stream
- Forscher brauchen Tools, die eine Verbindung zu diesem Stream aufrecht erhalten.
Twitter APIs
83
REST API
• Eingeschränkte Anzahl Anfragen pro Stunde
• Social graph data (wer folgt wem)
• Trending topics
• Und vieles mehr
https://dev.twitter.com/docs/using-search
Twitter APIs
• Nicht explizit für Wissenschaftler entwickelt
• Nicht rückwirkend zugänglich
• Nicht vollständig
Änderungen möglich
https://dev.twitter.com/console
Eigene User-ID finden: http://www.idfromuser.com/
Twitter-Daten erheben?
• YourTwapperkeeper
• Per RSS-Feed (z.B. Google reader, Thunderbird)
• Drittanbieter ($)
• Desktopbasierte Programme
• Eigene Programme schreiben
• Gnip / DataSift
YourTwapperkeeper http://134.99.116.228/yourtwapperkeeper (Password protected)
YourTwapperkeeper
Tweet Archivist
TweetArchivist
Übung:
Verschiedene Suchen ausprobieren: http://www.tweetarchivist.com/SetLanguage
NodeXL
GNIP
Rechtlicher Rahmen
Twitter‘s Nutzungsbedingungen
Datenschutzbestimmungen
Rechtlicher Rahmen
• Terms of Services: https://twitter.com/tos
• Twitter Privacy Policy: https://twitter.com/privacy
• Developer’s Rules of the Road: https://dev.twitter.com/terms/api-terms
„Lessons learnt“
1.
Man muss die Twitter-Dynamik kennen, um
mit Twitter-Daten arbeiten zu können.
2.
Twitter als Moving Target: alles kann sich
verändern!
3.
Ideal: Erst die Forschungsfrage, dann
die Datenerhebung.
4.
Aber: Twitter-Daten immer rechtzeitig
(live) erheben!
5.
Man erhält i.d.R. nur einen Ausschnitt aus
Diskussion
• Erste Selbsteinschätzung: wo könnten sich Twitter-Daten für meine Forschungsfrage lohnen?
• Was muss ich noch wissen, bevor ich tatsächlich entscheiden kann, ob ich mit Twitter-Daten arbeiten möchte?
Allgemein:
• Fragen / Wünsche / Anregungen
4. Twitter Daten unter der Lupe
Was kommt zuerst?
• Forschungsfrage?
• Daten?
Fallstudie: Twitter bei der Landtagswahl NRW
Übung:
- Notieren, welche Fragestellungen in diesem Zusammenhang interessant sein könnten.
- Überlegen, welche Daten dafür benötigt werden würden.
Dateien
#ltwnrw tweets
Was fällt auf?
5. Studien planen
Forschungsablauf
Studie planen
Daten erheben
Daten auswerten
(Daten archivieren)
Studien planen
• Was soll untersucht werden?
• Warum brauche ich dafür Twitter-Daten?
• Welche Art Twitter-Daten benötige ich?
• Vorab-Recherche!
Kriterien zur Datenerhebung
115
Typischerweise:
- Tweets eines bestimmten Nutzers
- Tweets, die einen Nutzer erwähnen
- Tweets, die ein Wort (Zeichenkette) oder ein Hashtag enthalten
Diverse weitere, z.B.
- Anzahl und Namen der Follower eines Accounts
- Tweets, die eine bestimmte URL (domain) enthalten
Datensammlung
Nutzer-bezogen
Themen-bezogen
Probleme
• Wie lange sollen Daten gesammelt werden?
• Mit welcher Technik sollen Daten gesammelt werden?
• Mit welchen Suchkriterien sollen Daten gesammelt werden?
• Wie sollen die Daten später ausgewertet werden?
Auswertung
Inhaltsanalysen Quantitative
Analysen
Technische Feinheiten
• Manuelle vs. Button Retweets
• URLs erkennen und auflösen
• @messages vs. @mentions
• Informationen über einzelne Twitter-Nutzer herausfinden
• Hashtag vs. Volltextsuche
Datenbereinigung
• Mehrere Datensätze zusammenfügen und dabei Dubletten entfernen.
• ‚False positives‘ entfernen (z.B. bvb)
• Ggf. Dateiformate für die Bearbeitung in Analysetools anpassen
Datenmanagement
• Versionierung – Metadaten
• Dokumentation des Erhebungs- und Bereinigungsprozesses
• Sicherungskopien
6. Übung: Studien planen
Studiendesign
Entweder bereits vorhandene Fragestellung – oder gemeinsam Fragen erarbeiten.
• Ausgehend von Fragestellung: welche Daten werden benötigt, wie können diese erhoben werden, was muss beachtet werden?
• Welche Probleme können auftreten?
Kurzpräsentation des eigenen Ansatzes
7. Diskussion
125
Big Data vs. Sinnvolle Forschungsfragen
126
Was ist ein Link, Follower, Tweet etc. wert?
Wie kann man Nutzer-Aktionen interpretieren?
Repräsentativität?
127
beeinflusst von:
• Nutzerzahlen
• Zeitpunkt/Dauer der Datenerhebung
• Datenauswahl
Verlässlichkeit
128
• Verifizierte Accounts
• Verifizierte Inhalte?
• (Datenausfälle)
129
Forschungsethik
• Anonymisierung/Pseudonymisierung möglich bzw. nötig?
• Richtlinien für den Umgang mit Personendaten?
Aktuelle Hinweise
• So wenig personenbezogene Daten wie möglich teilen
• Tweet-Sammlungen nicht öffentlich zur Verfügung stellen
131
today vs. tomorrow
Reproduzierbarkeit
132
Die gleichen Daten zweimal erheben?
Mit bestehenden Datensätzen arbeiten?
Fazit?
Danke für die Teilnahme!