Textdatenbanken
Sommersemester 200910. Vorlesung
- Text-Genres -
Uwe Quasthoff
Universität LeipzigInstitut für Informatik
U. Quasthoff Textdatenbanken 2
Fragestellung
Verschiedene Textgenres• Zeitungstext• Romane• Gedichte• Fachtext eines Sachgebiets• ...
In• eine Datenbank oder• in verschiedene Datenbanken?
U. Quasthoff Textdatenbanken 3
Kriterien I
Verschiedene Datenbanken sind sinnvoll, wenn• Unterschiede untersucht werden sollen• fremde Genres (ähnlich Rauschen) das Ergebnis verschlechtern• genügend Daten pro Genre vorliegen• ...
U. Quasthoff Textdatenbanken 4
Kriterien II
Verschiedene Datenbanken sind NICHT sinnvoll, wenn• zu wenig Daten pro Genre vorliegen• Rauschen zunächst nicht stört und evtl. später nach Genre sortiert werden kann• ...
U. Quasthoff Textdatenbanken 5
Vergleich Zeitung / Web• Stoppwörter• Sachgebiete• Fachlichkeit• Redundanz
U. Quasthoff Textdatenbanken 6
Vergleich der top-30-Wörter Web / Zeitung
Rang deweb de 1 und der +22 der die -13 die und -14 in in 05 den den 06 mit von +27 von das -18 zu mit +19 ist zu +110 das ist -311 für sich +312 Die Die 013 des des 014 sich für -315 auf auf 016 eine im +317 ein ein 018 Sie dem -19 werden eine +10
20 im nicht -4
21 auch es +422 dem er -323 sind als -24 wird sie +625 es auch -426 nicht hat -6
27 oder Der -28 als aus -529 aus werden -1
30 bei wird -
U. Quasthoff Textdatenbanken 7
Vergleich der top-Substantive
Rang deweb de
1 Menschen Prozent2 Jahren Mark3 Jahr Uhr4 Zeit Jahren5 Uhr Berlin6 DM Jahr7 Seite Millionen8 Informationen Menschen
9 Jahre Jahre10 Deutschland Deutschland11 Kinder Unternehmen12 Unternehmen Zeit13 Arbeit Stadt14 Stadt Euro15 Leben Berliner16 Internet DM17 Bereich SPD18 Seiten Mann19 Teil Frau20 Fragen USA
U. Quasthoff Textdatenbanken 8
Vergleich der Sachgebiete
Im Web finden wir• Weniger Zahlen- und Geldangaben• Weniger Politik• Weniger Prominente• Mehr Internet und Navigation (Seite(n), Bereich, Teil)• Mehr Freizeit (Kinder, Leben, Stadt)• Mehr Pornographie
U. Quasthoff Textdatenbanken 9
Sprachgebrauch im Web• Häufigere persönlicher Bericht (ich, wir)• Häufigere persönliche Anrede des Lesers
U. Quasthoff Textdatenbanken 10
Vergleich de100k – deweb100kmysql> select m.*,m2.value from meta m, de100k.meta m2 where m.attribute=m2.attribute;+-----+---------------------------------------------------------------------+---------------------+----------------| run | attribute | value | value+-----+---------------------------------------------------------------------+---------------------+----------------| 1 | number of sentences | 100000 | 100000| 1 | average sentence length in characters | 113.8127 | 110.9568| 1 | average sentence length in words | 16.0205 | 15.7348| 1 | number of distinct word forms | 211652 | 189408| 1 | percentage of lower case word forms | 23.37 | 22.79| 1 | percentage of multi word units | 7.55 | 13.14| 1 | number of running word forms | 1611676 | 1603143| 1 | percentage of lower case running words | 61.56 | 61.32| 1 | average word form length | 11.0798 | 11.1370| 1 | average running word length | 6.082762 | 6.029890| 1 | percentage of word forms with frequency=1 | 69.39 | 65.30| 1 | percentage of text coverage by the most frequent 10 word forms | 14.94 | 15.01| 1 | percentage of text coverage by the most frequent 100 word forms | 37.82 | 38.02| 1 | percentage of text coverage by the most frequent 1 000 word forms | 57.37 | 58.23| 1 | percentage of text coverage by the most frequent 10 000 word forms | 78.06 | 78.69| 1 | percentage of text coverage by the most frequent 100 000 word forms | 93.07 | 94.42| 1 | number of sentence based co-occurrences | 243982 | 254282| 1 | minimal likelihood ratio | 6.63 | 6.63| 1 | maximal likelihood ratio | 8324.10 | 8023.17| 1 | number of neighbour co-occurrences | 67910 | 90404| 1 | minimal likelihood ratio | 3.84 | 3.84| 1 | maximal likelihood ratio | 12143.71 | 12292.24| 1 | average number of sentence based co-occurrences per sentence | 43.30 | 43.44| 1 | average number of neighbour co-occurrences per sentence | 5.12 | 5.61| 1 | most frequent word | der | der| 1 | most frequent word's frequency | 44368 | 49463+-----+---------------------------------------------------------------------+---------------------+----------------36 rows in set (0.02 sec)
U. Quasthoff Textdatenbanken 11
Wortgruppen in de100k, nicht in deweb100k
mysql> select w1.* from words w1 left outer join SG_deweb_100K_tinyCC.words w2 on(w1.word=w2.word) where w1.word like "% %" and isnull(w2.word) order by w1.freq desc limit 60;
+-------+--------------------------------------------+------+| w_id | word | freq |+-------+--------------------------------------------+------+| 2983 | George W. | 51 || 3098 | George W. Bush | 49 || 5525 | SPIEGEL ONLINE | 31 || 5658 | Oskar Lafontaine | 28 || 6462 | Tour de France | 23 || 6612 | US-Präsident George W. Bush | 23 || 8152 | Ariel Scharon | 21 || 7754 | Regierende Bürgermeister | 20 || 7562 | Boris Jelzin | 20 || 9649 | mit beschränkter Haftung | 18 || 7414 | großen Koalition | 18 || 9205 | Wolfgang Thierse | 18 || 7244 | Jan Ullrich | 18 || 8247 | Gregor Gysi | 18 || 7133 | Theo Waigel | 18 || 14944 | Donald Rumsfeld | 17 || 11797 | Welt am Sonntag | 17 || 9501 | Peter Struck | 16 || 9747 | kommenden Montag | 15 || 6884 | Manfred Stolpe | 15 || 11793 | Gesellschaft mit beschränkter Haftung | 15 || 11111 | Jürgen Rüttgers | 14 || 10816 | Bundesfinanzminister Hans Eichel | 14 || 9034 | Sat 1 | 14 || 8808 | Uli Hoeneß | 14 || 11483 | Ralf Schumacher | 14 |
| 6991 | Jacques Chirac | 14 || 11838 | US-Präsident Bill Clinton | 13 || 16658 | Jürgen Röber | 13 || 10699 | Wolfgang Gerhardt | 13 || 14972 | Michael Glos | 13 || 11479 | Otto Rehhagel | 13 || 13067 | Arbeitslosengeld II | 12 || 10308 | Peter Strieder | 12 || 13295 | Dieter Hoeneß | 12 || 14378 | US Open | 12 || 11694 | Kanzler Gerhard Schröder | 12 || 8933 | Ulla Schmidt | 12 || 10764 | Love Parade | 12 || 9655 | Außenminister Joschka Fischer | 12 || 10138 | Jörg Schönbohm | 11 || 13446 | Bundesagentur für Arbeit | 11 || 17037 | Präsident Bush | 11 || 10646 | AC Mailand | 11 || 13789 | Gerhard Mayer-Vorfelder | 11 || 12083 | Rechtsgeschäfte mit | 11 || 13290 | Juventus Turin | 11 || 15213 | endgültige Entscheidung | 11 || 15284 | Präsident George W. Bush | 11 || 23722 | 7. Dezember | 11 || 14467 | Axel Springer | 11 || 15751 | Präsident Wladimir Putin | 11 || 13595 | Deutschen Fußball-Bundes | 10 || 22348 | Osama Bin Laden | 10 || 13841 | Erik Zabel | 10 || 15549 | Auswärtigen Amtes | 10 || 8071 | Berti Vogts | 10 |...
U. Quasthoff Textdatenbanken 12
Vergleich der 300k-Korporamysql> select m.*,m2.value from SG_deweb_300K_tinyCC.meta m, de300k.meta m2 where m.attribute=m2.attribute;+-----+---------------------------------------------------------------------+---------------------+-------------| run | attribute | value | value+-----+---------------------------------------------------------------------+---------------------+-------------| 1 | number of distinct word forms | 455085 | 383455| 1 | percentage of multi word units | 7.19 | 13.53
mysql> select w1.*,w4.freq,w3.freq from de100k.words w1 left outer join SG_deweb_100K_tinyCC.words w2 on(w1.word=w2.word) left outer join SG_deweb_300K_tinyCC.words w3 on(w1.word=w3.word), de300k.words w4 where w4.word=w1.word and w1.word like "% %" and isnull(w2.word) limit 30;
+-------+---------------------------------------+------+------+------+| w_id | word | freq | freq | freq |+-------+---------------------------------------+------+------+------+| 2983 | George W. | 51 | 164 | 3 || 3098 | George W. Bush | 49 | 160 | 3 || 5525 | SPIEGEL ONLINE | 31 | 74 | 1 || 5658 | Oskar Lafontaine | 28 | 68 | 2 || 6462 | Tour de France | 23 | 61 | 3 || 6612 | US-Präsident George W. Bush | 23 | 67 | 1 || 8152 | Ariel Scharon | 21 | 50 | NULL || 7754 | Regierende Bürgermeister | 20 | 46 | 1 || 7562 | Boris Jelzin | 20 | 70 | 1 || 9649 | mit beschränkter Haftung | 18 | 44 | 3 || 7414 | großen Koalition | 18 | 55 | 1 || 9205 | Wolfgang Thierse | 18 | 49 | 1 || 7244 | Jan Ullrich | 18 | 54 | 2 || 8247 | Gregor Gysi | 18 | 50 | 1 || 7133 | Theo Waigel | 18 | 52 | 1 || 14944 | Donald Rumsfeld | 17 | 31 | NULL || 11797 | Welt am Sonntag | 17 | 30 | 2 || 9501 | Peter Struck | 16 | 41 | 3 || 9747 | kommenden Montag | 15 | 41 | 4 || 6884 | Manfred Stolpe | 15 | 55 | 1 || 11793 | Gesellschaft mit beschränkter Haftung | 15 | 38 | 3 || 11111 | Jürgen Rüttgers | 14 | 32 | 4 || 10816 | Bundesfinanzminister Hans Eichel | 14 | 45 | 1 |
Beobachtungen: 1. Es gibt offensichtlich mehr
Wortformen in deweb als in de. Schreibfehler und/oder breitere Themen?
2. Die Anzahlen pro Wort wachsen von de100k (Spalte 3) zu de300k (Spalte 4) linear.
3. Die in deweb100k fehlenden Wörter treten in deweb300k (Spalte5) langsam auf.
U. Quasthoff Textdatenbanken 13
Wörter aus deweb1M, nicht in de1Mmysql> select w1.* from SG_deweb_1M_tinyCC.words w1 left
outer join de1M.words w2 on(w1.word=w2.word) where isnull(w2.word) limit 30;
+-------+----------------------+------+| w_id | word | freq |+-------+----------------------+------+| 3757 | für | 400 || 4601 | Seitenanfang | 319 || 4673 | Stammtalker | 312 || 5939 | JavaScript | 238 || 6158 | °C | 229 || 7717 | über | 173 || 8668 | Jänner | 149 || 10033 | ½ | 124 || 10062 | WS | 124 || 10093 | nach Ihren Wünschen | 123 || 10107 | mail | 123 || 10169 | Artikelliste | 122 || 10399 | ausser | 119 || 10759 | Vorheriger | 114 || 10769 | Grüsse | 114 || 10773 | gross | 114 || 11239 | D.h | 108 || 11383 | Irrtümer vorbehalten | 106 |
mysql> select w1.* from SG_deweb_1M_tinyCC.words w1 left outer join de1M.words w2 on(w1.word=w2.word) where isnull(w2.word) and w1.freq=1 limit 30;
+--------+----------------------+------+| w_id | word | freq |+--------+----------------------+------+| 344496 | hartschwänzige | 1 || 344497 | angestupst | 1 || 344498 | Anwahlgerät | 1 || 344499 | sogannanter | 1 || 344500 | Isophon | 1 || 344502 | Embargo-Bruch | 1 || 344503 | Minnesotans | 1 || 344504 | RIMINI | 1 || 344505 | dichtgewebtes | 1 || 344506 | Chrysanthemenblüte | 1 || 344507 | Fan-Turnieren | 1 || 344508 | aufgezeichnete Daten | 1 || 344509 | Hausstaubbelastungen | 1 || 344510 | CD-Repro | 1 || 344511 | Fa.Lexware | 1 || 344512 | Inselsystem)Wie | 1 || 344513 | herunterspeichern | 1 || 344514 | WebSitepromotion | 1 |
U. Quasthoff Textdatenbanken 14
Vergleich verschiedener Zeitungen
Vergleich von• Frankfurter Allgemeine• taz• Bild• Neues Deutschland• Junge Freiheit
Oder:• Berliner Tageblatt• Kölner Stadtanzeiger• Hamburger Abendblatts
U. Quasthoff Textdatenbanken 15
Vergleich verschiedener Autoren
Autoren mit viel Text• Karl Marx• Karl May• J.W. Goethe• Joannne Rowling• ...
Verwandte Fragestellung: Autorenerkennung• Wieviel Text ist dafür nötig?• Was sind sinnvolle Parameter?
U. Quasthoff Textdatenbanken 16
Wikipedias• In vielen Sprachen• Manche recht umfangreich• Einheitliches Format• Zum Download als fertige HTML-Seiten erhältlich
U. Quasthoff Textdatenbanken 17
Die größten Wikipedias IWikipedias mit mehr als 1.000.000 Artikeln (1) Englisch (English) Wikipedias mit mehr als 500.000 Artikeln(2) Deutsch - Französisch (Français) Wikipedias mit mehr als 250.000 Artikeln(5) Italienisch (Italiano) - Japanisch ( 日本語 ) - Niederländisch (Nederlands) -
Polnisch (Polski) - Portugiesisch (Português)Wikipedias mit mehr als 100.000 Artikeln(6) Chinesisch ( 中文 ) - Finnisch (Suomi) - Norwegisch (Bokmål) - Russisch
(Русский) - Schwedisch (Svenska) - Spanisch (Español)Wikipedias mit mehr als 50.000 Artikeln(12) Dänisch (Dansk) - Esperanto (Esperanto) - Hebräisch (עברית) - Indonesisch
(Bahasa Indonesia) - Katalanisch (Català) - Lombardisch (Lumbaart) - Rumänisch (Română) - Slowakisch (Slovenčina) - Tschechisch (Česky) - Türkisch (Türkçe) - Ukrainisch (Українська) - Ungarisch (Magyar)
U. Quasthoff Textdatenbanken 18
Die größten Wikipedias II
Wikipedias mit mehr als 25.000 Artikeln(10) Arabisch (العربية) - Bulgarisch (Български) - Cebuano (Cebuano) - Estnisch
(Eesti) - Koreanisch ( 한국어 ) - Kroatisch (Hrvatski) - Litauisch (Lietuvių) - Serbisch (Српски / Srpski) - Slowenisch (Slovenščina) - Telugu (తతతతతత)
Wikipedias mit mehr als 10.000 Artikeln(25) Albanisch (Shqip) - Baskisch (Euskara) - Bengali (తతతతత) - Bishnupriya
Manipuri (తతతత తతత/తతతతతతతతతతతతత తతతతతతత) - Bosnisch (Bosanski) - Bretonisch (Brezhoneg) - Einfaches Englisch (Simple English) - Galicisch (Galego) - Georgisch ( ) - Griechisch (Ελληνικά) - ქართულიHindi (ह�न��) - Ido (Ido) - Isländisch (Íslenska) - Javanisch (Basa Jawa) - Lateinisch (Latina) - Luxemburgisch (Lëtzebuergesch) - Malaiisch (Bahasa Melayu) - Neapolitanisch (Nnapulitano) - Nepal Bhasa (न�प�ल भ�ष�) - Norwegisch (Nynorsk) - Persisch (فارسی) - Serbokroatisch (Srpskohrvatski / Српскохрватски) - Sundanesisch (Basa Sunda) - Tamilisch (தம�ழ) - Thailändisch (ไทย) - Vietnamesisch (Tiếng Việt)
U. Quasthoff Textdatenbanken 19
Wikipedia-Datenbanken – kleinere Sprachen I
Language lang. articles #kb #unique sentences
#non foreign sentences (pass 1)
Finnish fi 119908 219540 2542700 2471782
Norwegian (Bokmål) no 116093 192520 2052158 1966768
Esperanto eo 85394 124792 1159373 1088885
Turkish tr 83154 159844 1078935 1052695
Slovak sk 71314 94612 1128462 1078462Czech cs 70130 161628 1729946 1628828
Romanian ro 67157 101652 813742 692679
Catalan ca 65701 109296 1312394 1288733
Danish da 64558 99944 997886 949555Ukrainian uk 63434 85884 1023615 1016767Hungarian hu 62548 159752 1593033 1552856
Indonesian id 62387 83644 896062 828777
U. Quasthoff Textdatenbanken 20
Wikipedia-Datenbanken – kleinere Sprachen VII
Language lang. articles #kb #unique sentences #non foreign sentences (pass 1)
Haitian ht 7053 3640 43587 39246
Azeri az 6907 7596 47933 43629
Ripuarian ksh 6804 7932 39655 33471
Tagalog tl 6148 9500 105707 86344
Aragonese an 6135 8844 172556 163901
Chuvash cv 5876 5220 42448 42054
Urdu ur 5869 10132 54659 53739
Uzbek uz 5542 7328 75908 72855
Corsican co 5408 4300 23333 19486
Belarusian be 5309 3068 20927 20756
Irish Gaelic ga 5141 8876 72605 65464
U. Quasthoff Textdatenbanken 21
Wikipedia Eigenschaften• Wenig Redundanz• Fachlich breit gefächert• Es existieren Richtlinien für Autoren• Fast keine 1./2. Person
U. Quasthoff Textdatenbanken 22
Projekt Gutenberg und Verwandte
Gutenberg in Zahlen • mehr als 3.000 Bücher, (über 1.000.000 Buchseiten) • ca. 20.000 Gedichte• 1.800 Märchen• 1.200 Fabeln• 3.500 Sagen• ca. 3,3 Millionen Seitenabrufe (Pageimpressions) / MonatStand: Juni 2007
U. Quasthoff Textdatenbanken 23
Korpus Gedichte I Zeitungstext Gedichte
Die 20 häufigsten Substantive
Prozent, Mark, Jahr, Jahren, Uhr, Millionen, Jahre, Menschen, Deutschland, Ende, Zeit, Stadt, Berlin, Unternehmen, SPD, Frau, Mann, Leben, Milliarden, Welt, Regierung
Herz, Nacht, Welt, Gott, Liebe, Leben, Himmel, Hand, Zeit, Augen, Kind, Tag, Sonne, Seele, Mann, Herr, Erde, Menschen, Licht, Haus, Tod
Durchschnittliche Wortlänge
12,10 7,52
Kookkurrenzen zu „quillt“ Magma, Träne, Rauch, hervor, Aus, heraus, Boxen, Bauch, Briefkasten, Ritzen, dringt, Blut, Dampf, ...
aus, Blut, Aus, fragend, Herzen, erstaunt, suchst, Saft, Rasen, Träne, Wunden, ein, hervor
Kookkurrenzen zu „Wipfel“ Bäume, Baum, Fichten, Zweige, Urapanes, Tannen, Baumes, Lesesäle, Baucis, Philemon, ...
die, neigen, Hains, rauschen, flüstern, Eiche, durch, glühn, alle, höchsten, Durch
U. Quasthoff Textdatenbanken 24
Korpus Gedichte IIWir können auch die auffälligsten Substantive aus Gedichten anschauen, die in
Zeitungstext vergleichsweise selten sind: Himmel, Herzen, Mutter, Schatten, Freund, Mädchen, Blumen, Lebens, Sterne, Mensch, Morgen, Wolken, Schmerz, Fenster, Freude, Wasser, Gottes, Stunde, Tränen, Jugend, Lippen, Schein, Gesicht, Garten, Frühling, Lieder, Gedanken, Tugend, Freiheit, Schönheit, Götter, Wellen, Wahrheit, Himmels, Schlaf, Nichts, Schnee, Ritter, Flügel, Dunkel, Blicke, Gesang, Gleich, Schiff, Händen, Seelen, Felsen, Flammen, ...
Auch bei Adjektiven, Adverbien und Verben gibt es solch für Gedichte typischen Wörter: gleich, sprach, schöne, nieder, tausend, schönen, lieben, stillen, singen, stille, grünen, bricht, schaut, sterben, frisch, blauen, steigt, schauen, schwarzen, schlägt, einsam, schien, erwacht, wilden, willst, traurig, dunkle, freundlich, langsam, treibt, weißen, schöner, schlug, heimlich, mancher, blickt, fliegen, hellen, manches, umsonst, schweben, stürzt, weiten, heiligen, ...
U. Quasthoff Textdatenbanken 25
Dimension Zeit
Wann sind Zeitscheiben sinnvoll?• Beobachtung von zeitlichen Veränderungen• Neuheiten• Trends
U. Quasthoff Textdatenbanken 26
Zeitintervalle (Jahr / Monat / Tag)?
Erfahrungen mit:
• Wörtern des Tages (Tag)• Wörtern der Woche (Woche)• Neologismen (jährlich)
U. Quasthoff Textdatenbanken 27
Wörter der Woche (WdW)
U. Quasthoff Textdatenbanken 28
Kriterien für WdW I
Dabei gibt es zwei Filtermechanismen.Zum Einen muss ein WdW mehrfach WdT gewesen sein, zum Anderen muss ein
WdW auch ein gewisses Mindestvorkommen in den Quellen erfüllen. Beide Schwellwerte sind Tagesmittel. Also beispielsweise wird ein Wort WdW, wenn es im Betrachtungszeitraum (üblicherweise sieben Tage) an mindestens drei Tagen WdT war. Der Schwellwert (zu erfüllende Durchschnitt) ist also 3/7.
Analog bei der Anzahl der absoluten Vorkommen in den WdT-Quellen. Hier muss ein Wort beispielsweise 150x innerhalb einer Woche gesehen worden sein, also im Mittel rund 20x pro Tag.
Da insgesamt mehr Politiker als Künstler erwähnt werden, unterscheiden sich die Schwellwerte ja nach Kategorie.
U. Quasthoff Textdatenbanken 29
Kriterien für WdW II## filter für anzahl der tage an denen ein wort wdt war,## gerechnet auf eine woche (3/7. bedeutet 3x wdt in einer woche)
1 : 2/7., ## sportler2 : 2/7., ## künstler3 : 5/7., ## politiker4 : 3/7., ## person5 : 4/7., ## sport6 : 3/7., ## organisation7 : 3/7., ## ereignis8 : 4/7., ## ort9 : 3/7. ## schlagwort ## 10 - nicht anzeigen
## filter für die anzahl der aufteten im beobachtungszeitraum ## 50/7. bedeutet: das wort wurde mindestens 50x gesehen über der ## spanne von 7 tagen - sozusagen ein mittelwert über den zeitraum
1 : 50/7., ## sportler 2 : 50/7., ## künstler 3 : 150/7., ## politiker 4 : 150/7., ## person 5 : 150/7., ## sport 6 : 100/7., ## organisation 7 : 60/7., ## ereignis 8 : 100/7., ## ort 9 : 100/7. ## schlagwort ## 10 - nicht anzeigen
U. Quasthoff Textdatenbanken 30
U. Quasthoff Textdatenbanken 31
Ausblick: Alterungsprozess für WörterWir betrachten die Wörter und ihre Anzahlen beim Lesen eines Korpus. Wörter
werden „geboren“, wenn sie erstmalig vorkommen.• Die Anzahlen steigen monoton• Kookkurrenzen werden (meist) mehr und tendenziell stärker.• Jüngere Wörter haben meist kleinere Anzahlen.• Die ersten Kookkurrenten junger Wörter sind meist älter als das Wort selbst.• Neue Kookkurrenten älterer Wörter sind häufig jünger?ALSO:Während ein Wort altert, verjüngen sich die neu hinzukommenden Kookkurrenten
ständig!
U. Quasthoff Textdatenbanken 32
Auswahlkriterien• Zeitintervall problemangepasst• Datenlage: Mindestmenge pro Zeitintervall• Zeitliche Vergleichbarkeit (z.B. keine Saisonabhängigkeit)
U. Quasthoff Textdatenbanken 33
Vergleich: Parameter
Vergleich durch numerische Parameter
U. Quasthoff Textdatenbanken 34
Lexikalischer Vergleich
Differenzanalyse:• Welche Wörter treten im Korpus A auffällig häufig verglichen mit Korpus B auf?• Korpus B kann ein anderes Spezialkorpus oder ein generelles Referenzkorpus
sein.
U. Quasthoff Textdatenbanken 35
Struktureller Vergleich
Beispiel: Vergleich von unterschiedlichen Sprachen
The World Atlas of Language Structures - WALS
• Fragen über jede Sprache wurden von Experten beantwortet
• Daraus wird ein Feature-Vektor erstellt• Diese Vektoren werden geclustert.
U. Quasthoff Textdatenbanken 36
WALS-Fragebogen (Ausschnitte)
U. Quasthoff Textdatenbanken 37
U. Quasthoff Textdatenbanken 38
U. Quasthoff Textdatenbanken 39
Korpusvergleich
Verfahren:• Fragestellungen an die Datenbank, die sich
– Als Script formulieren lassen und– Effektiv beantworten lassen
• Scripte arbeiten auf der Datenbank als– Select-Statement(s)– PHP-Scripte– Andere kleine Programme
• Die entspricht „Messungen am Korpus“
U. Quasthoff Textdatenbanken 40
Resultate beim Korpusvergleich
Messungen am Korpus erlauben verschiedene Auswertungen:• Untersuchung der Datensätze mit extremen (d.h. großen oder kleinen) Messwerten• Verlauf der Messwerte über alle Messungen (Glockenkurve, Zipf-Kurve, ...)• Vergleich der Messungen für verschiedene Korpora
Mögliche Erkenntnisse• Erkenntnisse über statistische Regelmäßigkeiten der Sprache• Auffinden einzelner, relevanter Parameter (z.B. Anstieg einer Geraden)• Vergleich dieser Parameter für verschiedene Korpora / Sprachen• Finden von Datensätzen mit extremalen Eigenschaften• Auffinden von Lücken in der Vorverarbeitung, weil die die extremalen Datensätze
nur Datenmüll enthalten
U. Quasthoff Textdatenbanken 41
Character frequencies
U. Quasthoff Textdatenbanken 42
The most frequent 50 Words The table shows the top-50 words of the
corpus. Usually we see stopwords. This list is a good candidate for a first
stopword list for a language.Usually a small, balanced corpus is
enough to get a good list of high frequent words. But if the small corpus has some very prominent topic, this will be visible even in the top word lists.
U. Quasthoff Textdatenbanken 43
Longest Words in Top-1000 by length The most frequent 1000 words contain a many stopwords and the most frequent
content words. Assuming that stopwords are usually short, the list presented here shows some important content words.
In the case of very poor pre-processing, some non-words may appear in the list. But there will be much finer tests for poor pre-processing below.
U. Quasthoff Textdatenbanken 44
Longest Words
The longest words of the corpus with minimum frequency 2 are shown. The words are seen at least twice, hence, there is some chance for not seeing misprinted words.
Surprisingly, there is no longest word which is much longer than the second one. This, again, argues for correct preprocessing.
U. Quasthoff Textdatenbanken 45
Frequency of numbers I
Numbers can be expected to appear with regular frequencies. In this subsection we present the frequencies for the most frequent cardinal numbers with a fixed number of digits.
For very small numbers, the ordering by frequency is nearly the natural ordering with a slight preference for round lots.
U. Quasthoff Textdatenbanken 46
Frequency of numbers II
In the case of four-digit numbers we usually get years. Here we see the temporal focus of the corpus.
U. Quasthoff Textdatenbanken 47
Most Frequent Abbreviations
If the tokenizer used for word tokenization knows abbreviations (ending with full stop; only those abbreviations may yield to problems during sentence segmentation), these are included in the word list as words ending in a full stop. The list shows the 50 most frequent words of this form.
U. Quasthoff Textdatenbanken 48
Mainly noise: Words containing special characters
U. Quasthoff Textdatenbanken 49
Zipf's law (Standard version)
U. Quasthoff Textdatenbanken 50
Zipf's law for words of fixed lengths
The validity of Zipf’s law for all words does not imply its validity for words of fixed length. The tables show the most frequent words for fixed word lengths 4, 6, 8, …, 14.
U. Quasthoff Textdatenbanken 51
Most frequent word beginnings The tables show the most frequent letter-N-
grams at the beginning of words for N=1…5. Their frequency is count without multiplicity, otherwise the stopwords would dominate the tables.
Word prefixes are clearly visible. In the above example, ver- and ein- are prefixes, and Sch- is not. At the end of a prefix we typically have a wide variety of possible continuations. Hence a prefix of length k will be prominent in the table for N=k, but typically not in the table for N=k+1. The prominent entries Schw- and Schl- for N=4 tell us that Sch- is no prefix.
U. Quasthoff Textdatenbanken 52
Most frequent word beginnings Zipf’s diagram is
plotted with both axis in logarithmic scale, hence we expect nearly straight lines. The graphs look more typical for larger N. Especially for N=3 we find only a small number of trigrams resulting in a sharp decay.
U. Quasthoff Textdatenbanken 53
Zipf's law for words with same first letter
U. Quasthoff Textdatenbanken 54
Zipf's law for words with same last letter: a, b, e, n
U. Quasthoff Textdatenbanken 55
Words by Length without multiplicity Here we ignore the fact that
words have different frequencies. So for the average word length, each word is considered equally. For a fixed word length, we count the number of different words having this length.
With a logarithmic scale of the y-axis, we get a nearly linear part between length 15 and 40.
U. Quasthoff Textdatenbanken 56
Words by Length with multiplicity
The fact that stopwords are very high frequent and short will give a shorter average word length than in the previous picture.
U. Quasthoff Textdatenbanken 57
Average word length for different frequency ranges The table shows the average word
length (counted without multiplicity) for the most frequent 10n (n=1,2,…) words.
U. Quasthoff Textdatenbanken 58
Distribution of Letters in Words
Number of words containing a fixed number of occurrences of the character „o“
U. Quasthoff Textdatenbanken 59
Number of letter-N-grams at word beginnings How many different
letter-N-grams do we find at the beginning of a word? Of course we will find many unexpected N-grams, but the will have low frequency. This is the reason to count these numbers for different ranges and use the top K=10n words (n=2, 3, 4, 5, 6).
U. Quasthoff Textdatenbanken 60
Text coverage by top words
Text coverage measures the number of words necessary to cover a certain amount of text of a corpus. The table shows the text coverage for the first N=10n words, n=1,…,5.
A diagram with these values and logarithmic x-axis shows a nearly straight line.
U. Quasthoff Textdatenbanken 61
Text Coverage
text coverage by the most frequent 10 words: 21.129%text coverage by the most frequent 100 words: 40.212%text coverage by the most frequent 1 000 words: 60.632% text coverage by the most frequent 10 000 words: 80.703% text coverage by the most frequent 100 000 words: 93.498%
U. Quasthoff Textdatenbanken 62
Sentences containing the most frequent wordsFor the most frequent
words we present the percentage of sentences containing this word.
U. Quasthoff Textdatenbanken 63
Length of sentences in characters and words
U. Quasthoff Textdatenbanken 64
Most frequent sentence beginnings and endings of different length
U. Quasthoff Textdatenbanken 65
Sentences consisting of short words only In this subsection we look for sentences containing only short words. The sentences
have minimum length of 40 characters and are ordered by the length of the longest word.
U. Quasthoff Textdatenbanken 66
Sentences with highest average word number
U. Quasthoff Textdatenbanken 67
Sentences with highest average word length
U. Quasthoff Textdatenbanken 68
Types of Sentences by Punctuation Mark
U. Quasthoff Textdatenbanken 69
Sentences consisting of long words only The table shows the sentences with maximal average word length. Because some
languages allow very long words, such sentences may also contain short stopwords. Hence, we may find (at least some) well-formed sentences.
U. Quasthoff Textdatenbanken 70
Language Fingerprint NN co-occurrences within the 10 most frequent words
U. Quasthoff Textdatenbanken 71
Number of NN-co-occurrences depending on frequency classes In many cases, two co-
occurring words have nearly the same frequency. In many other cases (like DET NN), the frequencies differ very much. The following plot shows the frequency classes of co-occurring words. Frequency classes are defined as the logarithm (with base 2) of the frequency rank. The size of the dots corresponds to the number of co-occurrences with the corresponding pair of frequency classes.
U. Quasthoff Textdatenbanken 72
Number of sentence co-occurrences vs. Frequency The diagram below displays for any word its frequency and number of sentence co-
occurrences.
U. Quasthoff Textdatenbanken 73
Size of S
ources
U. Quasthoff Textdatenbanken 74
Sentence length for different sources: Min and Max
U. Quasthoff Textdatenbanken 75
Average word length for different sources: Min and Max
U. Quasthoff Textdatenbanken 76
Sources consisting of many / few words with frequency 1
U. Quasthoff Textdatenbanken 77
Sources with low / high average word length of rare words