bedeutung als vektor? - sprachwissenschaft.uni-jena.de filedistributionelle semantik...
TRANSCRIPT
Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik
Christine Engelmann
Germanistische Sprachwissenschaft (Friedrich-Schiller-Universität Jena)
18.01.2013
Distributionelle Semantik
Forschungsbereich innerhalb der Computerlinguistik
automatische Methoden zur Gewinnung und Verwendung von Wissen über die sprachliche Bedeutung
Verfahren aus dem mathematischen Gebiet der linearen Algebra
Distributionelle Semantik
(Quantifizierung der) Bedeutungsähnlichkeit zwischen sprachlichen Ausdrücken
Katze – Hund vs. Katze – Auto
Distributionelle Semantik
(Quantifizierung der) Bedeutungsähnlichkeit zwischen sprachlichen Ausdrücken
Grundlage ist die statistische Verteilung von Wörtern in umfangreichen Korpora
Distributionelle Semantik
Distributionelle Hypothese:
Wörter, die in ähnlichen sprachlichen Kontexten vorkommen, ähneln sich auch in ihrer Bedeutung
„[…] if we consider words or morphemes A and B to be more different in meaning than A and C, then we will often find that the distributions of A and B are more different than the distributions of A and C. In other words, difference of meaning correlates with difference of distribution.“ (Harris, 1954, S.43)
Distributionelle Semantik
Bedeutung und Kontext (Lin, 1998):
Eine Flasche Tezgüino steht auf dem Tisch.
Jeder mag Tezgüino.
Tezgüino macht dich betrunken.
Wir stellen Tezgüino aus Mais her.
Eine Flasche Bier steht auf dem Tisch.
Jeder mag Bier.
Bier macht dich betrunken.
Distributionelle Semantik
Arten von Kontexten:
Dokument
→ Verfahren aus dem Bereich des Information Retrieval (Stichwort Suchmaschinen)
Distributionelle Semantik
Dokument 1 Die Äpfel (Malus) bilden eine Pflanzengattung der Kernobstgewächse (Pyrinae) aus der Familie der Rosengewächse (Rosaceae). […] Die Arten der Gattung Äpfel (Malus) sind sommergrüne Bäume oder Sträucher. [...] Gemeinhin bekannt sind die mehr oder minder rundlichen, essbaren Früchte.
Dokument 2 Birnenhonig, auch Birnenkraut, Birnendicksaft, Birähung oder Birnenkonzentrat genannt, ist ein opaker, dickflüssiger, brauner bis schwarzbrauner, eingedickter Fruchtsaft aus Birnen – manchmal werden dafür auch Äpfel verwendet – der hauptsächlich in der Zentralschweiz vorkommt. […] Bei der Produktion ist zu beachten, dass man den richtigen Zeitpunkt, nämlich wenn die Birnen kernteig sind, auswählt.
Dokument 3 In einer Glühlampe lässt man einen elektrischen Strom durch einen dünnen, aus einem leitenden Material (Leiter) (meist ein Metall) bestehenden Faden fließen. […] Die aufgenommene elektrische Leistung wird jedoch nur zu einem geringeren Teil in Form von sichtbarem Licht abgestrahlt. […] sodass ab Oktober 2016 nur noch Birnen mit unter 15 Watt Leistung erlaubt seien.
Artikelfragmente aus de.wikipedia.org
Distributionelle Semantik
Aufbau einer Term-Dokument-Matrix
Dokument 1 Dokument 2 Dokument 3
Äpfel 2 1 0
Birnen 0 2 1
Bäume 1 0 0
Früchte 1 0 0
Strom 0 0 1
Licht 0 0 1
Distributionelle Semantik
Aufbau einer Term-Dokument-Matrix
Repräsentation der Wortbedeutung als Vektor, der die statistische Verteilung des Wortes über die verschiedenen Kontexte erfasst
Dokument 1 Dokument 2 Dokument 3
Äpfel 2 1 0
Birnen 0 2 1
Bäume 1 0 0
Früchte 1 0 0
Strom 0 0 1
Licht 0 0 1
Distributionelle Semantik
Berechnung der Ähnlichkeit zwischen Vektoren
→ Maß für semantische Ähnlichkeit zwischen Wörtern
häufiges Ähnlichkeitsmaß:
Kosinus des Winkels zwischen den Vektoren
ba
baba
),cos(
Distributionelle Semantik
Kosinusähnlichkeiten zwischen Wortpaaren
Äpfel Birnen Bäume Früchte Strom Licht
Äpfel 1 0.400 0.894 0.894 0 0
Birnen 0.400 1 0 0 0.447 0.447
Bäume 0.894 0 1 1 0 0
Früchte 0.894 0 1 1 0 0
Strom 0 0.447 0 0 1 1
Licht 0 0.447 0 0 1 1
Distributionelle Semantik
Kookkurrenzen in Wortfenstern
Die Äpfel (Malus) bilden eine Pflanzengattung der Kernobstgewächse (Pyrinae) aus der Familie der Rosengewächse (Rosaceae). […] Die Arten der Gattung Äpfel (Malus) sind sommergrüne Bäume oder Sträucher. [...] Gemeinhin bekannt sind die mehr oder minder rundlichen, essbaren Früchte.
Distributionelle Semantik
Kookkurrenzen in Wortfenstern
Die Äpfel (Malus) bilden eine Pflanzengattung der Kernobstgewächse (Pyrinae) aus der Familie der Rosengewächse (Rosaceae). […] Die Arten der Gattung Äpfel (Malus) sind sommergrüne Bäume oder Sträucher. [...] Gemeinhin bekannt sind die mehr oder minder rundlichen, essbaren Früchte.
Distributionelle Semantik
Aufbau einer Wort-Kontext-Matrix
Die Äpfel (Malus) bilden eine Pflanzengattung der Kernobstgewächse (Pyrinae) aus der Familie der Rosengewächse (Rosaceae). […] Die Arten der Gattung Äpfel (Malus) sind sommergrüne Bäume oder Sträucher. [...] Gemeinhin bekannt sind die mehr oder minder rundlichen, essbaren Früchte.
bilden Gattung Bäume Malus ... ...
...
Äpfel 1 1 1 2 ... ...
Bäume 0 1 0 1 ... ...
...
Distributionelle Semantik
Suche: semantisch ähnlichste Wörter zu Deutschland
1.000000000052925:deutschland 0.9671432834929083:dänemark
0.9858004036876278:belgien 0.9668661861121576:irland
0.9854271741973624:italien 0.966166008757351:schweden
0.9850096231865137:großbritannien 0.9600973838326844:portugal
0.9765935471076133:england 0.9596616157425074:griechenland
0.9761468511153831:spanien 0.955503014183041:luxemburg
0.9714764739008581:frankreich 0.9549118143050283:finnland
0.9683983845810732:österreich 0.9520452487939561:schottland
Distributionelle Semantik
Suche: semantisch ähnlichste Wörter zu Bürger
1.0:bürger 0.9613630053269956:renten
0.96619220870544:arbeiter 0.961089512373858:städte
0.9648729141351022:nahrungsmittelsicherheit 0.9601737598088547:wettbewerbsfähigkeit
0.9646544703822209:arbeitnehmer 0.9582125994483329:kompetenzen
0.964564946181041:forscher 0.9581056446361504:wirtschaft
0.9634983902845092:völker 0.9580823024336814:energiesicherheit
0.9622369081218799:umwelt 0.9580615718044796:meinungsfreiheit
0.9619118985896427:verbraucher 0.9580570068932066:politiken
Distributionelle Semantik
Arten von Kontexten:
Dokument, Absatz, Satz, Phrase
Wortfenster
syntaktische Beziehungen
spezifische Muster
→ mögliche Anwendung: (automatische) Interpretation von Nominalkomposita?
Distributionelle Semantik
• Nominalkomposita
Schokoladenkuchen
semantische Relationen zwischen den Komponenten:
Beschreibung anhand eines festgelegten Inventars abstrakter Kategorien
Schokoladenkuchen (MATERIAL)
Paraphrasierung
Schokoladenkuchen (Y besteht aus X)
Distributionelle Semantik
Latent Relational Analysis (Turney, 2004):
Messung der Ähnlichkeit zwischen Relationen
Suche nach Analogien
Steinmetz : Stein ≈ Zimmermann : Holz
Repräsentation der Relation im Wortpaar als Vektor, der die statistische Verteilung dieser Wörter über bestimmte sprachliche Muster erfasst
X bearbeitet Y X verwendet Y ...
...
Steinmetz:Stein 15 11 ...
Zimmermann:Holz 10 13 ...
...
Distributionelle Semantik
• Latent Relational Analysis:
• Nominalkomposita?
Y besteht aus X X ist in Y ...
...
Holz:Hütte 15 11 ...
Geschirr:Schrank 0 20 ...
Schnee:Haufen 19 0 …
…
Distributionelle Semantik
• Latent Relational Analysis:
– Output?
Liste sprachlicher Muster, in denen Komponenten vorkommen
→ Paraphrasierungsmöglichkeiten für Nominalkomposita zusammen mit Frequenzangabe aus dem Korpus
Maß für relationale Ähnlichkeit zu bereits klassifizierten Nominalkomposita
→ Klassifizierungsmöglichkeiten für Nominalkomposita
Holzhütte – Schneehaufen … (MATERIAL)
Holzhütte – Geschirrschrank … (LOKAL)
Distributionelle Semantik
• Überlegungen zu den Komposita:
– Nomen-Nomen-Komposita
– endozentrische Determinativkomposita
– semantisch transparente Komposita
– nicht-lexikalisierte Komposita
Fragen
• Anknüpfungspunkte zu semantischen Theorien innerhalb der Linguistik?
• Weitere Möglichkeiten der Anwendung im linguistischen Bereich?
Girju, R., Moldovan, D., Tatu, M. & Antohe, D. (2005): On the semantics of
noun compounds. Computer Speech and Language, 19, 479-496.
Harris, Zellig (1954): Distributional Structure. Word, 10, 146-162.
Jänich, K. (2004): Lineare Algebra. Berlin (u.a.) : Springer.
Lenci, A. (2008): Distributional semantics in linguistic and cognitive research. A foreword. Italian Journal of Linguistics, 20 (1), 1-31.
Levi, J.N. (1987): The syntax and semantics of complex nominals. New York: Academic Press.
Lin, D. (1998): Automatic Retrieval and Clustering of Similar Words, Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and the 17th International Conference on Computational Linguistics (COLING-ACL 98), 768-774.
Sahlgren, M. (2008): The Distributional Hypothesis. Italian Journal of Linguistics, 20 (1), 33-54.
Turney, P.D. (2004): Human-level performance on word analogy questions by latent relational analysis. Technical Report ERB-1118, NRC-47422.
Widdows, D. (2004): Geometry and Meaning. Stanford: CSLI Publications.