annis und splicr neue werkzeuge und methoden für die abfrage und archivierung linguistischer...
TRANSCRIPT
![Page 1: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/1.jpg)
ANNIS und SPLICR
Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen
Christian [email protected]
![Page 2: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/2.jpg)
Großflächige Akzeptanz und Ausweitung empirischer, v.a. korpusbasierter Arbeiten in den letzten 20 Jahren.
„There‘s no data like more data.“
Neue technische und methodische Anforderungen für die Arbeit mit linguistischen Datensammlungen
![Page 3: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/3.jpg)
Probleme bei der Arbeit mit Korpora
• Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ?
• Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die
mit verschiedenen Spezialwerkzeugen geschaffen wurden ?
• Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen
bewahrt werden ?
![Page 4: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/4.jpg)
Probleme bei der Arbeit mit Korpora
• Aufbau und Wartung von Datensammlungen sind zeitaufwändig und teuer Nachhaltige Archivierung und Dokumentation ?
• Die Vielfalt linguistischer Annotationen nimmt immer mehr zu Zusammenführung verschiedener Annotationen, die
mit verschiedenen Spezialwerkzeugen geschaffen wurden ?
• Es existiert eine Kluft zwischen praktischer Annotation und linguistischer Intuition Wie kann Otto Normallinguist vor Fehlschlüssen
bewahrt werden ?
Ontologienlinguistischer Annotationen
OLiA
Datenbank der Annotationen
zur Informationsstruktur
ANNIS
Sustainability Platform for Linguistic
Corpora and Resources
SPLICR
![Page 5: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/5.jpg)
Probleme bei der Arbeit mit Korpora
Ontologienlinguistischer Annotationen
OLiA
Datenbank der Annotationen
zur Informationsstruktur
ANNIS
Sustainability Platform for Linguistic
Corpora and Resources
SPLICR
SFB 632 Information Structure
![Page 6: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/6.jpg)
ANNIS & SPLICR
• ANNIS (SFB632 „Informationsstruktur“)– Querying und Visualisierung von
Mehrebenenannotationen• SPLICR (SFB441 „Linguistische Datenstrukturen“)
– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen
... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen
• Schlussworte
![Page 7: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/7.jpg)
ANNIS
• SFB 632 „Informationsstruktur“Potsdam, HU Berlin
• Projekt „Linguistische Datenbank“ (Stede/Lüdeling)
• Datenbank für die dort aufgebautenAnnotationen zur Informationsstruktur
– 10 Datenprojekte unterschiedlicher linguistischer Disziplinen
Typologie, Historische Sprachwissenschaft, Korpuslinguistik, Computerlinguistik
![Page 8: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/8.jpg)
ANNISBesondere Anforderungen
Mehrebenenannotation• Diskursphänomene erfordern die Betrachtung
unterschiedlicher linguistischer Beschreibungsebenen– Morphologie und Syntax– Semantik– Phonologie und Prosodie– Anaphorik– Diskursstruktur– Informationsstruktur und Informationsstatus
![Page 9: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/9.jpg)
ANNISBesondere Anforderungen
Mehrebenenannotation• Annotation von Diskursphänomenen erfordert
unterschiedliche spezialisierte Werkzeuge – Toolbox/Shoebox– Exmaralda/ELAN– Annotate/Synpathy– MMAX/Palinka– RSTTool
![Page 10: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/10.jpg)
ANNISBesondere Anforderungen
Mehrebenenannotation• Annotation von Diskursphänomenen erfordert
unterschiedliche spezialisierte Werkzeuge• Keines dieser Werkzeuge erlaubt, auf andere
Annotationsebenen zuzugreifen oder diese angemessen darzustellen
Integration der Daten in einer einzigen DatenbankAnfragen über mehrere Annotationsebenen hinweg
![Page 11: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/11.jpg)
MehrebenenannotationSyntaxannotation
Annotate, Synpathy
NK
NP
NK NK
Die einstige Fußball-WeltmachtART ADJA NN
![Page 12: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/12.jpg)
MehrebenenannotationAnaphorik
MMAX
![Page 13: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/13.jpg)
MehrebenenannotationDiskursstruktur
RST Tool
![Page 14: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/14.jpg)
MehrebenenannotationPartitur-Annotation
Exmaralda
![Page 15: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/15.jpg)
ANNIS
Annotierte Daten
Morphologie, Syntax, Anaphorik, Diskursstruktur, Partitur-Annotationen Gemeinsames
Datenformat
ANNISLinguistische Datenbank
Suche, Visualisierung, Export
PAULAPotsdamer Austauschformat für linguistische Annotationen
![Page 16: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/16.jpg)
ANNISBesondere Anforderungen
• Anfragen über mehrere Annotationsebenen hinweg
• Gemeinsames Datenbankformat für unterschiedliche Daten
• Direkter Einsatz in der empirischen Forschung– Komfortable und mächtige Suchmöglichkeiten– Statistische Funktionalität
![Page 17: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/17.jpg)
ANNISANNIS 1 (2003-2006)
• entwickelt 2003-2006• Anfragesprache ANNIS-QL• Partituransicht• reine Hauptspeicherlösung• im Browser zu benutzen
– lokale Installation möglich– kann auf Anfrage zugänglich gemacht werden
![Page 18: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/18.jpg)
ANNISSuchfenster, Textansicht, Partituransicht (ANNIS 1)
![Page 19: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/19.jpg)
ANNISAnfragesprache ANNIS-QL
• Anfragen über mehrere Annotationsschichten– ... um Wechselwirkungen zu studierengivenness=‘giv‘ & syncat=‘pp‘ & rhetrel=‘contrast‘
– ... um abweichende Annotationsentscheidungen zu identifizierenann1::givenness=‘new‘ & ann2::givenness=‘giv‘ & #1 _=_ #2
– ... um Annotationen auf Vollständigkeit zu prüfenaboutness=‘ref‘ & givenness=‘‘ & #1 _=_ #2
![Page 20: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/20.jpg)
ANNISANNIS 2 (seit 2006)
• entwickelt seit Mitte 2006 – in Kooperation mit Ulf Leser, HU Berlin
• Weiterentwicklung von ANNIS 1– graphischer Editor für ANNIS-QL-Anfragen– relationale DB (PostGreS)– Erweiterung von ANNIS-QL– differenzierte Visualisierung für
unterschiedliche Datentypen– reine Serveranwendung
![Page 21: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/21.jpg)
ANNIS 2Baumsuche*
* Mehrfache Vorfeldbesetzung (TIGER)
![Page 22: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/22.jpg)
ANNIS 2Ergebnisliste*
* Mehrfache Vorfeldbesetzung (TIGER)
![Page 23: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/23.jpg)
ANNIS 2Ergebnispräsentation: Baumansicht
![Page 24: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/24.jpg)
ANNIS 2Ergebnispräsentation: Koreferenz-Ansicht
![Page 25: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/25.jpg)
ANNIS 2Aktueller Status
• momentan ein Forschungsprototyp– „Erprobungsphase“ mit interessierten
Kooperationspartnern– offizielles Release Anfang 2009 geplant
• Testzugänge dann möglich– soll langfristig quelloffen zur Verfügung gestellt
werden• aktuelle Entwicklungen
– Verbesserung der Stabilität und Performanz– Erweiterung der Datenbasis– verbesserte statistische Funktionalität
• Export einer Trefferliste in einem Tabellenformat
![Page 26: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/26.jpg)
ANNIS & SPLICR
• ANNIS– Querying und Visualisierung von
Mehrebenenannotationen• SPLICR
– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen
... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen
• Schlussworte
![Page 27: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/27.jpg)
SPLICRInfrastruktur für ein Nachhaltigkeitsarchiv
• Sustainability Platform for Linguistic Corpora and Resources
• Kooperationsprojekt „Nachhaltigkeit linguistischer Daten“ (Reis/Hinrichs)
• Datenbank für die nachhaltige Archivierung der Daten aller beteiligten SFBs– SFB 441 „Linguistische Datenstrukturen“, Tübingen– SFB 538 „Mehrsprachigkeit“, Hamburg– SFB 632 „Informationsstruktur“, Potsdam/HU Berlin
![Page 28: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/28.jpg)
SPLICRBesondere Anforderungen
• Nachhaltige Archivierung– Daten sollen langfristig zugänglich gemacht
werden– Entscheidungshilfe dafür, welche Korpora ein
Nutzer anfordern sollte– Daten sollen sich dem Nutzer ohne
langwieriges Studium der Dokumentation erschließen
– Direkt lesbares Datenformat (XML)
![Page 29: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/29.jpg)
SPLICRBesondere Anforderungen
• SPLICR dient zum Nachweis und zur Erhaltung existierender Ressourcen– heterogene Datenbasis
• Daten werden nur so weit verändert, wie für die Datenbankrepräsentation notwendig
– Vorlagen-basierte Anfragen– auf Robustheit optimiert
weniger auf Performanz– keine Statistikfunktionalität– Abfragen für jeweils nur eine Ressource und eine
Annotationsebene
![Page 30: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/30.jpg)
SPLICRRessourcenüberblick und -auswahl
![Page 31: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/31.jpg)
SPLICRSuchfunktionalität
• Volltextsuche– Suche nach Zeichenfolgen in den Originaldaten
• Konzeptsuche– Suche nach Annotationen mit Hilfe kurzer
konzeptueller BeschreibungenRückgabekontext
„Clause“ statt //ntNode[@cat=‘S‘]Annotationsschicht
„Parts of Speech“ statt //*/pos/@genau:valueAnnotationswert
„Auxilliary Verb, finite“ statt //*/pos[@genau:value=‘VAFIN‘]
• Baumsuche– sucht nach Annotationen oder Annotationskonzepten– erweitert Konzeptsuche um Dominanz- und
Präzedenzrelationen
![Page 32: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/32.jpg)
SPLICRKonzeptsuche
![Page 33: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/33.jpg)
SPLICRBaumsuche
![Page 34: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/34.jpg)
SPLICRPräsentation der Suchergebnisse
• verschiedene Visualisierungen der XML-Struktur der Daten– Textansicht
• alle Annotationen ausgeblendet– Boxansicht
• ähnlich der ANNIS-Partituransicht– Baumansicht
• Visualisierung des XML-Baumes nicht notwendigerweise ein Baum im linguistischen Sinne
– XML• formatierte Ausgabe der XML-Daten
![Page 35: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/35.jpg)
SPLICRErgebnisansicht: Boxansicht
![Page 36: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/36.jpg)
SPLICRErgebnisansicht: Baumansicht
![Page 37: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/37.jpg)
SPLICR
• wird nach Beendigung des Nachhaltigkeitsprojektes (Dezember 2008) in Betrieb genommen
• erfasst die Daten und Metadaten der erfassten Ressourcen
• die Konzeptsuche erfordert zusätzlich, die Annotationen und das Korpusformat auf bestimmte Weise zu dokumentieren Ontologien linguistischer Annotationen
![Page 38: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/38.jpg)
ANNIS & SPLICR
• ANNIS– Querying und Visualisierung von
Mehrebenenannotationen• SPLICR
– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen
... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen
• Schlussworte
![Page 39: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/39.jpg)
OLiAMotivation
• Überwindung der Kluft zwischen real existierender Annotation und den Intuitionen ihrer Nutzer– verbesserte Aufbereitung
• konzeptbasierte Suche– gesteigerte Transparenz
• Dokumentation von Annotationen• Formalisierung von Annotationsschemata• Abbildung zwischen Annotationen auf eine
wohldefinierte Basisterminologie
![Page 40: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/40.jpg)
OLiAMotivation: Annotation vs. Intuition
• Annotationsschemata erzwingen eine eindeutige Kategorisierung sämtlicher Phänomene
• Neben theoretischen Überlegungen gehen aber auch pragmatische Designentscheidungen in Annotationsschemata ein– in unterschiedlichen Korpora/Annotationsschemata
abweichend• „Otto Normallinguist“ muss Strategien
entwickeln, Tag-Definitionen schnell zu erfassen, um mit den Daten arbeiten zu können
![Page 41: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/41.jpg)
OLiAMotivation: Annotation vs. Intuition
• Strategien zum Deuten von linguistischen Annotationen– Die „intuitive“ Methode
• Was sich wie „Hilfsverb“ anhört, meint das sicher auch.
– Die Analogie-Methode• Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben
definiert werden. Das ist hier sicherlich genauso.
– Die „Schau-mer-mal“-Methode• Was war doch gleich das Tag für Hilfsverben im Korpus ?
– Die „richtige“ Methode• Was sagt eigentlich die Dokumentation ?
![Page 42: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/42.jpg)
OLiAMotivation: Annotation vs. Intuition
• Strategien zum Deuten von linguistischen Annotationen– Die „intuitive“ Methode
• Was sich wie „Hilfsverb“ anhört, meint das sicher auch.
– Die Analogie-Methode• Aus meinem Lieblingstagset weiß ich, wie dort Hilfsverben
definiert werden. Das ist hier sicherlich genauso.
– Die „Schau-mer-mal“-Methode• Was war doch gleich das Tag für Hilfsverben im Korpus ?
– Die „richtige“ Methode• Was sagt eigentlich die Dokumentation ?
MinimalerAufwand
MaximalerAufwand
![Page 43: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/43.jpg)
OLiAAnnotation vs. Intuition
• Die „intuitive“ Methode– Was sich wie „Hilfsverb“ anhört, meint das
sicher auch– Naja, nicht bei Morphy*
– Und auch nicht bei STTS**
* http://www.wolfganglezius.de/doku.php?id=public:cl:morphy (15.10.08)** Schiller et al. (1999), S.29
![Page 44: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/44.jpg)
OLiAAnnotation vs. Intuition
• Die Analogie-Methode– „Hilfsverb“ bezeichnet also eigentlich
potentielle Hilfsverben– Naja, nicht im Connexor-Tagset*
* http://www.connexor.eu/technology/machinese/demo/syntax/ (15.10.08)
Aber glaub mir, das ist nicht das Ende, denn das ist noch lange nicht gekommen.
![Page 45: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/45.jpg)
• Die „Schau-mer-mal“-Methode– Was war doch gleich das Tag für Hilfsverben
im Korpus ?– erster Beleg in TIGERSampler: VAFIN
OLiAAnnotation vs. Intuition
![Page 46: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/46.jpg)
• Die „richtige“ Methode– Was sagt eigentlich die Dokumentation ?– Manchmal etwas zu viel
• TüBa-D/Z: 146 Seiten*• Susanne: 483 Seiten**
– Manchmal etwas zu wenig• Z.B. als reine Tag-Liste
– Vor allem aber: Jedes Annotationsschema auf seine eigene Weise
OLiAAnnotation vs. Intuition
??* H. Telljohann et al. (2006), Stylebook for the Tübingen Treebank of Written German (TüBa-D/Z)** G. Sampson (1996), The Susanne corpus and analytic scheme
![Page 47: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/47.jpg)
OLiADie Idee
• Formale Modellierung der linguistischen Basisterminologie
„Referenzmodell“*• Formale Spezifikation der Terminologie jedes
einzelnen Annotationsschemas„Annotationsmodell“
• Annotationskonzepte werden als Subkonzepte von Referenzkonzepten spezifiziert
„Linking“• kann komplex sein**
BABABAC ,,
* Bezogen auf die in SPLICR und ANNIS vorliegenden Annotationen** Annotationskonzept C, Referenzkonzepte A,B
![Page 48: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/48.jpg)
OLiADie Idee
• FormalisierungAbweichungen von Referenzdefinitionen klar
herausgestelltHilfsverben in STTS:
• explizit und eindeutig kompakte Repräsentation
• XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar
HTML-Dokumentation
• OWL/DL
)( ModalVerbbLexicalVererbAuxiliaryVVAFIN
![Page 49: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/49.jpg)
OLiADie Idee
• FormalisierungAbweichungen von Referenzdefinitionen klar
herausgestelltHilfsverben in STTS:
• explizit und eindeutig kompakte Repräsentation
• XML-basierte Formalismen leicht in menschenlesbare Darstellung konvertierbar
HTML-Dokumentation
• Formalisierung als Ontologie (OWL/DL)
)( ModalVerbbLexicalVererbAuxiliaryVVAFIN
![Page 50: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/50.jpg)
OLiAOntologien in der Informationsverarbeitung
• Ontologie– Konzeptualisierung einer bestimmten Domäne
• z.B. eine Taxonomie linguistischer Termini
– hierarchisch und relational strukturiert• OWL (Web Ontology Language)*
– formale Beschreibungssprache für Ontologien– XML-basiert– Semantic Web
* Web Ontology Language, http://www.w3.org/2004/OWL/ (10.10.08)
![Page 51: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/51.jpg)
OLiAProjekte zur linguistischen Terminologie: EAGLES
• Expert Advisory Group on Language Engineering*– Standardisierungsprojekt der EU (1993 – 1996)
• Empfehlungen für Annotationschemata– v.a. Wortarten, Morphologie, Syntax; Lexika– ausgehend von existierenden Schemata
• Identifizierung sich wiederholender Begriffe
– kein nennenswerter theoretischer Unterbau• keine Referenzdefinitionen
* http://www.ilc.cnr.it/EAGLES96/home.html (06.09.2008)
![Page 52: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/52.jpg)
OLiAProjekte zur linguistischen Terminologie: GOLD
• General Ontology for Linguistic Description*– im Rahmen des E-MELD-Projektes zur
Dokumentation bedrohter Sprachen entwickelt (2001-2006)
• auf der Basis v.a. typologischer Literatur– Schwerpunkt auf Morphosyntax– OWL/DL
* http://www.linguistics-ontology.org/ (06.09.2007)** Electronic Metastructure for Endangered Languages Data (http://www.emeld.org/index.cfm, 06.09.2007)
![Page 53: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/53.jpg)
OLiAWeitere Projekte zur linguistischen Terminologie (Auswahl)
• Data Category Registry (Ide 2003)*– Weiterentwicklung der EAGLES-Empfehlungen,
erweitert um Definitionen• OntoTag (de Cea et al. 2003)
– Ontologie morphosyntaktischer Annotationen des Spanischen
• Typological Database System Ontology (Dimitriadis et al., 2005)**– OWL-Ontologie der Terminologie typologischer
Datensammlungen
* http://www.isocat.org/ (15.10.08)** http://languagelink.let.uu.nl/tds/main.html (15.10.08)
![Page 54: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/54.jpg)
OLiAWeitere Projekte zur linguistischen Terminologie (Auswahl)
• IDS-Ontologie (Schneider 2007)– Terminologie zur Grammatikbeschreibung im
Deutschen• G. Wilcock (2008)
– OWL-Ontologie für HPSG als Erweiterung von GOLD• A. Burchardt et al. (2008)
– OWL-Formalisierung annotierter Korpora und ihrer Annotation
Die OliA-Ontologien sollen modular strukturiert sein, um diese Ontologien als externe Wissensquellen einbinden zu können.
![Page 55: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/55.jpg)
OLiAStrukturkomponenten
• Annotationsmodell10 Annotationsmodelle zu mehreren Europäischen und Außereuropäischen SprachenWortarten, Morphologie, Syntax, Koreferenz, Informationsstruktur
• OLiA ReferenzmodellGeneralisiert über die AnnotationsmodelleBasiert u.a. auf EAGLES und GOLD
• LinkingErweiterbare ArchitekturAnbindung externer Referenzmodels (GOLD, OntoTag, Data Category Registry) möglich
reference.owl
stts.owl
importiert
stts-link.rdf
susanne.owl
susanne-link.rdf
russ.owl
russ-link.rdfmodel.owl
OLiA Referenzmodel
Ontologie, die übrige Komponenten importiert
![Page 56: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/56.jpg)
OLiAAnnotationsmodell, Referenzmodell und Linking: Beispiel
![Page 57: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/57.jpg)
OLiAOntologieerstellung mit Protégé: Konzepthierarchie
Die Konzepthierarchie definiert eine Taxonomie von Basiskonzepten fürdas Referenzmodell (e-eagles.owl) wieauch Annotationsmodelle (z.B. stts.owl)
![Page 58: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/58.jpg)
OLiAOntologieerstellung mit Protégé: Relationen
Relationen (Properties) ordnen Konzept-Instanzen andere Konzeptinstanzen zu,z.B. einem LinguisticElement einGrammaticalFeature
![Page 59: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/59.jpg)
OLiAOntologieerstellung mit Protégé: Individuen
Individuen sind durch die Zugehörigkeitzu einem oder mehreren Konzepten undbestimmte Merkmalswerte/Relationencharakterisiert.Individuen der Unterkonzepte von LinguisticElement wird ein Annotations-wert zugeordnet.
![Page 60: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/60.jpg)
OLiADokumentation
• anwendungs-spezifischer HTML-Export– Konzepte sind mittels
Hyperlinks verbunden
• in SPLICR zu Dokumentations-zwecken eingesetzt
• Annotationsmodelle sind den Korpora mit entsprechenden Annotationen zugeordnet
Referenzkonzepte
Konzepte des STTSAnnotationsmodells
![Page 61: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/61.jpg)
OLiAAnwendung jenseits der Dokumentation
• Dokumentation von Annotationsschemata(SPLICR)– kompakte und einheitliche Darstellungsweise
erleichtert das Auffinden relevanter Informationen über die Annotation
• Suchfunktionalität– SPLICR: Ausgangsdaten für Konzeptsuche– OntoClient: direkte Übersetzung ontologischer
Beschreibungen in konkrete Tags
![Page 62: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/62.jpg)
OLiAMetadaten und Konzeptsuche in SPLICR
Korpus
Manifest
annotation-concepts.xml
annotation-structures.xml
annotation-values.xml
eTEI Metadaten
Registriert und spezifiziert die zu einem Korpus gehörigen Daten
Metadaten, die Primärdaten und die Annotation betreffend
Sammlung von XML-DokumentenPrimärdaten und Annotationen
Metadaten für die SucheDefinieren Rückgabekontexte
(Clause, Sentence)
Metadaten für das XML-FormatDefinieren, wie Attribut-Wert-Paarein einem Korpus dargestellt werden
Metadaten für die SucheDefinieren mögliche
Attribut-Wert-Paare in einem Korpus
![Page 63: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/63.jpg)
OLiAOntologien und Metadaten in SPLICR
Korpus
Manifest
annotation-concepts.xml
annotation-structures.xml
annotation-values.xml
eTEI Metadaten
Registriert und spezifiziert die zu einem Korpus gehörigen Daten
Metadaten, die Primärdaten und die Annotation betreffend
Sammlung von XML-DokumentenPrimärdaten und Annotationen
Metadaten für die SucheDefinieren Rückgabekontexte
(Clause, Sentence)
Metadaten für das XML-FormatDefinieren, wie Attribut-Wert-Paarein einem Korpus dargestellt werden
Metadaten für die SucheDefinieren mögliche
Attribut-Wert-Paare in einem Korpus
OLiA Ontologien
Ordnen einner Annotation ein OLiA Annotationsmodell zu
Metadaten für konzeptbasierte Suche
sind aus OLiA-Ontologien extrahierbar
ermöglicht die Anwendung des OntoClient für die ontologie-
basierte Suche
![Page 64: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/64.jpg)
OLiAOntologiebasierte Suche
Suchanfrage ... pos in { Noun \ Nominal } & cat = ...
Konsultation der Ontologie1. ermittle Tags für jedes
angefragte Ontologie-Konzept
2. wende Operatoren an
Noun
ProperNoun
MassNoun CountableNoun
CommonNoun
Nominal
VerbalNoun
Substantive
tibet:ProperNoun
tibet:InanimateNoun
tibet:AnimateNoun
tibet:Person
tibet:CommonNoun
NOM_inan
NOM_anim_lqNOM_inan_lq
NOM_persNOM_pers_anim
NAME
NOM_anim
Referenzmodell
Annotationsmodell
Linking
Ausgabe der erweiterten Anfrage
... pos = NOM_inan | NOM_inan_lq | NOM_anim | NOM_anim_lq | NOM_anim_pers | NOM_pers | NAME & cat = ...
![Page 65: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/65.jpg)
OLiAOntoClient
• OntoClient– JAVA-Bibliothek– erweitert beliebige Korpusanfragesprachen
um ontologiebasierte Suche• Beispielanwendungen
– Ontologie-basierte Suche für CQP– Ontologie-basierte Suche in ANNIS 1
• wird in SPLICR und ANNIS 2 integriert
![Page 66: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/66.jpg)
OLiAOntoClient + ANNIS 1
ontologische Beschreibung
generierte ANNIS-QL-Anfrage
![Page 67: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/67.jpg)
OLiA
• unterstützt die konsistente Dokumentation von Annotationen– HTML-Darstellung
• ermöglicht Nutzern, schnell annotierte Korpora zu konsultieren– ohne auf die vollständige Dokumentation
zurückgreifen zu müssen– SPLICR Konzeptsuche / OntoClient
• ermöglicht Anfragen über unterschiedlich annotierte Korpora hinweg– OntoClient
![Page 68: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/68.jpg)
ANNIS & SPLICR
• ANNIS– Querying und Visualisierung von
Mehrebenenannotationen• SPLICR
– Nachhaltige Archivierung linguistischer Daten• Ontologien linguistischer Annotationen
... und ihre Anwendung für Abfrage und Dokumentation linguistischer Annotationen
• Schlussworte
![Page 69: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/69.jpg)
Vergleich von ANNIS und SPLICR
• komplexes Datenformat• Datenkonvertierung
mittels existierender Konverter
• geringer Aufbereitungsaufwand
neben der unmittelbaren Konvertierung
empirische Arbeit mit Mehrebenen-annotationen
• relativ einfaches Datenformat
• eigene Konverter leicht zu entwickeln
• hoher Aufbereitungsaufwand
neben der unmittelbaren Konvertierung
nachhaltige Archivierung von Datensammlungen
ANNIS SPLICR
![Page 70: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/70.jpg)
Verfügbarkeit
• ANNIS 1– Zugang zur Potsdamer Installation kann auf
Wunsch bereitgestellt werden– lokale Installation kann auf Anfrage bei
[email protected] bereitgestellt werden
– Datenkonverter sind über ein Webformular erreichbar
![Page 71: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/71.jpg)
Verfügbarkeit
• ANNIS 2– befindet sich momentan noch in der
Erprobungsphase– Veröffentlichung wird momentan vorbereitet
und ist für 2009 zu erwarten• Anfang 2009 sollen Nutzer freie Testzugänge
erhalten können– Mittelfristig ist eine Veröffentlichung des
Quellcodes geplant• Lizenz noch unklar, aber quelloffen
![Page 72: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/72.jpg)
Verfügbarkeit
• SPLICR– wird nach Beendigung des Projekts
„Nachhaltigkeit linguistischer Daten“ (Dezember 2008) der Öffentlichkeit zugänglich gemacht
– momentan werden die SFB-Korpora in die Plattform integriert
• Daten und Metadaten (z.B. zur Zugänglichkeit)– Veröffentlichung des Quellcodes unter einer
quelloffenen Lizenz geplant
![Page 73: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/73.jpg)
Verfügbarkeit
• OLiA-Ontologien– werden in den Releases von ANNIS 2 und
SPLICR enthalten sein– über das Internet zugänglich
• http://nachhalt.sfb632.uni-potsdam.de/owl/all.rdf (in Protégé zu öffnen)
– Werkzeuge• HTML-Visualisierung• OntoClient
![Page 74: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/74.jpg)
Vielen Dank für Ihre Aufmerksamkeit
![Page 75: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/75.jpg)
Beteiligte Kollegen
• ANNIS-Team (U Potsdam, HU Berlin)Manfred Stede, Anke Lüdeling, Ulf Leser, Stefanie Dipper, Michael Götze, Julia Ritz, Amir Zeldes, Florian Zipser, Viktor Rosenfeld, Karsten Hütter, Thomas Krause, Tilman Wegst (extern)
• SPLICR-Team (U Tübingen, U Hamburg)Erhard Hinrichs, Marga Reis, Andreas Witt, Georg Rehm, Timm Lehmberg, Oliver Schonefeld, Richard Eckart (TU Darmstadt), Johannes Dellert, Kilian Evang, Magdalena Leshtanska
• OLiA-Team (U Potsdam)Angelika Adam, Alexander Becker, Johannes Bubenzer, Thomas Augustin
![Page 76: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/76.jpg)
Diskussionspunkte
• weitere Aspekte (Auswahl)– Technische Details zu den Datenbanken– Wahrung von Urheber- und Nutzungsrechten
an Daten und Annotationen– Beispielpipelines für konkrete Datensätze– Erstellung und Wartung von Ontologien– Statistische Funktionalität
![Page 77: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/77.jpg)
AnhangTechnische Details zu ANNIS & SPLICR
• Client-Server-Architekturen– Inkrementeller Datenabruf– Unicode
• Datenbank– SPLICR
• XML-Datenbank– eXist / Annolab– optimiert für hierarchische Annotationen
• SQL-Datenbank– Metadaten
– ANNIS• Relationale Datenbank
– PostGreS– erlaubt Umgang mit hierarchischen und graph-basierten Annotationen
![Page 78: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/78.jpg)
AnhangArchitektur ANNIS 2
BackendBaumsucheANNIS-QL-Suche
![Page 79: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/79.jpg)
AnhangArchitektur SPLICR
SQL DatenbankMetadaten
XML Datenbankaufbereitete Korpusdaten
XQuerySQL
DateisystemOriginaldaten
OLiA-OntologienAnnotationsschemata
Anfrageobjekte
diverse Anfragemodi
Formulardaten
BackendXML (Daten)JSON (Visualisierung)
![Page 80: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/80.jpg)
AnhangANNIS und WEKA
ANNIS
TIGER XMLExmaralda
RST ToolMMAX
• POS, morph, syntax• Informationsstruktur• Diskursstruktur• KoreferenzKonvertierung
nach PAULA
• Integration unterschiedlicher Annotationen desselben Satzes von Dokumenten
Konvertierungnach ARFF
WEKA • WEKA* Arbeitsumgebung für Statistikanalysenstatistische, neuronale, symbolische Klassifikatoren
* http://sourceforge.net/projects/weka/
• Extrahierung von MerkmalstabellenANNIS 2 wird Standardroutinen dafür enthalten
![Page 81: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/81.jpg)
AnhangWEKA
Vorverarbeitung:Auswahl relevanterMerkmale aus einer
ARFF-Tabelle
![Page 82: ANNIS und SPLICR Neue Werkzeuge und Methoden für die Abfrage und Archivierung linguistischer Annotationen Christian Chiarcos chiarcos@uni-potsdam.de](https://reader034.vdocuments.pub/reader034/viewer/2022042511/55204d6349795902118b8a71/html5/thumbnails/82.jpg)
AnhangWEKA
Beispielanalyse(Entscheidungsbaum)
Informationsstatus und referentielle Ausdrücke im Deutschen (Potsdamer Kommentarkorpus)