![Page 1: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/1.jpg)
Entwicklung eines Werkzeugs zurOnline Textanalyse und -klassifikation
Magisterarbeitim Studiengang Linguistische Informatik
(Magister Artium)
![Page 2: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/2.jpg)
26.11.08 Nicolas Goessnitzer 2
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
Inhaltsübersicht
1. Einleitung und Übersicht
2. Demonstration der Textmühle
3. Theoretische Überlegungen
4. Aufbau und Struktur der Textmühle
5. Fazit
![Page 3: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/3.jpg)
26.11.08 Nicolas Goessnitzer 3
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Einleitung und Übersicht
– Wofür wird die Textmühle eingesetzt?• Verarbeitung von Texten und Korpora
– Konvertierung von Dateiformaten
– Erstellung von Wort- und Frequenzlisten
– Morphologische Analysen (mit malaga, bzw. jslim)
– kontrollierte Erstellung von Korpora
• Statistische Berechnungen– Verteilungen von Domänen eines Korpus
– Wortanzahlen in Texten und Domänen
– Type/Token-Verteilungen
– Klassifikation / Clusteranalyse
![Page 4: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/4.jpg)
26.11.08 Nicolas Goessnitzer 4
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Einleitung und Übersicht
Übersicht zu den Dateiformaten im WWW
Berücksichtigung bei Textmühle
![Page 5: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/5.jpg)
26.11.08 Nicolas Goessnitzer 5
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Einleitung und Übersicht
Übersicht zu den Dateiformaten im WWW
![Page 6: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/6.jpg)
26.11.08 Nicolas Goessnitzer 6
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Einleitung und Übersicht
– Was sind die wesentlichen Merkmale der Textmühle?
• Zugriff über das Internet
• Verarbeitung der Anforderungen erfolgt auf dem Server
• Programmierung in einer „offenen“ Programmiersprache (PHP)
• Keine Abhängigkeit vom Betriebssystem des Benutzers
• Leichter Zugang zu Daten und Bearbeitungsprozeduren
• Keine umständliche Installation und Konfiguration für den Nutzer
• Zusammenarbeit mit anderen Applikationen im WWW
![Page 7: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/7.jpg)
26.11.08 Nicolas Goessnitzer 7
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Demonstration
– Verarbeitung eines Korpus anhand einer Beispielkollektion
– Analyseergebnisee des Testkorpus wifi
– Der Ablauf der Verarbeitungsschritte:• Import
• Konvertierung
• Filter
• Frequenzliste
• Morphologie
• Clusteranalyse
![Page 8: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/8.jpg)
26.11.08 Nicolas Goessnitzer 8
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Demonstration
![Page 9: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/9.jpg)
26.11.08 Nicolas Goessnitzer 9
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.1 Basiselemente Linguistischer Analysen
– Term - Wort, Wortform, Grundform, Morphem und Allomorph
– Text
– Korpus
Praktischer Analyseansatz zur Tokenisierung:
Das Wort ist eine sprachliche Einheit, die in der geschriebenen Sprache durch Leerstellen begrenzt ist.
Herbst, Stoll, u. Westermayr (1991, S. 79, Definition 317)
Pragmatische Definition von Text und Korpus:
Der Terminus “Text“ bezeichnet eine begrenzte Folge von sprachlichenZeichen […] Brinker (2005, S.17f)
Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen […]
Lemnitzer u. Zinsmeister (2006, S. 40)
![Page 10: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/10.jpg)
26.11.08 Nicolas Goessnitzer 10
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
Einschub: Korpuskodierungen
Welche Korpuskodierungen sind gebräuchlich?→ überwiegend scheint eine XML-Codierung das Gebräuchlichste zu sein:
Korpus Umfang Kodierung
Reuters Corpus ~ 200 Mio. lfd. Wortformen XML
DWDS1 ~ 40 Mio. lfd. Wortformen XML
AAC2 ~ 100 Mio. lfd. Wortformen n.b.
Deutsches
Referenzkorpus ~ 2.000 Mio. lfd. Wortformen IDS-Textmodell (XML)
negr@ corpus ~ 350 Tsd. lfd. Wortformen SQL-DB
BNC ~ 100 Mio. lfd. Wortformen XML (neue Version)
COBUILD3 ~ 65 Mio. lfd. Wortformen n.b.
Oslo ~ 1,5 Mio. lfd. Wortformen txt/ascii
LIMAS ~ 1 Mio. lfd. Wortformen n.b.
1 DWDS: Digitales Wörterbuch der deutschen Sprache
2 AAC: Austrian Academy Corpus (kaum Informationen via www zugänglich)
3 COBUILD: Die Internetpräsenz des Collins-COBUILD Korpus ist z.Zt. nicht verfügbar
![Page 11: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/11.jpg)
26.11.08 Nicolas Goessnitzer 11
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.2 Knowledge Discovery
– Unvorstellbare Mengen an Dokumenten und Daten
– Methoden zur Aufdeckung versteckter Zusammenhänge oder weitergehender Informationen (Data Mining, Text Mining)
Benachbarte Gebiete des KD nach Hotho (2004, S.30)
![Page 12: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/12.jpg)
26.11.08 Nicolas Goessnitzer 12
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining
– Stopplisten
– Anwendung linguistischen Wissens (Morphologische Analyse)
– Löschen von seltenen Wörtern (insbesondere Hapax Legomena)
– Normierung und Gewichtung der Daten
Unter Berücksichtigung kritischer Einflussfaktoren:
→ Datenmenge→ Dateiformate→ Zeichensätze→ Sprache der Dokumente
![Page 13: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/13.jpg)
26.11.08 Nicolas Goessnitzer 13
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining: Einflussfaktoren
– Datenmenge• Entwicklung 60er Jahre bis Gegenwart:
Anzahl der laufenden Wortformen (z.T. 100 Mio. und mehr)
• Datenübertragungsrate für Internetanwendungen
Zeitl. A
bfolge
![Page 14: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/14.jpg)
26.11.08 Nicolas Goessnitzer 14
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining: Einflussfaktoren
– Dateiformate • Abdecken möglichst vieler verschiedener Eingangsformate
• Probleme bei proprietären Formaten (z.B. Microsoft)
• Verfügbarkeit von Anwendungen zur Konvertierung
– Zeichensätze• Quasi-Standard UTF-8 für Internet
• Problem der Erkennung der konkreten Ausgangskodierung
(z.B. ISO-x, Ascii, Ansi)
• Theoretische Lösung: Annotierung der Kodierung mit XML
– Verwendete Sprache der Daten1. Prinzipiell gelöstes Teilproblem für hinreichend große Textlänge
• Problem der Multilingualität in Texten (insbesondere im WWW)
![Page 15: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/15.jpg)
26.11.08 Nicolas Goessnitzer 15
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining
– Ansätze zur Anwendung linguistischen Wissens• Probabilistisches Stemming
• „Linguistisches“ Stemming
• Linguistische morphologische AnalyseDie zugrunde liegende Theorie, die Allomorph-Methode, basiert auf der von
Roland R. Hausser entwickelten SLIM-Sprachtheorie
– Zerlegung der Oberfläche (Segmentierung)
– Klassifikation der elementaren Bestandteile (Lexical-Lookup)
– Regelbasierte Zusammensetzung und grammatische Gesamtanalyse der Wortform (Konkatenation)
– Stoplisten• Reduktion auf die semantisch relevanten Elemente
• Qualitätsverbesserung für Stoplisten durch Wortformerkennung
![Page 16: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/16.jpg)
26.11.08 Nicolas Goessnitzer 16
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining
– Löschen seltener Wörter• Rechnerisch aufwendige Clusteranalyse bedingt Reduktion der
berücksichtigten Terme/Wörter
• Reduktion von Ausreissern („Rauschen“)
Absicherung: Vorkommenshäufigkeit < Schranke
• Methoden: Dokument-Pruning und Wort-Pruning
• Entfernen von invarianten Wörtern
– Normierung und Gewichtung• Skalierung der Frequenzen an Normgröße
– Ermöglicht Verfahren mit absoluten Frequenzen
– Verdeckung von Unterscheidungsmerkmal Text-/ Domänengröße
• Gewichtung der Wortdimensionen1. tfidf: Ausreisser (sehr hohe bzw. sehr niedrige Frequenz erhalten niedrigeres
Gewicht)
– Gewichtung nach Varianz
![Page 17: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/17.jpg)
26.11.08 Nicolas Goessnitzer 17
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.4 Clusteranalyse
– Ziel einer Clusteranalyse:Auffinden von homogenen Teilmengen von Objekten in
einer heterogenen Gesamtheit von Objekten
– Vielfältige Anwendungsgebiete: Archäologie, Biologie, Chemie, (Computer-)Linguistik, Geologie, Informatik,
Klimaforschung, Medizin, Psychologie, Soziologie, Wirtschaftswissenschaften…
– Problem des Entscheidungszwangs zu maximaler Homogenität in einer Gruppe oder maximaler Heterogenität zwischen Gruppen
– Hauptproblem: eindeutige Bestimmung des geeignetsten Verfahrens
Aufgrund der Berechenbarkeit:Bei 10 Elementen und 5 Gruppen bestehen 42525 Möglichkeiten
Bei 50 Elementen sind es bereits 7,401 •1032 Möglichkeiten
![Page 18: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/18.jpg)
26.11.08 Nicolas Goessnitzer 18
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.4 Clusteranalyse
– Überblick zu den gängigen Verfahren
Clusteralgorithmen nach Backhaus u.a. 2005, S. 511
![Page 19: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/19.jpg)
26.11.08 Nicolas Goessnitzer 19
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.4 Clusteranalyse
– Zugrundeliegende Repräsentation: Vektorraummodell
– Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen
– Basis-Algorithmen
K-means Algorithmus als Beispiel für partitionierende Verfahren
1 Initiale Auswahl von K Elementen als Clusterzentren
2 (wiederhole solange)
3 Bilde K neue Cluster durch Zuordnung jedes Elements zu dem ihm
nächsten stehenden Clusterzentrums
4 Neuberechnung aller Clusterzentren
5 (bis sich die Clusterzentren nicht mehr verändern)
Probleme bei partitionierenden Verfahren:
→ Die Zielfunktion hat zu großen Einfluss auf das Ergebnis→ Wahl der Startgruppierung ist oft nur subjektiv→ Unlösbarkeit des Problems der lokalen Optima
![Page 20: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/20.jpg)
26.11.08 Nicolas Goessnitzer 20
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.4 Clusteranalyse
– Zugrundeliegende Repräsentation: Vektorraummodell
– Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen
– Basis-Algorithmen
Schematischer Ablauf aller agglomerierendenVerfahren
1 (wenn erforderlich) Berechnen der Distanz- oder Ähnlichkeitsmatrix
2 (wiederhole solange)
3 Vereinige die beiden Cluster, die sich am nächsten stehen
4 Berechnung des neu gebildeten Clusters und Substitution der beiden vorherigen
Cluster in der Distanz- oder Ähnlichkeitsmatrix
5 (bis nur noch ein Cluster mit allen Elementen übrig ist)
Probleme bei agglomerierenden Verfahren:
→ Gefahr einer fehlerhaften irreversiblen Zuordnung→ Berechnungsaufwand für divisive Methode (Top-Down)
![Page 21: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/21.jpg)
26.11.08 Nicolas Goessnitzer 21
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.4 Clusteranalyse: Überblick zu agglomierierenden Verfahren
– Single-Linkage-Verfahren („Nearest Neighbor“)
– Complete-Linkage-Verfahren („Furthest Neighbor“)
– Centroid-Verfahren (Bezug auf Clustermittelpunkte)
– Ward‘s Methode• Einsatz des Varianzkriteriums
• Fusionierung der Elemente mit dem minimalen Fehlerzuwachs
→ im intuitiven Ansatz bereits bessere Ergebnisse als die meisten anderen Verfahren
→ vor allem für größenordnungsmäßig vergleichbare Cluster geeignet
![Page 22: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/22.jpg)
26.11.08 Nicolas Goessnitzer 22
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.4 Clusteranalyse: Visualisierung der Ergebnisse
Darstellung der Ausgangsdaten
– Darstellung von Punktewolken der Merkmale (n-1 2-dimensionale Darst.)
– Histogramm
Darstellung der Analysen
– Dendrogramm
– Struktogramm
„Ellbogen-Kriterium“
![Page 23: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/23.jpg)
26.11.08 Nicolas Goessnitzer 23
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Theoretische Überlegungen
3.4 Clusteranalyse: Varianten der Textklassifikation
– Initiale Klassifikation innerhalb eines Korpus
– Klassifikation eines neuen Textes• Anwendung existierender Ähnlichkeits- und Distanzmatrizen
• Erneute Clusteranalyse mit n+1 Elementen und ggf. Neuverteilung
– Gruppierung/Klassifikation mittels Cluster-Analyse funktioniert bereits mit niedriger Dimensionalität
– Verbesserungansätze von Analyseergebnissen durch Einsatz von Ontologien („Konzeptbildung“)
![Page 24: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/24.jpg)
26.11.08 Nicolas Goessnitzer 24
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Aufbau und Struktur der Textmühle
4.1 Systemumfeld und technischer Rahmen
– Entwicklung der Textmühle in PHP, Dateisystemoperationen in Perl
– Zugrunde liegendes Prinzip von Client-Server-Anwendungen
![Page 25: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/25.jpg)
26.11.08 Nicolas Goessnitzer 25
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Aufbau und Struktur der Textmühle
4.1 Systemumfeld und technischer Rahmen
– Berücksichtigung des modularen Aufbaus bei Implementierung
– Entwicklung mit Eclipse, Versionierung mit Subversion
– Integration von bestehenden Anwendungen:• Grammatikentwicklungssysteme Malaga und jslim
• Konvertierungsprogramme für XML-Formate, pdf und ps– Xpdf, Ghostscript (Win) vs. ps2ascii, html2text (Suse-Linux), PHP SDOM Parser
• Ajax-Modul sajax für verbesserte Bedienung und parallele Anfragen
• Grafikbibliothek phplot zur Generierung der Diagramme und Grafiken
• weitere PHP-Module für spezifische Funktionen
![Page 26: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/26.jpg)
26.11.08 Nicolas Goessnitzer 26
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Aufbau und Struktur der Textmühle
4.2 Aufbau der Textmühle (Module)
– Benutzeroberfläche• Benutzerrollen und –konten
• Internationalisierung
• Fehlerbehandlung
– Struktur der GUI
![Page 27: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/27.jpg)
26.11.08 Nicolas Goessnitzer 27
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Aufbau und Struktur der Textmühle
4.2 Aufbau der Textmühle (Module)
– Gesamtprozess Vorhergehende Probleme:Neuentwicklung des Korpusprozessesmit Unterstützung mittels Perl
![Page 28: Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium)](https://reader036.vdocuments.pub/reader036/viewer/2022062512/55204d6949795902118bef63/html5/thumbnails/28.jpg)
26.11.08 Nicolas Goessnitzer 28
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1. Fazit
Erkenntnisse aus Einsatztests und Anwendung
– Erzeugung von vielfältigen Analysedaten• Wortanzahlen bgzl. Texten und Domänen
• Frequenzverteilungen (Type-Token, Terme)
• Morphologische Analyse der Wortformen
• Clusteranalyse
– Problemstellungen• Performance bei Internetanbindung der Morphologiemodule
• Integration Dateimodus
• Anforderungen an Serverkonfiguration und –leistung
– Zukünftige Planung1. Weiterentwicklung
• Direktanbindung Morphologie
• OpenSource?