![Page 1: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/1.jpg)
Georg Rehm, M.A.
Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen
[email protected] http://www.uni-giessen.de/~g91063/
Hypertextsorten
Neuartige Möglichkeiten der Informationsrecherche im World Wide Web
![Page 2: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/2.jpg)
Zielsetzung
![Page 3: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/3.jpg)
Status Quo
Aus Sicht des (unerfahrenen) Benutzers:
• DWIM-Prinzip („Do what I mean!�) • Spezifizierung einer Suchanfrage ist schwierig • Es ist unklar, nach welchen Kriterien die Maschine sucht
![Page 4: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/4.jpg)
Das Ziel
!
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
![Page 5: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/5.jpg)
Einführung
![Page 6: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/6.jpg)
Georg Rehm TaCoS 2003
Textsorten
! Textlinguistik: Textsorten (Brief, Rezept, ...), d.h. unterschiedliche Typen von Texten
! Klassifikationskriterien (u.a.): " Inhalt – Thema " Form – Aufbau, Struktur, Gliederung " Funktion – Zweck
„[Textsorten sind] komplexe Muster sprachlicher Kom- munikation [...], die innerhalb der Sprachgemeinschaft im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden sind.� Brinker (1985)
Zentrale Hypothese:
Im World Wide Web existieren Hypertextsorten # Nach nur wenigen Jahren (!) kanonisierte,
kkkkkkkkkkkkkkkkkkkkkfunktionsgebundene, hypertextuelle Strukturen
![Page 7: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/7.jpg)
Textsorten Hypertextsorten
Buch
Lexikon
Wörterbuch
Sammelband
Tageszeitung
Memo
Brief
Geschäftsbrief
Mahnung
Liebesbrief
FAQ
Universitäre Einstiegsseite Suchmaschine
eCommerce
Instituts-Portal
Lehrveranstaltungen
Pers. Homepage Pers. Homepage
Pers. Homepage
Mitarbeiterliste
– Lehrender –
– Student – – Sekretärin –
![Page 8: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/8.jpg)
Textsorten-Klassifikation
Korpus Methoden Genres Präzision
Karlgren & Cutting (1994), Recognizing Text
Genres with Simple Metrics Using Discri-
minant Functions
Jeweils 500 Texte aus dem Brown
Corpus (tagged)
Diskriminanten-Analyse – 20
Parameter (noun, it, adv., word etc.
counts)
2. Informative, Imaginative
4. Press, Fiction, Misc., Non-Fiction
2. ca. 96% 4. ca. 73%
Kessler, Nunberg & Schütze (1997),
Automatic Detection of Text
Genre
ca. 500 Texte aus dem Brown
Corpus (tagged)
Statististik/KNNs, 55 Merkmale
(Interpunktion, Affixe, Passiv,
etc.)
6. Reportage, Editorial, Sci-Tech, Legal, Non-Fiction, Fiction
ca. 90% (für „reportage� und „fiction�)
Stamatatos et al. (2000), Text
Genre Detection Using Common
Word Frequencies
Wall Street Journal Corpus
(untagged)
Diskriminanten-Analyse – Wort-häufigkeiten und Interpunktionsz.
4. Editorial, Let-ter to the Editor, Reportage, Spot news
ca. 97%
Fazit • Einfache Methoden liefern für wenige Textsorten sehr gute Resultate • In diesen Ansätzen ausschließlich: ASCII-Texte (!) • Wie kann man sehr viele Hypertextsorten möglichst präzise detektieren?
![Page 9: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/9.jpg)
Hypertextsorten-Klassifikation
Genres Methoden Merkmale Präzision
Matsuda & Fuku-shima (1999), Task-Oriented
World Wide Web Retrieval by
Document Type Classification
9: prod. catalogue, online shop, advertise-
ment for help, CfP, links, FAQ, gloss-ary, home page, bulletin board
Gewichtetes Pattern-
Matching in HTML-
Elementen
keyword, link, URL, structure, image, OCR,
plugin
avg. precision of document-type search: 88,9%
[avg. precision of keyword-based search: 31,2%]
Karlgren et al. (1998), Iterative Information Re-trieval Using Fast Clustering and Usage-Specific
Genres
11: Informal/Pri-vate, Public/Com.,
Indices, Journ. Material, Reports, Text, FAQ, Link Coll., Listings/-
Tables, Discussio-ns, Error Messages
Clustering der Merkmale;
Konstruktion von if-then-
Regeln
insgesamt 40 Merkmale, z.B. Vorkommen von
Wörtern und HTML-Elementen
Zwischen 30% und 90%, je nach Genre
!
Fazit • Einfache Methoden liefern für wenige Hypertext- sorten sehr gute Resultate • Sind diese Ergebnisse auf sehr viele, tw. recht ähnliche Hypertextsorten übertragbar? • Auswahl und Granularität der gewählten Hyper- textsorten ad hoc, nicht textlinguistisch motiviert!
![Page 10: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/10.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten: Beispiele ! Eine sehr interessante Hypertextsorte:
Persönliche Homepage ! Mittlerweile: empirisch nachweisbare,
subgenerische Varianten, u.a.: " Persönliche Homepage eines Studierenden " Persönliche Homepage eines administrativen
oder technischen Mitarbeiters " Persönliche Homepage eines Wissenschaftlers
Beispiele aus: • vier verschiedenen Universitäten und • vier unterschiedlichen Disziplinen
![Page 11: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/11.jpg)
Hypertextsorten: Beispiele
![Page 12: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/12.jpg)
Georg Rehm TaCoS 2003
Projektverlauf – Roadmap I. Empirischer, Korpus-basierter Ansatz:
" Auswahl einer geeigneten Untersuchungsdomäne " Korpus-Datenbank-System:
1. Datensammlung 2. Implementation eines Web-basierten Front-Ends 3. (semi-automatische) Analyse von Stichproben 4. Erstellung einer Taxonomie von Hypertextsorten
II. Maschinelle Erkennung von Hypertextsorten: " Sammlung von Detektionsmerkmalen " Generischer Aufbau von Hypertextsorten " Klassifikations-Methoden und -Ansätze " Generische Informationsextraktion " Design und Implementierung der System-Architektur
![Page 13: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/13.jpg)
I. Empirischer, Korpus-basierter Ansatz " Untersuchungsdomäne " Korpus-Datenbank-System:
• Datensammlung • Das Web-basierte Korpus-Front-End • Stichprobenanalyse • Eine Taxonomie von Hypertextsorten
II. Maschinelle Erkennung von Hypertextsorten " Detektionsmerkmale " Generischer Aufbau von Hypertextsorten " Klassifikations-Methoden und -Ansätze " Design der System-Architektur
![Page 14: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/14.jpg)
Georg Rehm TaCoS 2003
Untersuchungsdomäne ! Arbeiten aus dem „digital genre�-Bereich:
" Analyse weltweiter Stichproben ohne jegliche Einschränkungen " Extrem grobe und wenig hilfreiche Ergebnisse
! Empirischer Ansatz erfordert: " Korpus von HTML-Dokumenten als sicheren und großen Vorrat " HTML-Dokumente sind „flüchtig��
! Untersuchungsdomäne – Datensammlung: " Deutschsprachige Dokumente der " Webserver deutscher Hochschulen:
• Dokumente sind stark strukturiert • Kaum binäre Dateitypen als Vermittler von Text • Bzgl. Inhalt und Form überschaubar
(vs. kommerziellen, künstlerischen, Hobby-Angeboten)
![Page 15: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/15.jpg)
*.uni-giessen.de
Hostnames:
Ausnahmen
beschränken
Crawler (rekursiver Transfer) Datei-Suffixe:
Ausnahmen MIME-Typen:
HTML, XML etc.
Datei < 500kB? HTTP-Port = 80?
HTML-Dokument deutschsprachig? UNIX- Datei- system
ja, speichern
Tilgung von Duplikaten
SQL- Daten- bank
Verknüpfung
Alle HTTP-Header
Statistik liefert Daten
generiert
Verknüpfungen
![Page 16: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/16.jpg)
Georg Rehm TaCoS 2003
Universitäten 100 Allgemeine Universitäten (vollständig) 62
Technische Hochschulen (vollständig) 12
Musik- und Kunsthochschulen (partiell) 5
Wirtschaftshochschulen (partiell) 5
Sonstige Hochschulen (partiell) 16
Traversierte Webserver insgesamt / auf Port 80 operierend 14.968 / 13.885
Anzahl per HTTP erreichbarer Dateien 16.196.511
Anzahl HTML-Dokumente gesamt 8.465.105
Gesamtumfang aller entfernten Webserver 701.464,29 MB
Gesamtumfang der Hypnotic-Korpusdatenbank 40.914,99 MB
Laufende Wortformen (gesamt; nur text/html) 1.138.794.715
Laufende Wortformen (eindeutig; nur text/html) 12.120.162
Gesamtanzahl Dateien im Korpus 4.294.417 Dateien vom Medientyp text/html 3.956.692
Dateien vom Medientyp text/plain 270.400
Dateien vom Medientyp text/css 35.651
Dateien vom Medientyp text/xml 25.871
Dateien vom Medientyp text/sgml 956
Dateien vom Medientyp message/news 490
Dateien vom Medientyp message/rfc822 436
![Page 17: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/17.jpg)
Georg Rehm TaCoS 2003
Die durchschnittliche Webseite ... ! ... ist 594,11 (!) Tage alt.
" 96,5%: >10 Tage; 70%: >210 Tage; 35%: >700 Tage " JPEG-Dateien sind ∅ 488, PDF-Dateien nur ∅ 375 Tage alt
! ... ist 7.024 Bytes groß. " Etwa 91% aller Dokumente: 1 Byte–16 Kilobyte
! ... enthält 120,57 Elemente und 236,04 Attribute. " body (98%), html (97%), head (97%), title (96%), a (87%),
p (81%), br (73%), img (67%), meta (66%), table (64%). ! ... enthält 13,53 Hyperlinks.
" Etwa 56% aller Dokumente enthalten bis zu 10 Links. " 90% aller Links zeigen auf Webseiten, 5% auf eMail-Adressen, 5%
zeigen auf JavaScript-Dateien. " Top-Level-Domänen in entfernten Links: .de (86,7%), .com
(5,1%), .org (1,9%), .edu (1,4%), .net (0,7%), .uk (0,6%) ! Nur 46% aller HTML-Dokumente der Domäne deutschsprachig!
![Page 18: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/18.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten
![Page 19: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/19.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand
Auswahl einer Universität
![Page 20: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/20.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand
Auflistung der Server einer Universität
![Page 21: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/21.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand
Auflistung der Dokumente eines Servers
![Page 22: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/22.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand
Ansicht eines Dokuments
![Page 23: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/23.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand " Zufällige Generierung von
Stichproben
Generierung einer Stichprobe
![Page 24: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/24.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand " Zufällige Generierung von
Stichproben " Benutzerabhängige und DB-
getriebene Unterstützung bei der Stichprobenanalyse
Die Dokumente einer Stichprobe
![Page 25: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/25.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand " Zufällige Generierung von
Stichproben " Benutzerabhängige und DB-
getriebene Unterstützung bei der Stichprobenanalyse
DB-gestützte Dokumentanalyse
![Page 26: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/26.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Korpus-Front-End ! SQL-Datenbank zur Referen-
zierung von Dokumenten ! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff: " Navigation & Suche im
Dokumentbestand " Zufällige Generierung von
Stichproben " Benutzerabhängige und DB-
getriebene Unterstützung bei der Stichprobenanalyse
! Einsatz von Open Source- Werkzeugen
! Spätere Veröffentlichung des Systems als Open Source
Analyseergebnisse
![Page 27: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/27.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten und Ontologien
! Viele Textsorten können hierarchisch angeordnet werden. ! Dies trifft auch auf Hypertextsorten zu – in mehrfacher
Hinsicht: " Hypertextsorten-Ebene → Hypertextsorten-Ontologie " Hyperlink-Ebene → Struktur-Ontologie " Thematische Ebene → Themen-Ontologie
! Hypertextsorten-Ebene ist zentral für dieses Projekt: " Wie sind Hypertextsorten generisch strukturiert? " Wie werden diese Strukturinformationen repräsentiert? " Wie kann man korrespondierende Detektionsmerkmale in diese
Repräsentation integrieren?
![Page 28: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/28.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten-Module ! Hypertextsorten werden aus Modulen gebildet.
" Hypertextsorten sind nicht monolithisch. ! Diese Module sind:
" obligatorisch vs. optional " optisch und/oder strukturell voneinander separiert
! Persönliche Homepage eines Wissenschaftlers: " Beispiel-Module:
- Name (der beschriebenen Person bzw. des Autors) - Kontaktinformationen - Publikationen - Projekte - Lehrveranstaltungen - ...
![Page 29: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/29.jpg)
Hypertextsorten-Module: Beispiele
![Page 30: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/30.jpg)
Hypertextsorte
XML Schema-Repräsentationen
Optionale Hypertextsorten-Module
Obligatorische Hypertextsorten-Module
bestehen aus
definieren
können fun- gieren als
Spezifische Eigenschaften: <Inhalt, Form, Funktion>
Default-Eigenschaften:
<Inhalt, Form, Funktion>
kann modifizieren
referenzieren
Hypertextsorten- Ontologie
Hypertextsortenmodule
werden je HTS gruppiert in
Atomare Module bzw. Merkmale
Komplexe Module
RDF-Beschreibungen von Merkmalen und Modulen
spezifizieren
Hypertextsorten- Modul-Ontologie
![Page 31: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/31.jpg)
Georg Rehm TaCoS 2003
Modellierung von Hypertextsorten ! Modellierung durch Stichproben-Analysen
" Semiautomatische Durchführung mit Hilfe des Front-Ends der Korpusdatenbank:
• Automatische Generierung von Samples • Semiautomatische Analyse von Samples • Sukzessive Rekonfiguration modularer Einheiten
! Beispiel: " Persönliche Homepage eines Wissenschaftlers " Stichprobe von 100 Dokumenten
![Page 32: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/32.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit
Atomares Modul Explizite Begrüßung generell optional 14
Komplexes Modul Identifikation generell obligatorisch –
Komplexes Modul Eigenständige Affiliation generell obligatorisch –
Atomares Modul Alternative Sprachversion generell optional 75
Komplexes Modul Kontakt-Informationen generell obligatorisch –
Komplexes Modul Kontakt-Informationen (Sekretariat) spezifisch optional –
Komplexes Modul Kontakt-Informationen (Mitarbeiter) spezifisch optional –
Komplexes Modul Universitäres Profil spezifisch obligatorisch –
Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch –
Atomares Modul Lebenslauf, C.V., biographische Angaben generell obligatorisch 60
Atomares Modul Interessante Links generell optional 12
Komplexes Modul Relevante Links generell optional –
Atomares Modul Angabe der letzten Änderung / Stand universal obligatorisch 42
Atomares Modul Counter, Zugriffszähler universal optional 11
Atomares Modul Gästebuch universal optional 1
![Page 33: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/33.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit
Atomares Modul Explizite Begrüßung generell optional 14
Komplexes Modul Identifikation generell obligatorisch –
Merkmal Name des Homepage-Besitzers generell obligatorisch 100
Merkmal ... begleitet von Titelangabe spezifisch obligatorisch 69
Merkmal ... begleitet von Tätigkeitsangabe generell optional 27
Merkmal ... begleitet von Affiliation generell obligatorisch 34
Merkmal ... begleitet von Photos des Autors generell obligatorisch 54
Komplexes Modul Eigenständige Affiliation generell obligatorisch –
Merkmal Name der Universität im Klartext generell obligatorisch 75
Merkmal Logo der Universität generell optional 16
![Page 34: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/34.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit
Komplexes Modul Kontakt-Informationen generell obligatorisch –
Merkmal Straßenadresse (Univ., Straße, PLZ, ...) generell obligatorisch 90
Merkmal Explizite Postadresse generell optional 8
Merkmal Telefonnummer generell obligatorisch 86
Merkmal Telefonnummer (Sekretariat) generell optional 7
Merkmal Faxnummer generell obligatorisch 66
Merkmal Email-Adresse generell obligatorisch 98
Merkmal Angabe der URL dieser Homepage generell optional 4
Merkmal Zimmernummer generell obligatorisch 30
Merkmal SMS senden generell optional 1
Merkmal PGP Public Key bzw. PGP Fingerprint generell optional 2
Merkmal X.500 Eintrag generell optional 2
Merkmal Informationen zur Anreise generell optional 2
Merkmal Sprechstunden spezifisch optional 2
... ... ... ... ...
![Page 35: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/35.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten-Spezifikation Ebene Bezeichnung Status Vorkommen Häufigkeit
Komplexes Modul Universitäres Profil spezifisch obligatorisch –
Merkmal Angaben zu Lehrveranstaltungen spezifisch obligatorisch 49
Merkmal Universitäre Funktionen (z.B. Gremien) spezifisch optional 7
Merkmal Allgemeine Studienhinweise spezifisch optional 3
Merkmal Angebotene Abschlussarbeiten spezifisch optional 2
Komplexes Modul Wissenschaftliches Profil spezifisch obligatorisch –
Merkmal Publikationsliste spezifisch obligatorisch 71
Merkmal Forschungsinteressen spezifisch obligatorisch 50
Merkmal Forschungsprojekte spezifisch optional 22
Merkmal Prominent platzierte Bücher/Zeitschriften spezifisch optional 6
Merkmal Liste von Vorträgen und Präsentationen spezifisch optional 5
Merkmal Mitgliedschaften in Fachverbänden spezifisch optional 4
Merkmal Technologietransfer spezifisch optional 1
![Page 36: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/36.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten-Definition ! Modul-Reihenfolge entspricht kanonischer Sequenz ! In dieser Stichprobe Bestimmung obligatorisch vs.
optional ab 30 Vorkommen ! Status von Modulen und Merkmalen:
" Kennzeichnet mögliche Vorkommen eben diesen Merkmals in höher angeordneten Hypertextsorten
" Beispiel: Das Modul „Kontakt-Informationen� • In persönliche Homepage eines Wissenschaftlers generell
– Auch in z.B. persönliche Homepage eines Studierenden • Das hierin enthaltene Merkmal „Sprechstunden� ist spezifisch • Module wie „Zugriffszähler� oder „Gästebuch� sind universal
" Zweck: Modellierung der persönlichen Homepage eines Wissenschaftlers als subgenerische Varietät der persönlichen Homepage
![Page 37: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/37.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten: NL-Definition ! Persönliche Homepage eines Wissenschaftlers:
" Präsentation einer Person in digitaler, hypertextueller Form, verfasst von einem Autor, der an einer Universität oder einer vergleichbaren Institution arbeitet. Die Präsentation
• stellt die Person heraus (durch einen Namen und ein Photo) und macht eindeutige Angaben zur Affiliation,
• stellt vergangene und aktuelle Forschungsaktivitäten und • die Berufserfahrung dar, indem das
– Universitäre Profil (Angaben zu Lehrveranstaltungen) und das – Wissenschaftliche Profil (Publikationsliste und
Forschungsinteressen) der Person aufgeführt werden. • enthält Kontakt-Informationen (mindestens Straßenadresse,
Telefonnummer, Email-Adresse und die Raumnummer), evtl. auch dezidiert für das Sekretariat und Mitarbeiter.
" Funktion dieser Hypertextsorte: (i) Etablierung eines eigenständigen wissenschaftlichen Profils; Distribution von (ii) Materialien für Lehrveranstaltungen sowie (iii) Publikationen, aktuellen Forschungsinteressen und Kontakt-Informationen.
gekürzt
![Page 38: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/38.jpg)
Georg Rehm TaCoS 2003
Zwischenstand ! Bislang wurden thematisiert:
" Erzeugung eines Web-Schnappschusses einer bestimmten Domäne, Korpus und Zugriffswerkzeuge
" Hypertextsorten " Ihre Konstituierung aus Hypertextsorten-Modulen " Module können sich aus einzelnen Merkmalen
zusammensetzen, die auf zwei Ebenen typisiert sind ! Es stehen noch aus:
" Aufbau von Hypertextsorten-Ontologien " Maschinelle Klassifikation von Hypertextsorten " Der zentrale Vorteil dieses Ansatzes
![Page 39: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/39.jpg)
Georg Rehm TaCoS 2003
Hypertextsorten-Ontologie
! Stichproben-Analysen: 1. Erste Stichprobe (200 Dokumente) ergab:
• initiale Liste von Hypertextsorten, • extremen Bedarf für eine hierarchische Anordnung!
2. Zwei weitere Stichproben: a. top-down:
• 727 Dokumente der obersten Verlinkungsebene der Einstiegsseiten der ersten 35 Universitäten im Korpus
b. bottom-up: • 2000 zufällig ausgewählte „tiefe� Dokumente • Diese Analyse steht noch aus
![Page 40: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/40.jpg)
Georg Rehm TaCoS 2003
Hypnotic-Hypertextsorten-Ontologie Version 0.4
Nur einige der noch offenen Fragen: • Welche unterschiedlichen Knoten-Typen existieren? • Welche dieser Typen treten in der Realität auf („Text�)? • Wie können isolierte Knoten („Linkliste�) sinnvoller in die Ontologie integriert werden? • Welche unterschiedlichen Kanten-Typen existieren? • Ist eine Hyperlink-Typologie sinnvoll integrierbar? • XML als vereinheitlichendes Repräsentationsformat?
![Page 41: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/41.jpg)
Grobe Verteilung im 200er Sample ! Administrative Informationen (14)
" Studienordnung (2) " Lehrveranstaltungsbezogene
Informationen (2) • Grundlegende Informationen zu
einem Kurs (9) • Kommentar (7) • Übungsaufgabe (5) • Lösungen von Aufgaben (1) • Liste von Veranstaltungen (2) • LV-Materialien (2)
" Informationen zu Stipendium (1) " Stellenangebot (1)
! Universitäre Informationen (5) " Wegbeschreibung/Lageplan (3) " Beschreibung eines universitären
Informationsangebots (1)
! Institut/Lehrstuhl/Arbeitsbereich (15) " Einstiegsseite (4)
• Konferenz (5) • Beschreibung einer
Arbeitsgruppe (2) • Programmüberblick (1) • Anmeldeformular (1)
" Liste der Mitarbeiter (4) • Persönliche Homepage (14)
• Wissenschaftler (4) • Hilfskraft (3) • Virtuelle Visitenkarte (1)
" Beschreibung eines Forschungsschwerpunkts (3)
• Bibliographie (9) • eines Autors (3) • eines Instituts (3) • thematisch sortiert (2)
• Forschungsprojekt (9) • Beschreibung (7) • Arbeitsplan (19)
" Kurze Darstellung der Institution (1) " Organisationsplan (1)
• 84 Hypertextsorten sind enthalten. • 11 Dokumenten konnte aus technischen Gründen keine Hypertextsorte zugeordnet werden. • 4 Hypertextsorten konnten nicht sinnvoll in die Taxonomie integriert werden.
![Page 42: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/42.jpg)
Georg Rehm TaCoS 2003
Detektionsmerkmale ! Werden eingesetzt zur
! Klassifikation von Dokumentinstanzen in Hypertextsorten ! Genauer gesagt: Zur Zuweisung von Hypertextsorten-
Modulen an Dokumentfragmente ! Ansätze zur Textsorten-Klassifikation:
! Analyse von „flat ASCII�-Text ! Fast ausschließlich sprachliche Merkmale
! HTML bietet „mehr�: ! Die ∅-Webseite enthält 120,57 Elemente, 236,04 Attribute
und 13,53 Hyperlinks → Hohes Maß an Strukturiertheit! ! Derzeit ca. 120 Merkmale, eingeteilt in fünf Klassen:
1. Dokumentübergreifende Merkmale 2. Metadaten 3. Sprachliche und strukturelle Cues 4. Sprachliche Konzeption 5. HTML-Struktur
![Page 43: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/43.jpg)
Georg Rehm TaCoS 2003
Sprachliche und strukturelle Merkmale
Titel Vorname Nachname
Universität ... → Institut ... → Arbeitsbereich ...
Straße Hausnr. PLZ Stadt
Kontaktinformationen: Raum Nr., E-Mail, Tel.-, Faxnr.
Sprechstunde Tag Uhrzeit
Automatische Erkennung mittels: • regulärer Ausdrücke (für Telefonnummern etc.) • named entity-Tagger (für Personen- und Stadtnamen) • hochfrequenter Schlüsselwörter einer Hypertextsorte • ...
Erkennung dieser Cues schränkt Suche ein auf: • Persönliche Homepage eines Wissenschaftlers • Virtuelle Visitenkarte
![Page 44: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/44.jpg)
Georg Rehm TaCoS 2003
! Koch & Oesterreicher (1994): " mediale Mündlichkeit/Schriftlichkeit " konzeptionelle Mündlichkeit/Schriftlichkeit
! Beispiele: " Wissenschaftlicher Vortrag:
• medial mündlich • konzeptionell schriftlich
" Wissenschaftlicher Artikel: • medial schriftlich • konzeptionell schriftlich
" Gespräch unter Freunden: • medial mündlich • konzeptionell mündlich
Merkmal: Sprachliche Konzeption
Kontinuum: von ... bis
dichotomisch: entweder – oder
![Page 45: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/45.jpg)
Georg Rehm TaCoS 2003
Merkmal: Sprachliche Konzeption ! CMC: E-Mail, Chat, Usenet → konzeptionelle Mündlichkeit ! Berichtete Merkmale:
! Umgangssprachliche Formen (z.B. bei Begrüßungen und Verabschiedungen)
! Hochfrequent: ich, man, du, ein-fach, mal, ziemlich, irgendwie
! Regionalismen, Dialektismen ! Ausgeprägte Dialogizität
! Einfache Syntax und Lexik ! Freie, assoziative Themen-
entwicklung ! Spontane Äußerungen ! ...
! Smileys: :-) ! Isolierte Verbstämme:
*lach*, *grins*, ... ! Spezifische Abkürzungen:
*rotfl* ! Iterationen: Tschüßiiiii
! Emphasen: ist _eingeschränkt_ ! Slangausdrücke: IMHO ... ! Bigraphen (gruen), Assimilationen
(gibt�s), Auslassungspunkte (...), reduplizierte Inter-punktionszeichen (!!!!!!) etc.
Diese Merkmale sind mit Hilfe von regulären Ausdrücken und
verschiedenen Listen (von Smileys, speziellen Akronymen etc.) automatisch detektierbar!
![Page 46: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/46.jpg)
Merkmal: Sprachliche Konzeption
Persönliche Homepage von Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Kontinuum der sprachlichen Konzeption
schriftlich mündlich
![Page 47: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/47.jpg)
Merkmal: Sprachliche Konzeption
Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Kontinuum der sprachlichen Konzeption
schriftlich mündlich
Persönliche Homepage von Prof. Dr. Henning Lobin
![Page 48: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/48.jpg)
Merkmal: Sprachliche Konzeption
Persönliche Homepage von Prof. Dr. Henning Lobin
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich mündlich
![Page 49: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/49.jpg)
Merkmal: Sprachliche Konzeption
Persönliche Homepage von Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
Kontinuum der sprachlichen Konzeption
schriftlich mündlich
! Einschränkung der potentiellen Hypertextsorte auf: studentische Homepages, Gästebücher, Chat-Protokolle, Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc.
![Page 50: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/50.jpg)
Georg Rehm TaCoS 2003
Das eigentliche Ziel ! XML Schema als Repräsentationsformat der
Hypertextsorten-Ontologie ! Resultate des Analyse-Systems sollen sein:
" Klassifikation eines HTML-Dokuments in eine Hypertextsorte
" Basierend auf dieser Information: • Konvertierung der Webseite in eine XML-Instanz • Explizite Annotation der HTS-Module
! Anders gesagt: " Hypertextsorten-getriebene Konvertierung arbiträrer
HTML-Dokumente der Untersuchungsdomäne in korrespondierende XML-Formate
![Page 51: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/51.jpg)
Dokument- ansicht
Sample- Generierung
Sample- Analyse
Struktur- Visualisierung
Apache Webserver
PHP, Perl, verschiedene Tools
Analyse Features
Stich- proben
Server- Daten
Meta- daten
HTTP- Header
User- Daten
Hyp
notic
-Kor
pusd
aten
bank
HTML- Dateien
Konvertierung: HTML → XHTML
HTS-Klassifikation Strukturanalyse
Zuweisung von Hypertextsorten-Modulen XML- Dateien
HTS- Ontologie
HTS- Module
Themen- Ontologie
Struktur- Ontologie
Analyse- DTD
RDF, DTD, XML Schema
![Page 52: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/52.jpg)
Georg Rehm TaCoS 2003
Konvertierung HTML → XHTML ! HTML-Dokumente im Web enthalten sehr viel
fehlerhaftes Markup " Erschwert maschinelle Verarbeitung erheblich
! XHTML: Neuformlierung von HTML mit XML " XHTML-Dokumente sind auch XML-Dokumente
! Wohlgeformte XHTML-Dokumente können mit XML-Werkzeugen verarbeitet werden:
" XML Parser, XPath, DOM, XSLT etc. ! Konvertierung erfolgt mit gepatchtem Tidy und dem
Perl-Modul HTML::TreeBuilder ! Test mit 10.000 Dokumenten:
" Konvertierung in 98,7% aller Fälle erfolgreich • Bis auf 5 der 9872 automatisch erzeugten XML-Dokumente
sind alle von einem (nicht validierenden) XML-Parser ohne Fehlermeldung prozessierbar
![Page 53: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/53.jpg)
Georg Rehm TaCoS 2003
Strukturanalyse ! Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath " DOM: Document Object Model, ermöglicht baum-basierte
Verarbeitung von XML-Instanzen
![Page 54: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/54.jpg)
![Page 55: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/55.jpg)
DOM-Struktur einer XML-Instanz erheblich gekürzt und abstrahiert
![Page 56: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/56.jpg)
Georg Rehm TaCoS 2003
Strukturanalyse ! Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath " DOM: Document Object Model, ermöglicht baum-basierte
Verarbeitung von XML-Instanzen ! Verschachtelte rekursive Funktionen beginnen beim
Wurzelelement des Dokumens (<html>): " Berechnung verschiedener Merkmale einzelner Teilbäume,
der in ihnen enthaltenen Teilbäume etc.: • Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter • Hyperlink-Analyse (external, samedomain, internal) • Analyse von eingebetteten Graphiken
– Ermittlung der Abmessungen der Graphiken – Erkennung von Werbebannern – Erkennung horizontaler Separatoren
• Analyse von Listen-Strukturen • ...
![Page 57: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/57.jpg)
Georg Rehm TaCoS 2003
Strukturanalyse ! Die Analyse-Heuristiken legen ihre Resultate unmittelbar
in dem XHTML-Dokument ab: " Deklaration eines eigenen Namespace (hypnotic:) im
Wurzelelement (Default bleibt jedoch XHTML 1.0) • Namespace → Analyse-DTD der Systemarchitektur
" Elemente: Makrostrukturelle Analyseresultate " Attribute: Teilbaum- und Element-bezogene Analyseresultate " Ermöglicht: Meta-Ansicht bzw. Dokument-Partitionierung " Beispiel:
• Horizontale Linien sind eigentlich durch <hr> zu realisieren • Häufig werden hierfür auch Graphiken benutzt • Strukturanalyse markiert:
<img src="..." hypnotic:TagGroup="separator"> " Vergrößert ein Dokument derzeit um den Faktor 20
! Bislang erst Spitze des Eisberges implementiert – sehr viele Funktionen stehen noch aus
![Page 58: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/58.jpg)
Georg Rehm TaCoS 2003
Informationsextraktion ! Wrapping: Mittlerweile triviale Anwendung
" Informationsextraktion aus genau einem HTML-Dokument-Typ
! Hypnotic verfolgt: " Hypertextsorten-getriebene Informationsextraktion " Kann für einige HTS-Module auf der bloßen
Strukturanalyse basieren: • Definition des Moduls: „Interessante Links�
– Listenartige Präsentation von mindestens zwei externen Hyperlinks
– Evtl. flankiert von kurzer Erläuterung des Link-Ziels – Mindestens ein Hyperlink pro logischem Abschnitt
der Liste
![Page 59: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/59.jpg)
Georg Rehm TaCoS 2003
Informationsextraktion ! Definition ist unmittelbar in XPath-Ausdruck überführbar:
//* [@hypnotic:TagGroup="list"] [@hypnotic:NumberOfListItems > 1] [@hypnotic:TotalLinkCount >= number(@hypnotic:NumberOfListItems)] [//* [@hypnotic:LinkType]] [(not(.//*[ @hypnotic:LinkType and @hypnotic:LinkType != "external"]))]
! Finde alle Knoten: " Die vom Typ „Liste� sind, " mehr als ein List-Item enthalten, " ausschließlich externe Hyperlinks beinhalten und " mindestens so viele externe Hyperlinks wie List-Items umfassen.
! Falls alle Prädikate wahr sind, kann der Kontext-Knoten als hypnotic:WebGenreModule="Interesting Links" analysiert werden
Aber:
Dieses Element bezieht sich nun nicht mehr auf die Analyse-DTD, sondern auf die XML Schema-Formalisierung einer Hypertextsorte!
![Page 60: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/60.jpg)
Ausschnitt: XML-basierte Repräsen- tation der Informationen des Hyper-
textsorten-Moduls Kontaktinformation
!
Informationsextraktion
![Page 61: Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web](https://reader033.vdocuments.pub/reader033/viewer/2022051514/54847325b4af9f910d8b4b39/html5/thumbnails/61.jpg)
Georg Rehm TaCoS 2003
Ausblick ! Stichprobenauswertung (bottom-up) zur
Komplettierung der Hypertextsorten-Ontologie
! Entwicklung des XML-Repräsentationsformats für die Hypertextsorten-Ontologie
! Entwicklung des RDF-Repräsentationsformats für die Hypertextsorten-Modul-Ontologie
! Implementation des Klassifikationssystems
! Evaluation des Systems mit realen Such-Fragestellungen