4 wissensrepräsentation für texte · 2003-03-07 · weiterentwickelt durch paul otlet und henri...
TRANSCRIPT
Wissensrepräsentation für Texte 1
4 Wissensrepräsentation fürTexte
4.1 Problemstellung
Repräsentation von Textinhalten:
Problem: Konzepte aus der Anfrage können im Text aufunterschiedlichste Weise formuliert werden
Lösungsansätze
• semantischer Ansatz:Zuordnung von Deskriptionen zu Texten→ Dokumentationssprachen
• Freitextsuche
– informatischer Ansatz:Textretrieval als Zeichenkettensuche
– computerlinguistischer Ansatz:i.w. Normalisierung von Wortformen
Norbert Fuhr
Wissensrepräsentation für Texte 2
4.2 Dokumentationssprachen
4.2.1 Allgemeine Eigenschaften
formulierungsunabhängige Repräsentation von Textin-haltendurch Verwendung eines speziellen Vokabulars
• Klassifikationen
• Thesauri
• RDF
Norbert Fuhr
Wissensrepräsentation für Texte 3
4.2.2 Klassifikationen
Strukturierung eines Wissensgebietes nach einem vorge-gebenen formalen Schemaz.B. Dezimalklassifikation: Baum der Ordnung 10
Ein Dokument wird in der Regel einer oder wenigenKlassen zugeordnet(ursprünglich für Bibliotheken entwickelt - ein Buchkann nur an einem Platz stehen!)
Beispiele:
• Web-Kataloge (z.B. Yahoo!)
• Klassifikationen in bestimmten Fachgebie-ten/Anwendungsbereiche:
LCC Library of Congress Classification
DDC Dewey Decimal Classification
UDC Universal Decimal Classification
MSc Mathematics Subject Classification
CCS ACM Computing Classification system
Norbert Fuhr
Wissensrepräsentation für Texte 4
Eigenschaften von Klassifikationssystemen
Monohierarchie — Polyhierarchie
Steinobstbaum
Kirschbaum Pfirsichbaum
Kernobstbaum
BirnbaumApfelbaum
Obstbaum
Birnbaum
NutzholzbaumObstbaum
Kernobstbaum
Norbert Fuhr
Wissensrepräsentation für Texte 5
Monodimensionalität — PolydimensionalitätProblem: auf einer Stufe gibt es mehrere Kriterien,nach denen eine weitere Aufteilung in Unterklassenvorgenommen werden kann
Polydimensionalität:
Steinobstbaum
Obstbaum
Kernobstbaum niederstämmiger Obstbaum
hochstämmiger Obstbaum
halbstämmiger Obstbaum
Norbert Fuhr
Wissensrepräsentation für Texte 6
Aufgelöste Polydimensionalität:
Obstbaum
nach Stammbildungnach Fruchart
Obstbaum
halbst.
niederst.
ObstbaumObstbaum
hochst.
obstbaum
Kern−
obstbaum
Stein−
Norbert Fuhr
Wissensrepräsentation für Texte 7
Analytische vs. synthetische Klassifikationanalytische Klassifikation: top-down Vorgehensweise(wie oben)
synthetische Klassifikation: bottom-up
1. Erhebung der Merkmale der zu klassifizierendenObjekte und Zusammenstellung im Klassifikations-system
2. Bildung der Klassen durch Kombination der Merk-male
Norbert Fuhr
Wissensrepräsentation für Texte 8
FacettenklassifikationBeispiel: Facettenklassifikation Obstbäume
Facette Facette Facette
A Fruchtart B Stammart C Erntezeit
A1 Apfel B1 hochstämmig C1 früh
A2 Birne B2 halbstämmig C2 mittel
A3 Kirsche B3 niederstämmig C3 spät
A4 Pfirsisch
A5 Pflaume
A1B3C1 = niederstämmiger Frühapfelbaum
Regeln:
• Facetten müssen disjunkt sein
• monodimensionale Unterteilung innerhalb einerFacette
Norbert Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te9
Yah
oo!–
mai
nca
tego
ries
Art
s&
Hum
anitie
sLi
tera
ture
,Pho
togr
aphy
...B
usin
ess
&Ec
onom
yB
2B,Fi
nanc
e,Sh
oppi
ng,Jo
bs...
Com
pute
rs&
Inte
rnet
Inte
rnet
,W
WW
,So
ftwar
e,G
ames
...Ed
ucat
ion
Col
lege
and
Uni
vers
ity,K
-12.
..En
tert
ainm
ent
Coo
lLin
ks,M
ovie
s,H
umor
,M
usic
...G
over
nmen
tEle
ctio
ns,M
ilita
ry,La
w,Tax
es...
Hea
lth
Med
icin
e,D
isea
ses,
Dru
gs,Fi
tnes
s...
New
s&
Med
iaFu
llCov
erag
e,N
ewsp
aper
s,T
V...
Rec
reat
ion
&Sp
orts
Spor
ts,Tra
vel,
Aut
os,O
utdo
ors...
Ref
eren
ceLi
brar
ies,
Dic
tion
arie
s,Q
uota
tion
s...
Reg
iona
lCou
ntrie
s,Reg
ions
,U
SSt
ates
...Sc
ienc
eA
nim
als,
Ast
rono
my,
Eng
inee
ring.
..So
cial
Scie
nce
Arc
haeo
logy
,Eco
nom
ics,
Lang
uage
s...
Soci
ety
&Cul
ture
Peo
ple,
Env
ironm
ent,
Rel
igio
n...
Nor
bert
Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te10
Yah
oo!–
Com
pute
rs&
Inte
rnet
Art
@B
iblio
grap
hies
(6)
Com
mun
icat
ions
and
Net
wor
king
(114
6)Com
pute
rSc
ienc
e@Con
test
s(2
6)Con
vent
ions
and
Con
fere
nces
@Cou
ntrie
s,Cul
ture
s,an
dG
roup
s(3
8)Cyb
ercu
lture
@D
ata
Form
ats
(485
)D
eskt
opCus
tom
izat
ion@
Des
ktop
Pub
lishi
ng(5
3)D
ictio
narie
s(2
4)
Empl
oym
ent@
Ethi
cs(1
8)Gam
es@
Gra
phic
s(3
16)
Har
dwar
e(2
355)
Histo
ry(1
06)
Hum
or@
Indu
stry
Info
rmat
ion@
Inte
rnet
(606
6)M
agaz
ines
@M
obile
Com
putin
g(6
5)M
ultim
edia
(690
)M
usic
@N
ews
and
Med
ia(2
05)
...N
orbe
rtFu
hr
Wisse
nsre
präs
enta
tion
für
Tex
te11
Yah
oo!
•Po
lyhi
erar
chie
•T
iefe
der
Hie
rarc
hie
varii
ert
•D
okum
ente
könn
enbe
liebi
gen
Kla
ssen
zuge
ordn
etwer
den
Nor
bert
Fuhr
Wissensrepräsentation für Texte 12
ACM Computing Classification SystemUrsprünglich Klassifikation in der Zeitschrift ACMComputing Reviews,wird vielfach als Standard-Klassifikation in der Informatikverwendet.
Elemente:
• general terms: vorgegebene Menge von allgemeinenBegriffen
• classification codes: dreistufige monohierarchischeKlassifikation
• subject headings: vorgegebene Menge von natür-lichsprachlichen Bezeichnungen für jede einzelneKlasse, die diese weiter differenzieren; außerdem alleEigennamen
• free terms: zusätzliche, frei wählbare Stichwörter
Norbert Fuhr
Wissensrepräsentation für Texte 13
General terms:These apply to any elements of the tree that are relevant
ALGORITHMS MANAGEMENT
DESIGN MEASUREMENT
DOCUMENTATION PERFORMANCE
ECONOMICS RELIABILITY
EXPERIMENTATION SECURITY
HUMAN FACTORS STANDARDIZATION
LANGUAGES THEORY
LEGAL ASPECTS VERIFICATION
Norbert Fuhr
Wissensrepräsentation für Texte 14
Übersicht über die Hauptklassen
A. GENERAL LITERATUREB. HARDWAREC. COMPUTER SYSTEMS ORGANIZATIOND. SOFTWAREE. DATAF. THEORY OF COMPUTATIONG. MATHEMATICS OF COMPUTINGH. INFORMATION SYSTEMSI. COMPUTING METHODOLOGIESJ. COMPUTER APPLICATIONSK. COMPUTING MILIEUX
Norbert Fuhr
Wissensrepräsentation für Texte 15
H.3 INFORMATION STORAGE AND RETRIEVALH.3.0 GeneralH.3.1 Content Analysis and Indexing
Abstracting methodsDictionariesIndexing methodsLinguistic processingThesauruses
H.3.2 Information StorageFile organizationRecord classification
H.3.3 Information Search and RetrievalH.3.2 Information Storage
ClusteringQuery formulationRetrieval modelsSearch processSelection process
H.3.4 System and SoftwareCurrent awareness systems(selective dissemination of information-SDI)Information networksQuestion-answering (fact retrieval) systems
H.3.5 Online Information ServicesData bank sharing
H.3.6 Library AutomationLarge text archives
H.3.m MiscellaneousNorbert Fuhr
Wissensrepräsentation für Texte 16
Eigenschaften der ACM-CCS
• Monohierarchie
• feste Tiefe (vier Ebenen)
– Buchstaben/Ziffern-Code für Ebene 1–3
– “subject heading” auf Ebene 4
• Dokumente können nur der 4. Ebene zugeordnetwerden
Norbert Fuhr
Wissensrepräsentation für Texte 17
Dezimalklassifikation
Ursprung: Dewey Decimal Classification (DDC),1876 von Melvil Dewey (USA) entwickelt
Universalklassifikation zur Aufstellung von Buchbestän-den
Weiterentwickelt durch Paul Otlet und Henri Lafontaine(Belgien) zur Universellen Dezimalklassifikation (DK)
Grundelemente der DK
• Hierarchisch gegliederten Klassen (130000)
• Anhängezahlen zur Facettierung
• Sonderzeichen zur Verknüpfung mehrerer DK-Zahlen
Norbert Fuhr
Wissensrepräsentation für Texte 18
HauptklassenDie DK-Haupttafeln umfassen die Hauptabteilungen:
0 Allgemeines
1 Philosophie
2 Religion, Theologie
3 Sozialwissenschaften, Recht, Verwaltung
4 (zur Zeit nicht belegt)
5 Mathematik, Naturwissenschaften
6 Angewandte Wissenschaften, Medizin, Technik
7 Kunst, Kunstgewerbe, Photographie, Musik,Spiel, Sport
8 Sprachwissenschaft, Philologie, Schöne Litera-tur, Literaturwissenschaft
9 Heimatkunde, Geographie, Biographien, Ge-schichte
Norbert Fuhr
Wissensrepräsentation für Texte 19
Beispiel für die Untergliederung einer Hauptklasse
Beispiel:
3 Sozialwissenschaften, Recht, Verwaltung
33 Volkswirtschaft
336 Finanzen. Bank- und Geldwesen
336.7 Geldwesen. Bankwesen. Börsenwesen
336.76 Börsenwesen. Geldmarkt. Kapitalmarkt
336.763 Wertpapiere. Effekten
336.763.3 Obligationen. Schuldverschreibungen
336.763.31 Allgemeines
336.763.311 Verzinsliche Schuldbriefe
336.763.311.1 Langfristig verzinsliche Schuldbriefe
Norbert Fuhr
Wissensrepräsentation für Texte 20
Facettierende ElementeAnhängezahlen: durch spezielle Zeichen eingeleitet
allgemeine Anhängezahlen: Facetten, die überall in derDK verwendet werden dürfenZeichenfolgen/Facetten:
= Sprache
(0...) Form
(...) Ort
(=...) Rassen und Völker
„...“ Zeit
.00 Gesichtspunkt
-05 Person
spezielle Anhängezahlen: nur für bestimmte Klasseninnerhalb der DK erlaubt
Norbert Fuhr
Wissensrepräsentation für Texte 21
Verknüpfung von DK-Zahlenspezielle Sonderzeichen zur Verknüpfung von DK-Zahlen:
+ Aufzählung mehrerer Sachverhalte
: symmetrische Beziehung zwischen zwei Sachverhal-ten (umkehrbar)
:: asymmetrische Beziehung zwischen zwei Sachver-halten
/ Erstreckungszeichen (zur Zusammenfassung mehre-rer nebeneinanderstehender DK-Zahlen)
’ Zusamenfassungszeichen zur Bildung neuer Sach-verhalte aus der Kombination einzelner DK-Komponenten
Norbert Fuhr
Wissensrepräsentation für Texte 22
4.2.3 Thesauri
DIN 1463:„Thesaurus ist geordnete Zusammenstellung von Begrif-fen mit ihren (natürlichsprachlichen) Bezeichnungen.Merkmale eines Thesaurus:
a) terminologische Kontrolle durch
– Erfassung von Synonymen
– Kennzeichnung von Homonymen und Polysemen
– Festlegung von Vorzugsbenennungen
b) Darstellung von Beziehungen zwischen Begriffen“
Norbert Fuhr
Wissensrepräsentation für Texte 23
Terminologische KontrolleReduktion von Mehrdeutigkeiten und Unschärfe dernatürlichen Sprache
SynonymkontrolleZusammenfassung von Bezeichnungen zu Äquivalenz-klassen
Arten von Synonymie:
• SchreibweisenvariantenFriseur — FrisörUN — UNO — Vereinte Nationen
• unterschiedlichen Konnotationen, Sprachstile, Ver-breitungTelefon — FernsprecherPferd — GaulMyopie — Kurzsichtigkeit
• Quasi-SynonymeSchauspiel — TheaterstückRundfunk — Hörfunk
Norbert Fuhr
Wissensrepräsentation für Texte 24
Im Thesaurus werden darüber hinaus Begriffe mitgeringen / irrelevanten Bedeutungsdifferenzen zu Äqui-valenzklassen zusammengefaßt:
• unterschiedliche SpezifitätSprachwissenschaft — Linguistik
• AntonymeHärte — Weichheit
• zu spezieller UnterbegriffWeizen — Winterweizen
• Gleichsetzung von Verb und Substantiv / Tätigkeitund ErgebnisWohnen — Wohnung
PolysemkontrolleAufteilung von einer (mehrdeutigen) Bezeichnung aufmehrere Äquivalenzklassen
• Homonyme (Bs. Tenor)
• Polyseme (Bs. Bank)
Norbert Fuhr
Wissensrepräsentation für Texte 25
ZerlegungskontrolleProblem: Wie spezifisch sollen einzelne Begriffe imThesaurus sein?„Donaudampfschiffahrtskapitän“
Nachteile zu spezieller Begriffe:
• Thesaurus zu umfangreich / unübersichtlich
• nur wenige Dokumente zu einer Äquivalenzklasse
UNITERM-Verfahren:Nur Begriffe, die nicht weiter zerlegbar sind (Uniterms)Verkettung von Uniterms zur Wiedergabe eines Sach-verhaltes (Postkoordination)Nachteil: größere Unschärfe beim RetrievalBaum + Stamm = Baumstamm / StammbaumThesaurusmethode: Kompromiß zwischen beiden Ansät-
zen
Norbert Fuhr
Wissensrepräsentation für Texte 26
Äquivalenzklasse — DeskriptorTerminologische Kontrolle liefert Äquivalenzklassen vonBezeichnungen
Darstellung dieser Äquivalenzklassen:
• Thesaurus ohne Vorzugsbenennung:Gleichbehandlung aller Elemente der Äquivalenz-klasse
• Thesaurus mit Vorzugsbenennung:Auswahl eines Elementes der Äquivalenzklasse zurBenennung=Deskriptor(im folgenden nur Thesauri mit Vorzugsbenennungbetrachtet)
Norbert Fuhr
Wissensrepräsentation für Texte 27
Beziehungsgefüge des Thesaurus
Äquivalenzrelationzwischen Nicht-Deskriptoren und Deskriptoren
Bezeichnungen:BS Benutze Synonym (use)BF Benutzt für (used for, UF)
Fernsprecher BS TelefonTelefon BF Fernsprecher
Hierarchische Relationzwischen Deskriptoren
Bezeichnungen:UB Unterbegriff (narrower term, NT)OB Oberbegriff (broader term, BT)
Obstbaum UB SteinobstbaumSteinobstbaum OB Obstbaum
Assoziationsrelationzwischen begriffsverwandten Deskriptoren, symmetrisch
Bezeichnung: VB verwandter Begriff (see also, SEE)
Obstbaum VB ObstObst VB Obstbaum
Norbert Fuhr
Wissensrepräsentation für Texte 28
Darstellung des Thesaurus
Deskriptor-Einträge
• Begriffsnummer
• Notation / Deskriptor-Klassifikation
• Scope note / Definition
• Synonyme
• Oberbegriffe / Unterbegriffe
• Verwandte Begriffe
• Einführungs-/Streichungsdatum
Norbert Fuhr
Wissensrepräsentation für Texte 29
Gesamtstruktur des Thesaurus(in gedruckter Form)Hauptteil mit den Deskriptor-Einträgenalphabetisch / systematisch geordnet
zusätzliche Register mit Verweisen auf die Deskriptor-Einträge
• systematisch / alphabetisch (komplementär zumHauptteil)
• Index für Komponenten mehrgliedriger Bezeichnun-genKWIC — keyword in contextKWOC — keyword out of context
Norbert Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te30
Bei
spie
l:IN
SPEC-T
hesa
urus
Info
rmat
ion
retr
ieva
lU
FCD
-RO
Mse
arch
ing
Dat
aac
cess
Doc
umen
tre
trie
val
Onl
ine
liter
atur
ese
arch
ing
Ret
rieva
l,in
form
atio
nB
TIn
form
atio
nsc
ienc
eN
TQ
uery
form
ulat
ion
Que
rypr
oces
sing
Rel
evan
cefe
edba
ckRT
Bib
liogr
aphi
csy
stem
sIn
form
atio
nan
alys
isIn
form
atio
nst
orag
eQ
uery
lang
uage
s
Que
rypr
oces
sing
UF
Dat
aqu
eryi
ngD
atab
ase
quer
ying
Que
ryop
tim
isat
ion
BT
Info
rmat
ion
retr
ieva
lRT
Dat
abas
em
anag
emen
tsy
stem
sD
atab
ase
theo
ryD
ATA
LOG
Que
ryla
ngua
ges
Que
ryfo
rmul
atio
nU
FSe
arch
stra
tegi
esB
TIn
form
atio
nre
trie
val
Rel
evan
cefe
edba
ckB
TIn
form
atio
nre
trie
val
Nor
bert
Fuhr
Wissensrepräsentation für Texte 310.0058 Magnetismus (Forts.)Magnetband BF HalleffektVB Magnetbandlaufwerk BF Induktion
OB ElektrodynamikUB Magnetfeld
0,0045 BIK GeophysikMagnetbandgerät BFK ErdmagnetismusBS Magnetbandlaufwerk NE7 BIK Optik
BFK Faraday-Effekt
0. 0046Magnetbandkassette 0.0070NO NE83 MagnetkarteBF Kassette NO NE87BF MB-Kassette BF TelefonkärtchenOB Datenträger OB DatenträgerVB Magnetbandkassettenlaufwerk VB Kartensystem
0.0051 0.0073Magnetbandkassettengerät MagnetkartensystemBS Magnetbandkassettenlaufwerk NE7 NO ECS
OB Kartensystem
0.0050Magnetbandkassettenlaufwerk 0.0074NO NE7 MagnetkartentelefonBF Magnetbandkassettengerät NO GK72BF MB-Kassettengerät BF MakatelOB Datenausgabegrät OB KartentelefonOB DateneingabegerätOB DatenspeichertechnikVB Magnetbandkassette 0 0077
MagnetplatteNO NE82
0.0044 OB DatenspeicherMagnetbandlaufwerk OB DatenträgerNO NE7 VB MagnetplattenlaufwerkBF Magnetbandgerät BIK DatenspeicherOB Bandgerät BFK PlattenspeicherOB DatenausgabegerätOB DateneingabegerätOB Datenspeichertechnik 0.0081VB Magnetband Magnetplattengerät
BS Magnetplattenlaufwerk
0.0059Magnetfeld 0.0079NO WD2 MagnetplattenlaufwerkOB Magnetismus NO NE7
BF MagnetplattengerätOB Datenausgabegerät
0.0060 OB DateneingabegerätMagnetismus OB DatenspeichertechnikNO WD2 VB MagnetplatteBF Barkhausen-EffektBF Ferromagnetismus
Norbert Fuhr
Wissensrepräsentation für Texte 32
ThesauruspflegeAnpassung des Thesaurus an Veränderungen in derAnwendung notwendig aufgrund von
• Entwicklung des Fachgebietesobjektorientierte Datenbanken, multimediale Syste-me
• Entwicklung der Fachsprache
• Indexierungsverhalten / Indexierungsergebnisse
• Benutzerverhalten
• Rechercheergebnisse
Problem: Überwachung der Konsistenz des Thesaurus
Norbert Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te33
4.2.
4RD
F
(Res
ourc
eD
escr
iptio
nFr
amew
ork)
vom
W3C
imRah
men
der‘S
eman
ticW
eb’-I
nitia
tive
gefö
rder
teB
esch
reib
ungs
spra
-ch
e
Idee
:aus
druc
ksst
ärke
reBes
chre
ibun
gssp
rach
e
•In
stan
zen
zuK
onze
pten
•be
liebi
geB
ezie
hung
enzw
isch
enIn
stan
zen
ausd
rück
en
•St
atem
ents
der
Art
Subj
ekt-
Prä
dika
t-O
bjek
t
Nor
bert
Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te34
RD
F:ba
sic
conc
epts
Res
ourc
eob
ject
onth
eW
WW
,e.
g.W
ebpa
ge,d
atab
ase
nam
ing
ofre
sour
ces:
Uni
form
Res
ourc
eId
entifi
er(U
RI)
Lite
ral
spec
ialt
ype
ofre
sour
ce,w
ithst
ring
valu
e,no
expl
icit
URI
Pro
pert
yas
pect
/at
trib
ute
/ch
arac
teris
tics
/re
latio
n
Stat
emen
tre
sour
ce+
nam
edpr
oper
ty+
valu
eof
prop
erty
(sub
ject
,pre
dica
te,o
bjec
t)
Nor
bert
Pisa
visi
ts
Nor
bert
Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te35
RD
Fex
ampl
e
IR−
Cou
rse
"Int
rodu
ctio
n to
IR"
ISS
DL
isP
artO
f
N.F
uhr
teac
hes
Nam
e
Em
ail
"Nor
bert
Fuh
r"
"fuh
r@cs
.uni
−...
"
title
orga
nize
d−by
M.A
gost
i
"Mar
iste
lla A
gost
i""a
gost
i@...
"
Nam
eE
mai
l
Nor
bert
Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te36
RD
Fsc
hem
as
sim
ilar
tose
man
ticne
twor
ks/
desc
riptio
nlo
gics
desc
ribes
rela
tions
hips
betw
een
type
sof
reso
urce
san
d/or
prop
ertie
s
•fu
ndam
enta
lcon
cept
s
–rd
fs:R
esou
rce
–rd
f:Pro
pert
y
–rd
fs:C
lass
•sc
hem
ade
finiti
onco
ncep
ts
–rd
f:typ
e
–rd
fs:sub
Cla
ssO
f
–rd
fs:sub
Pro
pert
yOf
–rd
fs:see
Also
–rd
fs:is
Defi
nedB
y
Nor
bert
Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te37
RD
FS
exam
ple:
reso
urce
hier
arch
y
rdf:
Typ
erd
fs:s
ubC
lass
Of
xyz:
Mot
orV
ehic
le xyz:
Tru
ck
xyz:
Pass
enge
rVeh
icle
xyz:
Van
xyz:
Min
iVan
rdfs
:Cla
ss
rdfs
:Res
ourc
e
Nor
bert
Fuhr
Wisse
nsre
präs
enta
tion
für
Tex
te38
RD
FS
exam
ple:
reso
urce
and
prop
erty
hier
arch
ies
rdfs
:Cla
ss
tour
ist−
visi
tbu
sine
ss−
visi
t
Pers
onPl
ace
visi
ts
rdfs
:sub
Cla
ssO
f
busi
ness
−vi
sit
visi
ts
Con
f.−
Loc
.IS
SDL
−T
utor
N. F
uhr
Pisa
busi
ness
−vi
sit
rdfs
:sub
Cla
ssO
f
rdf:
Prop
erty
rdf:
type
rdf:
type
rdf:
typerdf:
type
rdfs
:sub
Prop
erty
Of
rdf:
type
Nor
bert
Fuhr
Wissensrepräsentation für Texte 39
4.3 Freitextsuche
Voraussetzungen:
• Zerlegung von Texten in Wörter
• (Stopworteliminierung)
• (Satzendeerkennung)
Norbert Fuhr
Wissensrepräsentation für Texte 40
Probleme bei der Freitextsuche:
• HomographenTenor: Sänger / Ausdrucksweise
• PolysemeBank: Sitzgelegenheit / Geldinstitut
• FlexionsformenHaus – (des) Hauses – Häuserschreiben – schreibt – schrieb – geschrieben
• DerivationsformenFormatierung – Format – formatieren
• Komposita (mehrgliedrige Ausdrücke)Bundeskanzlerwahl – Wahl des Bundeskanzlersinformation retrieval – retrieval of information –information was retrieved
Das Problem der Wortwahl bleibt ungelöst!
Norbert Fuhr
Wissensrepräsentation für Texte 41
4.3.1 Informatischer Ansatz
Zeichenketten-Operatoren für die Freitextsuche
• TruncationFront-/End-Truncation,beschränkt ($) / unbeschränkt(#)schreib#: schreiben, schreibt, schreibst, schreibe
schreib$$: schreiben, schreibst
#schreiben: schreiben, beschreiben, an-schreiben, verschreiben
$$schreiben: beschreiben, anschreiben
• (Mitten-)Maskierungdo$umentation: documentation, Dokumentationschr$$b#: schreiben, schrieb / schrauben
Truncation und Maskierung dienen dazu, Flexions- undDerivationsformen von Wörtern zusammenzuführenVorteil: weniger Schreibarbeit als beim explizitenAufzählenNachteil: möglicherweise unerwünschte Wörter dabei
Norbert Fuhr
Wissensrepräsentation für Texte 42
• Kontextoperatoren zur Suche nach mehrgliedrigenAusdrückeninformation AND retrieval:boolesche Operatoren beziehen sich nur auf dasVorkommen irgendwo im Text!
– genauer Wortabstand ($):retrieval $ information: retrieval of information,retrieval with information loss
– maximaler Wortabstand (#):text # # retrieval: text retrieval, text and factretrieval
– Wortreihenfolge (,):information # , retrieval: information retrieval,retrieval of information
– gleicher Satz (.):information # retrieval. matcht nicht. . . this information. Retrieval of data . . .aber auch nicht:. . . storage of information. Its retrieval . . .
Norbert Fuhr
Wissensrepräsentation für Texte 43
4.3.2 Computerlinguistischer Ansatz
Arten von Verfahren:
• graphematische Verfahrenauf der Analyse von Buchstabenfolgen basierendeAlgorithmen, hauptsächlich zur Zusammenführungvon Flexions- oder Derivationsformen (Morphologie)
• lexikalische VerfahrenWörterbuch-basierte Verfahren zur Zusammenfüh-rung von Flexions- oder Derivationsformen sowievon mehrgliedrigen Ausdrücken
• syntaktische Verfahrenzur Identifikation von mehrgliedrigen Ausdrücken
Norbert Fuhr
Wissensrepräsentation für Texte 44
Graphematische Verfahren (für die englische Spra-che)
• GrundformreduktionZurückführen auf die Grundform, d.h.Substantive im Nominativ Singular,Verben im Infinitiv
– lexikographische Grundformentsteht durch Abtrennen der Flexionsendungund ggfs. Rekodierungapplies → appl → apply
– formale Grundformnur Abtrennen von Endungen, ohne Rekodierungactivities → activit
• StammformreduktionEntfernen der Derivationsendungen, d.h. Zurück-führen auf den Wortstammcomputer, compute, computation, computerization→ comput
Norbert Fuhr
Wissensrepräsentation für Texte 45
Lexikographische Grundformreduktion(nach Kuhlen 77)
% alle Vokale (einschließlich Y)
∗ alle Konsonanten
/ ,oder’
_ Leerzeichen
→ ,zu’
← ,aus’
¬ ,nicht’
Norbert Fuhr
Wissensrepräsentation für Texte 46
1) IES → Y
2) ES → 6B wenn ∗O / CH / SH / SS / ZZ /X vorangehen
3) S → 6B wenn ∗ / E / %Y / %O / OA / EAvorangehen
4) S’ → 6BIES’ → YES’ → 6B
5) ’S → 6B’ → 6B
6) ING → 6B wenn ∗∗ / % / X vorausgehenING → E wenn %∗ vorausgehen
7) IED → Y
8) ED → 6B wenn ∗∗ / % / X vorausgehenED → E wenn %∗ vorausgehen
Norbert Fuhr
Wissensrepräsentation für Texte 47
Regel 1 IES → Y
Beispiele zu 1:
APPLIES → APPLY
IDENTIFIES → IDENTIFY
ACTIVITIES → ACTIVITY
Regel 2 ES → 6B, wenn ∗O / CH / SH / SS / ZZ /
X vorangehen
Beispiele zu 2:
BREACHES → BREACH
PROCESSES → PROCESS
FISHES → FISH
COMPLEXES → COMPLEX
TANGOES → TANGO
BUZZES → BUZZ
Norbert Fuhr
Wissensrepräsentation für Texte 48
Regel 3 S → 6B, wenn ∗ / E / %Y / %O / OA /
EA vorangehen
Beispiele zu 3:
METHODS → METHOD
HOUSES → HOUSE
BOYS → BOY
RADIOS → RADIO
COCOAS → COCOA
FLEAS → FLEA
Regel 4 S’ → 6B
IES’ → Y
ES’ → 6B
Beispiele zu 4:
MOTHERS’ → MOTHER
LADIES’ → LADY
FLAMINGOES → FLAMINGO
Norbert Fuhr
Wissensrepräsentation für Texte 49
Regel 5 ’S → 6B
’ → 6B
Beispiele zu 5:
MOTHER’S → MOTHER
CHILDREN’S → CHILDREN
PETRUS’ → PETRUS
Regel 6 ING → 6B, wenn ∗∗ / % / X vorausgehen
ING → E, wenn %∗ vorausgehen
Beispiele zu 6:
DISGUSTING → DISGUST
GOING → GO
MIXING → MIX
LOOSING → LOOSE
RETRIEVING → RETRIEVE
Norbert Fuhr
Wissensrepräsentation für Texte 50
Regel 7 IED → Y
Beispiel zu 7:
SATISFIED → SATISFY
Regel 8 ED → 6B, wenn ∗∗ / % / X vorausgehen
ED → E, wenn %∗ vorausgehen
Beispiel zu 8:
DISGUSTED → DISGUST
OBEYED → OBEY
MIXED → MIX
BELIEVED → BELIEVE
Norbert Fuhr
Wissensrepräsentation für Texte 51
Lexikalische Verfahrenbesonders für stark flektierte Sprachen (z.B. deutsch)geeignet
Relationen im Wörterbuch:
• Flexionsform (Vollformen) — zugehörige GrundformHauses - Haus, ging - gehen
• Derivationsform — zugehörige GrundformenLieblosigkeit — lieblos, Berechnung — rechnen
• Komposita — zugehörige DekompositionHaustür — Tür, Armbanduhr — Uhr.
Norbert Fuhr
Wissensrepräsentation für Texte 52
Syntaktische Verfahren
(zur Identifikation von Komposita)
1. Wortklassenbestimmung
2. Parsing
3. Komposita-Identifikation
4. Head-Modifier-Strukturen
5. Matching
Norbert Fuhr
Wissensrepräsentation für Texte 53
Wortklassenbestimmung
typische Wortklassen:
AT articleBEZ “is”CONJ conjunctionIN prepositionJJ adjectiveJJR comparative adjectiveMD modal (can, have, may, shall. . . )NN singular or mass nounNNP singular proper nounNNS plural nounPERIOD .:?!PN personal pronounRB adverbRBR comparative adverbTO “to”VB verb, base formVBD verb, past tenseVBG verb, present participle, gerundVBN verb, past participleVBP verb, non 3rd singular presentVBZ verb, 3rd singular presentWDT wh-determiner (what, which)
Norbert Fuhr
Wissensrepräsentation für Texte 54
Datenquellen für die Wortklassenbestimmung:
• (Vollformen-)Wörterbuch
• graphematische Verfahren(insbesondere für nicht im Wörterbuch enthalteneWörter)
Problem:Wortklassenbestimmung in wenig flektierten Sprachen
The boys play football vs.She saw the new play
→ zusätzliche Berücksichtigung der syntaktischenStruktur (Bigramme, Trigramme) notwendig:
AT NNS VBP/NN NN → VBPPN VBD AT JJ NN/VBP → NN
Norbert Fuhr
Wissensrepräsentation für Texte 55
Beispiel:Wortklassenbestimmung basierend auf dem Kuhlen-Algorithmus
Nr. Regel Klasse
1 IES → Y NNS/VBP
2 ES → 6B NNS/VBP
3 S → 6B NNS/VBP
4 S’ → 6B NNS
IES’ → Y
ES’ → 6B5 ’S → 6B NN
’ → 6B6 ING → 6B VBG
ING → E
7 IED → Y VBD/VBN/JJ
8 ED → 6B VBD/VBN/JJ
ED → E
Norbert Fuhr
Wissensrepräsentation für Texte 56
Mikheev 98:Kombination von graphematischem Verfahren undVollformen-WB:(Rückführung unbekannter Wörter auf WB-Einträgemittels graphematischer Verfahren)
Beispielregeln:
Präfix WB-Klassen Wortklassen
re JJ NN VBG JJ NN VBG
ex NN NN
self- NN NN
inter JJ JJ
non JJ JJ
un RB RB
dis JJ JJ
anti- NN JJ
de JJ VBD VBN JJ VBD VBN
in RB RB
Norbert Fuhr
Wissensrepräsentation für Texte 57
Postfix WB-Klassen Wortklassen
ment NN VB VBP NN
ing NN VB VBP JJ NN VBG
ed NN VB VBP JJ VBD VBN
s NN VB VBP NNS VBZ
ly JJ NN RB RB
ness JJ NN
ship NN NN
able NNVBVBP JJ
s NN NNS
Norbert Fuhr
Wissensrepräsentation für Texte 58
Greene & Rubin 77:Wortklassenbestimmung mit deterministischem Taggernur 70 % korrekte Zuordungen!
aber:die meisten Wörter kommen in einer bevorzugtenWortklasse vorto flour a panto web the final report
→ seltene Verwendungen ignorieren!Charniak et al. 93: 90 % korrekte Zuordungen!
Verbesserung:statistische Ansätze zur Berücksichtigung der syntakti-schen Struktur (z.B. Markov-Modelle)liefern 95. . . 97 % korrekte Zuordungen
Norbert Fuhr
Wissensrepräsentation für Texte 59
Parsing
eine einfache Grammatik:
S → NP VP
NP → AT? JJ* NNS+
→ AT? JJ* NN+
→ NP PP
VP → VB PP
→ VBZ
→ VBZ NP
PP → IN NP
Beispiele:The analysis of 25 indexing algorithms shows consistentretrieval performance.AT NN IN JJ NN NNS VBZ JJ NN NN
A good indexing technique for Web retrieval is manualclassification.AT JJ NN NN IN NNS NNS VBZ JJ NN
Norbert Fuhr
Wissensrepräsentation für Texte 60
Identifikation von Komposita
nur bestimmte syntaktische Strukturen relevant→ partielles parsing
einfache Muster (ohne Unterscheidung(NN/NNP/NNS):
phrase → NN NN+
→ NN+ IN JJ* NN+
Beispiele:indexing algorithmsretrieval performanceretrieval of Web documentsretrieval of new documents
Norbert Fuhr
Wissensrepräsentation für Texte 61
Head-Modifier-Strukturen
basierend auf der Transformation der Komposita inhead-modifier-Strukturen:
head: Nomen, das die wesentliche Bedeutung desKompositums ausdrückt:Haustür, Türschloss, information retrieval, indexingalgorithm
modifier: modifiziert/spezialisiert die Bedeutung desHeads
head-Modifier-Strukturen können geschachtelt auftreten→ Darstellung als geschachtelte Listen oder Bäume
((Bundes,Kanzler),Wahl)
(((multimedia,document),retrieval),system)
(((Tür,Schloss), (Enteiser, Spray))
(((Eier,Schalen),(Soll,(Bruch,Stellen))),Verursacher)
Norbert Fuhr
Wissensrepräsentation für Texte 62
Eierschalensollbruchstellenverursacher
Schalen Soll
Bruch Stellen
Verursacher
Eier
the domain of possible categories of linguistic expressions
possible
domain
linguistic
categories
expressions
Norbert Fuhr
Wissensrepräsentation für Texte 63
Matching-Prozess
1. Komposita in Head-Modifier-Struktur überführen(Transformationsregeln basierend auf der syn-taktischen Struktur, ggfs. auch mit lexikalischenAngaben)
2. Vergleich: Head- bzw. Modifier-Rolle (bzgl. dergemeinsamen Wurzel) müssen übereinstimmen(einzelnes Nomen = Head)
Beispiel:(((Tür,Schloss), (Enteiser, Spray) wird gematcht von
• (Tür,Schloss)
• (Enteiser,Spray)
• (Tür,Schloss), Enteiser)
aber nicht von
• (Schloss,Tür)
Norbert Fuhr
Wissensrepräsentation für Texte 64
4.4 Beurteilung der Verfahren zur Re-präsentation von Textinhalten
• Dokumentationssprachen bieten prinzipiell Vorteilegegenüber der Freitextsucheaber: dieser Vorteil ist bislang experimentell nichtbelegt, es gibt sogar gegenteilige Ergebnisse
• Erfahrungen aus TREC:halb-formale Konzepte (wie geographische undDatumsangaben) sind durch Freitextsuche nichtabzudecken
• wissensbasiertes IR:benötigt zunächst große Wissensbasen, die bislangnicht verfügbar sind (CYC-Project, semantic Web)
• syntaktische Verfahren:für Nominalphrasen
• maschinenlesbare Wörterbücher:für Nominalphrasen und zur Disambiguierung
Norbert Fuhr
Wissensrepräsentation für Texte 65
4.5 Zusammenhang zwischen Modellenund Repräsentationen
4.5.1 Einfache statistische Modelle
Beispiel für computerlinguistischen Ansatz
Text:Experiments with Indexing Methods.The analysis of 25 indexing algorithms has not producedconsistent retrieval performance. The best indexingtechnique for retrieving documents is not known.
Stoppworteliminierung:experiments indexing methods analysis indexingalgorithms produced consistent retrieval performancebest indexing technique retrieving documents known
Stammformreduktion:experiment index method analys index algorithm producconsistent retriev perform best index techni retrievdocument
Norbert Fuhr
Wissensrepräsentation für Texte 66
„semantische“ Sicht:
• Multimenge von Terms
• Formen des Vorkommens(Ort, Sicherheit)
Modell:
• Abbildung auf Attribute
• Semantik durch Statistik!
Norbert Fuhr
Wissensrepräsentation für Texte 67
Computerlinguistische Verfahren sind präziser (undbenutzerfreundlicher) als der informatische Ansatzaber:
alle Verfahren sind mit Fehlern behaftet!
Norbert Fuhr