namn- och termigenkänning i specialiserade texter
DESCRIPTION
Namn- och termigenkänning i specialiserade texter. Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik. Namn- och termigenkänning. Automatisk sammanfattning plocka ut det väsentliga ur en text Informationsextrahering (IE) - PowerPoint PPT PresentationTRANSCRIPT
Namn- och termigenkänning i specialiserade texter
Cecilia Hemming
Högskolan i SkövdeInstitutionen för Kommunikation och Information
Datalingvistik
GU-Språkteknologidagen, 22 april 2005.
Namn- och termigenkänning
Automatisk sammanfattningplocka ut det väsentliga ur en text
Informationsextrahering (IE) hitta och presentera relevant information
Informationsåtkomst (IR)hitta och presentera relevanta dokument
Frågebesvarande systemMaskinöversättning
GU-Språkteknologidagen, 22 april 2005.
Namn och översättning
I met Usama bin Laden
Jag mötte Usama slänga i soptunnan Laden
GU-Språkteknologidagen, 22 april 2005.
Vad är ett namn?
Ett eller flera ord som betecknar person, organisation, plats, datum, tid, valuta, procentuttryck.
Inte specifikt för en viss domän
GU-Språkteknologidagen, 22 april 2005.
Namnigenkänning
Hitta datum-/tid-/måttsuttryck, telefon/e-post,…
Identifiera namn och dela in i relevanta kategorierNamn på personer, organisationer, platser, …
Hitta domänspecifika termernamn på biologiska objekt (gener, proteiner,…)namn på tekniska objekt (maskiner, maskindelar, …)
GU-Språkteknologidagen, 22 april 2005.
Problem
Metonymi: mer än bara egentlig betydelse
PolysemiMaj – person eller månad (maj)?
Namn eller vanligt ord?Stig Flod
Interpunktion, stavning, mellanrum, formatering
Olika i olika språk och typer av text“Högskolan i Skövde”, “541 45” Skövde
, Volvo satsar i Polen, släpp av mig på Volvo han har en Volvoorganisation platsprodukt
GU-Språkteknologidagen, 22 april 2005.
Hur kan namn hittas?
Namndatabaser och namnlistor+enkelt, snabbt, språkoberoende, anpassningsbart- samla/underhålla, hanterar inte
ambiguitet/varianter
Även titta på ords inre strukturFörnamn + Ord -> person (Ola Person)Ord + AB, HB, KB, … -> organisation (Bala AB)
GU-Språkteknologidagen, 22 april 2005.
Databaser/namnlistor + ytparsning
(forts.)
Dessutom titta på kontextenOrd + “är {en|ett}” + Adj* + [Plats] Göteborg är en trevlig stad.
Problem med ytparsningCharles de Gaulle [namn], [flygplats]?Svenska Britt Ekland gör ny film. Högskolan i Skövde – Föräldrarna i Bullerbyn
Namnigenkänning (engelsk nyhetstext)
The
English-languageArab NewsreportedonMondaythatPrinceNayefrefusedtoanswerreportersquestionsonthe arrest of HaniAbdel-RahimHusseinal-Sayegh
From previous procedure
Place pointer at the firstword in the sentence
Move pointer to next word*
First LetterUppercase?
Closed-class word?
Add to Proper NameCandidate String **
Word inProper Name
IndicatorDB?***
More words in thesentence?
To next procedure(if needed, takes care of thefirst word in the sentence)
Yes
No
Yes
No
NoYes
No
Proper NameCandidate String
empty?Yes
Yes
The 1:st wordin Proper Name Candidate
String =2nd word in the
sentence?
The 1:st word in thesentence = closed-
class word?
Add to Proper NameCandidate String (initial
position)
Yes
NoYes
No
No
Mark CandidateString as Proper
Name
From previous procedure
Place pointer at the firstword in the sentence
Move pointer to next word*
Yes
No
Closed-class word?
Add to Proper NameCandidate String **Yes
English-languageArabNews
No
First LetterUppercase?
No
Word inProper Name
IndicatorDB?***
No
Yes
Yes
The 1:st word in thesentence = closed-
class word?
Mark CandidateString as Proper
Name
Yes
Proper NameCandidate String
empty?Yes
Prince Nayef
No
The 1:st wordin Proper Name Candidate
String =2nd word in the
sentence?
HaniAbdel-RahimHussein
Yes
al-Sayegh
No
From previous procedure
Place pointer at the firstword in the sentence
Move pointer to next word*
First LetterUppercase?
Closed-class word?
Add to Proper NameCandidate String **
Word inProper Name
IndicatorDB?***
More words in thesentence?
To next procedure(if needed, takes care of thefirst word in the sentence)
Yes
No
Yes
No
NoYes
No
Proper NameCandidate String
empty?Yes
Yes
The 1:st wordin Proper Name Candidate
String =2nd word in the
sentence?
The 1:st word in thesentence = closed-
class word?
Add to Proper NameCandidate String (initial
position)
Yes
NoYes
No
No
Mark CandidateString as Proper
Name
More words in thesentence?
To next procedure(if needed, takes care of the firstword in the sentence and mark
Candidate String as Proper Name ifnot empty)
GU-Språkteknologidagen, 22 april 2005.
Termer
“lexikal enhet huvudsakligen använd inom specifik domän” [Kageura 2002]
Ofta sammansättningar Ett eller flera ordOfta okända (inte i termdatabaser/-listor)
GU-Språkteknologidagen, 22 april 2005.
Termer och översättning
oljeledningsfäste
oil management foothold
GU-Språkteknologidagen, 22 april 2005.
Problem med termer – exempel från biomedicinska
texter
Olika benämningar/kortversioner för samma sak
Interleukin-1 beta interleukin NF-IL6-beta NF IL
Samma benämning på flera olika sakerIngen enhetlig standard
på hur termer byggs uppTR2interferon alpha-D
hur termer skrivsnamn, term eller vanlig nominalffras?
Enkla termer, minst 6 olika skrivsättEGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1
GU-Språkteknologidagen, 22 april 2005.
Komplexa termer
-- NF Kappa B – alltid stor inledande bokstav och mellanslag
-- NF kappa B -- ingående ord skrivs med liten bokstav
-- NF kappaB --vissa delar av namnet skrivs ihop
-- NFkappaB --alla delar skrivs ihop
Länka akronymer till namn på biologiska objekt
Find next acronym
Found?
L1:= First Letter in theacronym
N := Number ofoccurrences of L1 in the
acronym
Yes Withinparentheses
Yes
Find the N:th word beginningin L1 to the left of the
parentheses and mark thatword and the rest of the left
side context as Named Entityand link to the acronym
Yes
Is the acronymfollowed by ’(’ and a
word beginning whithL1
No
Mark the words insidethe (…) as Named Entityand link to the acronym
YesNo
No
Place pointer at the firstword in the sentence
To next procedure(Named Entity Recognition
shown in Figure 4)
From previousprocedure
ThereareaslotumorrelatedgeneslikeNF2neurofibromatose of type 2.p16INK4a
belongsto a groupcellcycleregulator calledcyclindependentkinaseinhibitors CDKI .
( )
( )
GU-Språkteknologidagen, 22 april 2005.
Tack för mig!
GU-Språkteknologidagen, 22 april 2005.
Syntaktiska termbildningsmönster
Språkspecifika bildningsmönstersvenska noun+noun ->
franska noun prep noun/verb
Swedish noun-2+noun-1 (modifierare+huvud) ->
French noun-1 prep noun-2 (huvud + prep + modifierare)
oljekanal # canalisation à huile
bränsleledning # conduite de carburant
GU-Språkteknologidagen, 22 april 2005.
Semantiska koncept
Term: lingvistisk representation för ett domänspecifikt konceptViktiga semantiska koncept för en domän relevanta termer för domänenFör att kunna översätta en sammansatt term krävs korrekt semantisk tolkning
t.ex. val av preposition“de” om modifierande substantiv uttrycker vad ngt är avsett för