språk, datorer och textbehandlingevapet/undervisning/sdt07/f2...5 språk, datorer och...

Post on 17-Jun-2020

3 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Språk, datorer och textbehandling

Föreläsning 2:Korpusannotering, textkodning,

textnormalisering

Eva Petterssoneva.pettersson@lingfil.uu.se

2 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Föreläsningsöversikt

● Textkodning

• Teckenkodning

• Textnormalisering

• Korpusannotering

3 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textkodning

4 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textkodning

● Att märka upp texten med information om t.ex.

författare, dokumenttyp, meningsgränser,

styckeindelning etc.

● Viktigt att veta vilka texttyper som ingår i

korpusen och hur texterna är uppbyggda

● Inte trivialt hur uppmärkningen ska se ut, om man

vill göra korpusen lättillgänglig för andra!

● Finns det någon standard för hur det ska se ut?

5 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

COCOA

● Word COunt and COncordance on Atlas

● Mycket tidig textkodningsstandard (1965)

● Används bl.a. i Longman-Lancaster Corpus och Helsinki Corpus

● Format: näbbparenteser innehållande dels en fördefinierad

variabel, dels värdet för variabeln

Exempel från Helsinki Corpus:<N LET TO HUSBAND>              N = titel<A BEAUMONT ELIZABETH>         A = författare<X FEMALE>                     X = kön<H HIGH>                       H = social status

6 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

TEI

● Text Encoding Initiative

● Modern textkodningsstandard

● Syfte: att ange en standard för uppmärkning av

texter, så att alla följer samma riktlinjer

● Har tillhandahållit SGML – Standard Generalised

Markup Language (underkategorier: XML, HTML)

7 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

TEI – format (1)

● Överst i dokumentet: header med information om

författare, titel, datum etc.

● Exempel ur SUC:

<titleStmt> <title level=a>Smygrustning av raketvapen</title> <title level=j>Dagens Nyheter</title> <author>Mats Lundegård</author></titleStmt>

8 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

TEI – format (2)● Varje element (ord, meningar, stycken etc.) omges av en

starttagg (< >) och en sluttagg (</ >). Exempel ur SUC:

<p><s id=aa01a­009><w n=91>Hur<ana><ps>HA<b>hur</w><w n=92>är<ana><ps>VB<m>PRS AKT<b>vara</w><w n=93>det<ana><ps>PN<m>NEU SIN DEF SUB/OBJ<b>det</w><w n=94>då<ana><ps>AB<b>då</w><w n=95>i<ana><ps>PP<b>i</w><name type=place><w n=96>Mellanöstern<ana><ps>PM<m>NOM<b>Mellanöstern</w></name><d n=97>?<ana><ps>MAD<b>?</d></s></p>

9 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning

10 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning● All text som lagras i en dator har en viss

teckenkodning

● Teckenkodning handlar om hur tecknen (bokstäver,

siffror, mellanslag, interpunktioner etc.)

representeras i datorn, dvs att översätta mänskliga

tecken till datorspråk

● Varje tecken får en unik kod, som motsvarar tecknet

(i en teckentabell)

● Olika språk kräver olika teckenuppsättningar,

beroende på vilket alfabet som används

11 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Bits och bytes

• Vad är en byte?

– den minsta informationsbärande enheten i en dator

– en byte består av 8 bit

– varje bit kan ha värdet 0 eller 1, vilket ger

sammanlagt 256 olika kombinationsmöjligheter i

en byte

– varje tecken (bokstav, interpunktion etc) brukar

lagras i en byte

– 256 olika tecken räcker inte till för att lagra alla

tecken som finns i alla möjliga språk

12 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning för olika språk

• olika språk har olika teckenkodningssystem

• om en dator är inställd på en viss teckenkodning, och

tar emot en text som är skriven med en annan

teckenkodning, så ser texten konstig ut

• vissa tecken är svårare än andra för datorn att visa upp

korrekt

• för svenska är å, ä och ö extra besvärliga

• hänger samman med att de bokstäver som är

gemensamma för många språk ofta lagras på samma

sätt i de olika teckenkodningarna

13 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning för språkspecifika tecken● För att undvika problem med tecken som man vet kan vara

svårtolkade, kan man skriva just dessa tecken som entiteter

istället för som vanliga bokstäver

● I TEI-format skrivs entiteter inom & och ;

● båt skrivs som b&aring;t

● bär skrivs som b&auml;r

● snö skrivs som sn&ouml;

● Så gör man ofta i html-kod, när man skapar hemsidor

● Webbläsaren tolkar html-koden, så att &aring; i koden ser ut

som å när det visas på skärmen

14 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning

● Viktigt att tänka på vilken teckenkodning man

använder, när man ska överföra texter mellan olika

datorer och olika språk

● Om man vill att ens korpus ska vara lättillgänglig för

andra, bör man följa en standard för

teckenkodningen

● Finns det någon standard? Ja, flera...

● IANA – Internet Assigned Numbers Authority

15 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

ASCII-kodning

● ASCII - American Standard Code for Information

Interchange

● Utvecklat 1968

● 1 byte per tecken

● 7 bit för teckenkodningen (128 möjliga tecken) + en

”paritetsbit” för att kontrollera teckenöverföringen

● Kontrolltecken för speciella funktioner (backspace, tab,

new line)

16 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

ASCII-kodning

17 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem med ASCII-kodning?

● ASCII är utvecklat för engelska

● Hanterar inte språk med annat alfabet, t.ex. ryska,

kinesiska eller arabiska – dessa tecken saknas helt i

ASCII-tabellen!

● Hanterar inte språk med samma alfabet, men med

vissa avvikande tecken, t.ex. å, ä, ö, é, ü

18 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Hur gör man med andra språk än engelska?

1)Använd ASCII ändå och ge avvikande tecken

specialkoder (entitetsbeteckningar): &auml; istf ä

2) Utöka den ursprungliga ASCII-tabellen med fler

tecken = språkberoende teckenkodningstabeller

19 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Språkberoende teckenkodning

Utvecklat av Internationella StandardiseringsOrganisationen (ISO)

ISO 8859­1 (Latin 1) Västeuropeiska språkISO 8859­2 (Latin 2) Östeuropeiska språk med det latinska alfabetetISO 8859­3 (Latin 3) Sydeuropeiska språkISO 8859­4 (Latin 4) Nordeuropeiska språkISO 8859­5 Östeuropeiska språk med det kyrilliska alfabetetISO 8859­6 ArabiskaISO 8859­7 Modern grekiskaISO 8859­8 HebreiskaISO 8859­9  (Latin 5) TurkiskaISO 8859­10 (Latin 6) Nordeuropeiska språk, inkl. grönländska

och samiska

20 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Olika språk i samma korpus

• Parallellkorpusar innehåller texter på två

eller flera olika språk

• Om korpusen innehåller språk med olika

alfabet, t.ex. svenska och turkiska, kan man

inte använda ASCII-kodning, eftersom det

inte finns någon ASCII-kodning som

hanterar både svenska och turkiska tecken

21 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Teckenkodning: Unicode

● En enda teckenkodning för alla (levande och döda) språk

● Plats för mer än en miljon tecken i samma tabell

● Kräver mer än 1 byte i lagringsutrymme:

UTF-8 1 byte/tecken för ASCII,

2-4 bytes för övriga tecken

UTF-16 2 bytes/tecken för vanligaste tecknen,

4 bytes för övriga tecken

UTF-32 4 bytes/tecken

UTF = Unicode Transformation Format

22 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textnormalisering

23 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textnormalisering● Att ge texten ett enhetligt format, t.ex. inför annotering

(uppmärkning av ordklass etc):

● Program som automatiskt annoterar en text, kräver att

formatet på texten ser ut på ett visst sätt, t.ex. att varje

mening eller varje ord står på en egen rad

– Meningssegmentering

• att dela upp en text i de ingående meningarna, t.ex. en

mening per rad

– Tokenisering

• att dela upp en text i de ingående orden, t.ex. ett ord per rad

24 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Meningssegmentering

• Att dela upp en text i de ingående meningarna, en

mening per rad

• Man vill helst inte manuellt behöva göra detta

• Det finns datorprogram som automatiskt gör detta

• Oftast ganska lätt att få datorn att lära sig var en

mening slutar och nästa börjar

• Ledtrådar som datorn utnyttjar:

– skiljetecken

– inledande versal

25 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Det var en gång en liten flicka; flickan kallades Rödluvan. Rödluvan var mycket söt; sötare än en karamell.

En dag träffade Rödluvan en varg. Vad söt du är! sa vargen. Rödluvan gick genom skogen och såg många vackra växter, t. ex. smörblommor och midsommarblomster.

Hon mötte också många snälla kamrater, t. ex. Hans och Greta.

Meningssegmentering

26 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid automatisk meningssegmentering

• Vissa tecken fungerar ibland meningsavskiljande och

ibland inte, t.ex:

– kolon

Orsaken till trafikkaoset var uppenbar: Det snöade hela

natten.

De inblandade personerna var: Pelle, Lisa och Eva.

– punkter

Syftet är att minska samhällets utgifter för färdtjänst.

Syftet är att minska samhällets utgifter för t. ex. färdtjänst.

27 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Tokenisering

• Att dela upp en text i ingående tokens, dvs ord, ett

ord per rad

• Det finns datorprogram som automatiskt gör detta

• Hur definierar man ett ord så att datorn förstår?

28 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Tokenisering

● Vad räknas som ett ord?

• Enkel strategi: mellanslag utgör ordavgränsare

• Kučera & Francis (1967) definition av ett ord:

”a string of contiguous alphanumeric characters

with space on either side; may include hyphens and

apostrophes, but no other punctutation marks”

• Även skiljetecken, sifferuttryck o dyl räknas som

egna ord i tokeniseringen

29 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

EU:s huvudkontor ligger i Belgien. Plats: Bryssel.

Där diskuteras många viktiga frågor, t. ex. om man ska få sälja snus i Sverige.

I New York kan man inte köpa snus. Det kan man dock i Malmö, Ystad, Borås etc. 

Tokenisering

30 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid tokenisering

• Skiljetecken föregås inte av mellanslag, men ska

ändå tokeniseras som egna ord

• Vissa skiljetecken utgör ibland egna ord men är

ibland del av ett ord, t.ex kolon

EU:s lagar och regler

Pris: 1 600 kronor

31 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid tokenisering: Punkter

● Punkter fungerar oftast som meningsavslut:

Syftet är att minska samhällets utgifter för färdtjänst.

● Utgör ibland del av en förkortning och ska då inte

utgöra egna ord: t. ex.

● Kan utgöra både förkortningspunkt och

meningsavslutningspunkt på samma gång:

Syftet är att minska samhällets utgifter för färdtjänst,

sjukresor etc.

32 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid tokenisering: Apostrofer

● Kan fungera som citationstecken eller som del av

ordet:

’the boys’

the boys’ toys

● Är isn’t att betrakta som ett eller två ord?

33 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Problem vid tokenisering: mellanslag

• Mellanslag utgör inte alltid ordavgränsare:

särskrivna sammansättningar insurance company

egennamn New York

fraser i dag

sifferuttryck 10 000

34 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Annotering

35 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Korpusannotering/taggning● Att märka upp korpusen med lingvistisk information, t.ex:

– Ordklass (part-of-speech)

– Böjningsinformation (morfo-syntaktisk information)

– Lemma (grundform, d.v.s. uppslagsord i lexikon)

– Syntax

– Fonetik (uttal) - transkription

– Semantik

● Annoteringen kan göras för hand eller automatiskt

● Ett annat ord för annotering är taggning

● Den uppmärkning ett ord har tilldelats kallas för en tagg

36 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Ordklasstaggning

● Vad menas med ordklasstaggning?

– ”ren” ordklasstaggning: substantiv, adjektiv, verb etc.

– morfosyntaktisk information: genus, numerus, person etc.

● Vad avgör graden av specificitet i taggarna?

– Syftet med taggningen

– Språkets uppbyggnad

(rik morfologi = rik tagguppsättning)

37 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Tagguppsättningar

– Tagguppsättningarnas storlek varierar mellan 40 och

200 olika taggar

– Syftet med taggningen avgör tagguppsättning

– Exempel på tagguppsättningar för engelska:

• Brown-korpusens tagguppsättning (87 st)

• Penn Treebanks tagguppsättning (45 st)

– Vanligaste tagguppsättningen för svenska:

• Parole (153 st)

38 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Mer om tagguppsättningar

Ju rikare morfologi ett språk har, desto större tagguppsättning krävs normalt. Jmf svenskans Parole­taggar och engelskans Penn Treebank­taggar:

en DI@US@S determinerare: utr, sing, indeflätt AQPUSNIS adjektiv: pos, utr, sing, nom, indefuppgift NCUSN@IS   substantiv: utr, sing, nom, indef

an DT determinerareeasy JJ adjektivtask NN substantiv: sing

39 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Taggningens delsteg

Tokenisering

Morfologisk analys

Morfologisk disambiguering

  Läraren  var  i alla fall  snäll

  Läraren  var  i alla fall  snäll     subst   subst/verb/adv/pron adv   adj      

   Läraren   var      i alla fall      snäll           subst      verb            adv adj  

40 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Hur fungerar automatisk taggning?

• Man utgår från en manuellt taggad text, t.ex. SUC

• Man låter ett datorprogram titta på taggarna, och

bygga ett lexikon med sannolikheter, t.ex:

– får 80% av gångerna verb

20% av gångerna substantiv

• Datorprogrammet tittar också på kontexten, t.ex:

– får alltid substantiv om det föregås av en artikel

oftast verb om det föregås av ett substantiv

• När datorprogrammet ser nya texter, så utgår det ifrån

vad det har lärt sig i sitt lexikon

41 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Vad gör taggaren med ord som saknas i lexikonet?

Okända ord - möjliga strategier:– Versalinledda ord är egennamn, övriga okända ord är

substantiv– Ordet tillhör någon av de öppna ordklasserna, med den

sannolikhet som gäller för korpusen i övrigt– Taggdistributionen för ord som bara förekommer en

enda gång i korpusen– Böjnings- och avledningsändelser

Flertydighet– Kontexten avgör vilken tagg som ska väljas

42 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Vanliga fel som en taggare gör

• Adjektiv taggas som adverb eller tvärtom

Pelle fick snabbtadverb/adjektiv

svar från Lisa

• Preposition taggas som partikel eller tvärtom

Pelle slog påpreposition/partikel

TV:n

• Verb i perfekt taggas som perfekt particip eller

tvärtom

Pelle har lagatverb i perfekt

huset

Pelle har ett lagatperfekt particip

hus

43 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Välkända taggare

• Brill-taggaren (Brill, 1995)

– Vill ha en mening per rad

– Vill ha mellanslag även mellan skiljetecken och

ord

• TnT-taggaren (Brants, 2000)

– Vill ha ett ord per rad

– Tom rad markerar meningsgräns

– Fungerar bäst i test för svenska (Megyesi, 2001):

93, 55% korrekta taggar

44 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Annoteringsprinciper (Leech 1993)

• En annoterad korpus ska kunna återställas till sin oannoterade form

• Annoteringen ska gå att extrahera från texten för att sparas separat

• Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren

• Det ska klargöras hur och av vem annotationen gjordes

• Slutanvändaren ska informeras om att annoteringen inte är ”God's truth”

utan endast ett användbart verktyg

• Annoteringsscheman ska baseras på accepterade och teori-neutrala principer

• Inget annoteringsschema är en standard på förhand. Standarder växer fram.

45 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

SUC

● SUC = Stockholm Umeå Corpus

● Ca 1 miljon löpord

● Manuellt taggad

● Hög grad av specificitet:

– 23 ordklasser

– 11 morfosyntaktiska särdrag

– 9 typer av ”named entities” (person, djur, myt, ställe,

institution, produkt, arbete, händelse, annat)

46 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Morfosyntaktiska särdrag i SUC

● Genus (utrum, neutrum, maskulinum)● Numerus● Bestämdhet● Kasus (nominativ, genitiv)● Tempus● Diates (aktiv, s-form)● Modus (konjunktiv)● Participform● Komparationsgrad● Pronomenkasus (subjekt, objekt)

47 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

<name type=person><w n=146>Don<ana><ps>PM<m>NOM<b>Don</w><w n=147>Kerr<ana><ps>PM<m>NOM<b>Kerr</w></name><w n=148>är<ana><ps>VB<m>PRS AKT<b>vara</w><w n=149>Mellanösternspecialist<ana><ps>NN<m>UTR SIN IND NOM<b>mellanösternspecialist</w><w n=150>på<ana><ps>PP<b>på</w><name type=inst><w n=151>The<ana><ps>PM<m>NOM<b>The</w><w n=152>International<ana><ps>PM<m>NOM<b>International</w><w n=153>Institute<ana><ps>PM<m>NOM<b>Institute</w><w n=154>for<ana><ps>PM<m>NOM<b>for</w><w n=155>Strategic<ana><ps>PM<m>NOM<b>Strategic</w><w n=156>Studies<ana><ps>PM<m>NOM<b>Studies</w></name><w n=157>i<ana><ps>PP<b>i</w><name type=place><w n=158>London<ana><ps>PM<m>NOM<b>London</w></name>

48 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

BNC

● BNC = British National Corpus● Ca 100 miljoner löpord talad och skriven brittisk

engelska● Automatiskt taggad utan mänsklig kontroll● 61 olika taggar● Ca 4,7% flervalstaggar● 2 miljoner ord stor delmängd rikare taggad och

manuellt efterredigerad – 139 olika taggar

49 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

BNC<w DT0>Each<w NN1>dance<w VVD­VVN>followed<w AJ0>particular<w NN2>rules<w VVD­VVN>laid<w AVP>down<w PRP>by<w AT0>the<w AJ0­NN1>dancing<w NN2>masters

50 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

EAGLE

● Expert Advisory Groups on Language Engineering

Standards ● Grupp inom EU som bland annat arbetar med att ta

fram en gemensam EU-standard för

korpusuppmärkning

51 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

EAGLE:s annoteringsrekommendationer

● Obligatoriska särdrag – de ”stora” ordklasserna:substantiv, verb, adjektiv, pronomen/determinerare, artikel, adverb,

adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion

● Rekommenderade särdrag, t.ex. för substantiv:– Numerus (singular/plural)

– Genus (maskulinum/femininum/neutrum)

– Kasus (nominativ/genitiv/dativ/ackusativ/vokativ)

– Typ (egennamn eller ej)

● Valfria särdrag– Språkoberoende, t.ex. räknebarhet för substantiv

– Språkberoende, t.ex. definithet för substantiv

52 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Lemmatisering

● Att byta ut alla ordformer i korpusen mot grundform

● Exempel på lemmatiserade korpusar:

– Susanne (engelska)

• Surface and Underlying Structural Analysis of Natural

English

• Delmängd av Brown-korpusen

• 130 000 löpord skriven amerikansk engelska

– SUC (svenska)

53 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Lemmatisering i SusanneN01:1660m ­ PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s]N01:1660n ­ VBDR were be [Vwb.Vwb]N01:1660p ­ AT1a a [Ns:e.N01:1660q ­ NN1c pairpair .N01:1660r ­ IO of of [Po.N01:1660s ­ VVNv lost lose [Np[Tn[Vn[VVNv&.N01:1660t ­ YC +, ­ .N01:1670a ­ VVNv whipped whip [VVNv­.VVNv­]VVNv&]Vn]Tn]N01:1670b ­ NN2 kids kid .Np]Po]Ns:e]Fn:o]N01:1670c ­ YC +, ­ .N01:1670d ­ NP1s Morgan Morgan [Nns:s.Nns:s]N01:1670e ­ VVDv thought think [Vd.Vd]N01:1670f ­ CSA as as [Fa:t.N01:1670g ­ PPHS1m he he [Nas:s.Nas:s]N01:1670h ­ VVDi went go [Vd.Vd]N01:1670i ­ IIt to to [P:q.N01:1670j ­ NN1c bed bed .P:q]Fa:t]S]N01:1670k ­ YF +. ­ .O]

54 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Lemmatisering i SUC<s id=aa01a­013><w n=166>Han<ana><ps>PN<m>UTR SIN DEF SUB<b>han</w><w n=167>skrattar<ana><ps>VB<m>PRS AKT<b>skratta</w><w n=168>lite<ana><ps>AB<m>POS<b>lite</w><w n=169>åt<ana><ps>PP<b>åt</w><w n=170>den<ana><ps>DT<m>UTR SIN DEF<b>den</w><w n=171>avfärdande<ana><ps>PC<m>PRS UTR/NEU SIN/PLU IND/DEF NOM<b>avfärdande</w><w n=172>formuleringen<ana><ps>NN<m>UTR SIN DEF NOM<b>formulering</w><w n=173>och<ana><ps>KN<b>och</w><w n=174>fördjupar<ana><ps>VB<m>PRS AKT<b>fördjupa</w><w n=175>resonemanget<ana><ps>NN<m>NEU SIN DEF NOM<b>resonemang</w><d n=176>.<ana><ps>MAD<b>.</d></s>

55 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Syntaktisk annotering

● Syntaktisk (grammatisk) analys av korpusen

● Automatisk syntaktisk uppmärkning ger mycket

sämre resultat än t.ex. automatisk ordklasstaggning –

ofta mänsklig inblandning i parsningen

● Trädbanker = syntaktiskt uppmärkta korpusar

● Två huvudsakliga typer av syntaktisk uppmärkning:

– Frasstrukturer (nominalfraser, verbfraser etc.)

– Dependenser (subjekt, objekt etc.)

56 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Frasstrukturuppmärkning i Spoken English Corpus

[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_,[Fr[N who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N his_APP$ pool_NN1 [P on_II [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V has_VHZarrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1[P in_II [N Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V]._. S]

S    sentenceN    nominalfrasFR  relativsatsV    verbfrasJ    adjektivfrasP    prepositionsfras

57 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Dependensuppmärkning i Talbanken

<sentence id="24" user="" date="">  <word id="1" form="Dessutom" postag="ab" head="2" deprel="ADV"/>  <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="ROOT"/>  <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom"  head="2" deprel="SUB"/>  <word id="4" form="till" postag="pp" head="2" deprel="ADV"/>  <word id="5" form="18" postag="rg.nom" head="6" deprel="DET"/>  <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="PR"/>  <word id="7" form="." postag="mad" head="2" deprel="IP"/></sentence>

ADV   adverbiell modifierare PR    komplement till prepositionSUB   subjekt IP    interpunktionDET   determinerare

58 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Semantisk annotering

● Uppmärkning av semantiska relationer, såsom agent,

patient etc.

FrameNet: http://framenet.icsi.berkeley.edu/

● Uppmärkning av ordbetydelse, t.ex. hyponymi

– WordNet: http://wordnet.princeton.edu/

– Svenskt OrdNät: http://www.lingfil.uu.se/ling/swn.html

59 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Textlingvistisk annotering

● Diskurstaggar

London-Lund Corpus of Spoken English

– Ursäkter, sorry

– Hälsningar, hello

– Artighetsfraser, please

● Anaforisk annotering (pronomenreferens)

60 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Fonetisk annotering

● Transkribering

MARSEC – The Machine Readable Spoken English

Corpus

● Prosodi

London-Lund Corpus of Spoken English

● Ska man märka upp hostningar, skratt, tvekanden

etc?

61 Språk, datorer och textbehandlingFöreläsning 2,  15 oktober 2007

Eva Pettersson

Nästa gång

• Sökmotorer och korpussökning på Internet

• Nätresurser

top related