eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja

21
Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja võimalusi automaatseks märgendamiseks Evely Vutt

Upload: arvin

Post on 13-Jan-2016

51 views

Category:

Documents


0 download

DESCRIPTION

Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja võimalusi automaatseks märgendamiseks. Evely Vutt. Märgendamisjuhend. kirjeldab süsteemi eesmärki kirjeldab valdkonda, milles seda süsteemi kasutatakse annab juhtnöörid ning näited dialoogiaktide märgendamiseks. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus

ja võimalusi automaatseks märgendamiseks

Evely Vutt

Page 2: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Märgendamisjuhend

kirjeldab süsteemi eesmärki

kirjeldab valdkonda, milles seda süsteemi kasutatakse

annab juhtnöörid ning näited dialoogiaktide märgendamiseks

Page 3: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Märgendamisjuhendi usaldusväärsust mõõdetakse κ – väärtusega, mille arvutamiseks kasutatakse järgnevat valemit:

)(1

)()(

EP

EPAP

P(A) - tõenäosus kordadest, kui märgendajad määravad akti ühtemoodi

P(E) - tõenäosus kordadest, kui märgendajad määravad juhuslikult akti ühtemoodi

Page 4: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

P(E) arvutamiseks kasutatakse järgnevat valemit:

n

iipEP

1

2)(

pi on märgendite esinemise tõenäosus andmetes (arvutatakse iga dialoogiakti jaoks eraldi välja)

Page 5: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

pi arvutamiseks kasutatakse järgnevat valemit:

cnN

np i

i

ni on ühtemoodi märgendatud aktide arvN on ühikute arv korpusescn on märgendajate arv

Page 6: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Märgendamisjuhendi κ – väärtuse muutumine:november 2001 0,4600831

detsember 2001 0,5348573

veebruar 2002 0,5778555

MAPTASK (inglise) = 0,83

VERBMOBIL (saksa) = 0,84

SWBD-DAMSL (USA) 0,8<<0,84

Page 7: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Projekti eesmärk - rajada dialoogsüsteem, mis annaks infot kohaliku transpordi sõiduplaanide kohta.

Korpus, koosnes 53 dokumenteeritud suulise kõne dialoogist kliendi ja firma agendi vahel.

Korpus oli transkribeeritud ja käsitsi segmentideks jaotatud ja varustatud dialoogiaktidega.

Kokku oli 2241 eraldi lausungit ja 16 dialoogiakti nimetust.

Page 8: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Dialoogiakt Sagedus %

statement (avaldus) 527 23,5

acknowledgement (kättesaamisteade) 389 17,4

question (küsimus) 237 10,6

answer (vastus) 213 9,5

confirmation (kinnitus) 162 7,2

opening (avamine) 158 7,0

check (kontroll) 123 5,5

thanking (tänamine) 112 5,0

Page 9: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Dialoogiakt Sagedus %

repetition (kordamine) 107 4,8

ending (lõpetamine) 100 4,5

call_to_continue (jätkaja) 45 2,0

wait (oota) 23 1,0

correction (parandus) 19 0,8

completion (täitmine) 10 0,4

request_to_repeat (palve korrata) 10 0,4

sign (nt. oh dear.) 6 0,2

Page 10: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Kõne osade kategooriate võrdlemisel kasutatakse 5 tunnusjoont:

küsisõna olemasolu lausesküsimuse morfeem –kotinglikud vormideitavad vormidpööratud verbide vormid

Page 11: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Dialoogiaktide äratundmiseks lausungis leiduvate sõnade abil kasutati

•LVQ-klassifikatsiooni

•Ise-korraldavaid (organiseeruvaid) kaarte (SOM - self-organizing maps)

Page 12: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Ise-korraldavad kaardid (self-organizing maps SOM)

• mittejuhitava tehis-närvivõrgu mudel

•mudeli sisendandmed kirjeldatakse vektori kujul

•erinevus juhitavatest õppimismeetoditest ei vaja välist õpetajat õppimisfaasis

Page 13: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Sõna kaal w arvutatakse järgneva valemiga:

)/log( nNsagedusw

sagedus on sõna sagedus eraldiseisvas klassis

N on klasside arv

n klasside arv, milles sõna esineb

Page 14: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Sõnade tasku

•meetod kaalub lausungis esinevaid sõnu vastavalt nende tähtsusele iga dialoogiakti tüübi jaoks

• iga sõna on seotud vektoriga, mille pikkus on 16, omades väärtusena kaalumisi iga dialoogiakti klassiga

• lausungi vektor (pikkusega 16) saadakse korrutades sõnade vektoreid; dialoogiaktiks valitakse suurim väärtus lausungi vektorist

Page 15: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

LVQ

•iga sõna leksikonist seotakse juhusliku vektoriga pikkusega 90

•iga lausungit vaadeldakse kui ühte dokumenti

•lausungi vektorid moodustatakse liites kõik juhuslikud sõnade vektorid, mis esinevad lausung

•loodi kaks lausungi vektorite hulka: hulk 1 sisaldas sisu omavaid sõnu, hulk 2 kõiki sõnu

Page 16: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Tulemused

sõnade tasku

Dialoogiakt Täpsus%

statement (avaldus) 95,25

acknowledgement (kättesaamisteade) 83,24

question (küsimus) 24,61

answer (vastus) 2,52

confirmation (kinnitus) 0,00

opening (avamine) 76,97

Page 17: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

check (kontroll) 0,77

thanking (tänamine) 97,60

repetition (kordamine) 2,00

ending (lõpetamine) 94,86

call_to_continue (jätkaja) 0,00

wait (oota) 25,00

correction (parandus) 0,00

completion (?täitmine) 0,00

request_to_repeat (palve korrata) 50,00

sign (nt. oh dear.) 0,00

Keskmine 62,00

Page 18: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

Märgendatud Määratud Arv

opening ending 27

call_to_continue acknowledgement 35

correction statement 17

question statement 125

wait statement 16

repetition answer 15

repetition statement 55

confirmation statement 91

confirmation acknowledgement 68

check statement 104

Page 19: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

LVQ

Hulk 1 Hulk 2Dialoogiakt Täpsus % Täpsus %

statement (avaldus) 95,03 96,02

acknowledgement 91,89 94,62

(kättesaamisteade)

question (küsimus) 83,81 95,73

answer (vastus) 73,48 92,04

confirmation (kinnitus) 66,67 98,76

opening (avamine) 94,44 98,09

check (kontroll) 73,91 89,28

Page 20: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja

thanking (tänamine) 95,58 94,55

repetition (kordamine) 67,65 76,71

ending (lõpetamine) 100

call_to_continue (jätkaja) 33,33 93,75

wait (oota) 91,3 95,45

correction (parandus) 78,57 100

completion (täitmine) 0 16,67

request_to_repeat

(täitmine) 70 72,73

sign (nt. oh dear.) 0 0

Keskmine 86,55 94,23

Page 21: Eestikeelsete dialoogide  märgendamisjuhendi usaldusväärsus  ja