sõnajärjevigade automaatse tuvastamise probleeme
DESCRIPTION
Sõnajärjevigade automaatse tuvastamise probleeme. Erika Matsak , IV sügisseminar 2009. Sissejuhatus. Ettekanne on pühendatud õigete ja valede sõnajärjereeglite tuvastamisvõimalustele eesti õppijakeeles ning sellega seotud probleemidele. - PowerPoint PPT PresentationTRANSCRIPT
Sõnajärjevigade automaatse tuvastamise probleeme
Erika Matsak, IV sügisseminar 2009
Sissejuhatus
• Ettekanne on pühendatud õigete ja valede sõnajärjereeglite tuvastamisvõimalustele eesti õppijakeeles ning sellega seotud probleemidele.
• Töö on seotud riikliku programmi Eesti Keele Keeletehnoloogiline tugi (2006-2010) projektiga VAKO - Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamine (2008-2010).
• Uurimistulemusteni on jõutud tänu koostööle Helena Metslangi ning Vahur Rebasega
Sissejuhatus
Sõnajärg ja lause teatestruktuur 246 80
Tekstiloome 97 20
Ülearune sõna lauses 81 53
Interpunktuatsioonivead 79 67
Tähendusvarjundi viga 66
Mitteafiksaalne 43
Häälduspärane kirjaviis 42
Lauseliikmete ärajätmine 39
Kokku 5000 sõna, 365 lauset
EstCGParser 1.0a
Unixi-põhise kitsendustegrammatika morfosüntaktiline analüüs
Morfosüntaktilised probleemid
• Morfosüntaktiline tagasiside liiga detailne• Vaid osa märgenditest esitavad sõnajärje jaoks
olulist infot• Sõnajärje jaoks olulised märgendid esinevad
sõnajärje jaoks ebaoluliste märgendite vahel• Mõned ebaolulised märgendid on lubatud
oluliste märgendite vahel, mõned mitte
Lähenemisviis reeglite otsimiseks
• On moodustatud hulgad:– Sõnajärje määramiseks oluliste märgenditega– Mitteoluliste märgenditega– Mitteolulistega sõnadega (semantiline hulk, eelkõige
sõnad, mis ei ole verbilaiendi peasõnaks, või mis lausealguselisena sõnajärge ei mõjuta)
• On piiratud vaadeldud lausete hulka– Välja on jäetud laused nagu küsilaused, umbisikulise
tegumoega laused jne• Sõnajärge vaadeldakse kas osalause või lihtlause piires
Väljajätmiseks Lubatud välja jätta VajalikudMärgendid Loomuliku keele sõnaloetelud Märgendid
Täiendid ja muud Määrsõnad ADJ-fraasi või ADVL-fraasi laiendliikmed
@<AD adverb järeltäiendina ainult siiski päris @OBJ objekt@<AN adjektiiv
järeltäiendinaarvatavasti tõenäoliselt üsna @SUBJ subjekt
@<INF_N infinitiiv järeltäiendina
eks vaat väga @PRD predikatiiv
@<NN nimisõna järeltäiendina
ent veel hästi @+FMV predikaat
@<P eessõnafraasi põhi hoopis võib-olla täielikult @+FCV Liitvormis predikaadi või liitpredikaadi finiitne osa (olema liitaegades jm)
@<PN kaassõna järeltäiendina
jah kuigi mõneti @-FMV infiniitne predikaat
@<Q kvantori järellaiend ju arvates kõige @ADVL adverbiaal@<VN partitsiip
järeltäiendinajuba eelkõige igati all allatiiv
@AD> adverb eestäiendina just igatahes nii ad adessiiv@AN> adjektiiv
eestäiendinaka ilmselt peamiselt _S_ + kom nimisõna komitatiivis
@INF_N> infinitiiv eestäiendina
kas ilmtingimata enam @NEG verbi eitus
@NN> nimisõna eestäiendina
küll kahjuks liiga ps1 verb ainsuse ja mitmuse 1. isiku vormis
@P> tagasõnafraasi põhi küllap kasvõi tõsiselt ps3 sg verb ainsuse 3. isiku vormis@PN> kaassõna
eestäiendinalas kindlasti indic pres indikatiivi preesens
@J sidend loomulikult niisiis indic impf indikatiivi imperfektno samuti imper imperatiivometi seega ad adessiivpealegi tõepoolest _Z_ com,
_Z_ Fst_Z_Exc
koma, punkt, hüüumärk
siis vist
Lähenemisviis reeglite otsimiseks
• Õigete lausete analüüs õigete mallide eraldamiseks– Ilukirjandustekstid (Tartu Ülikooli eesti
kirjakeelekorpus)• Valede lausete analüüs valede mallide
eraldamiseks– EVKK korpuse tekstid, märgendatud vealiigiga 7.1
(sõnajärg ja lause teatestruktuur)
Reeglite otsimine • Uuritakse lauset,
lausesiselt vaadeldakse sõnu – Kontrollitakse, kas
analüüsitav sõna kuulub sõnajärjes ebaolukliste sõnade hulka
– kui nende seas sõna ei leita, otsitakse väljajäetavate märgendite hulgast
– seejärel kontrollitakse vajalike märgendite hulka
Ebaolulised sõnad
Ebaolulised märgendid
Olulised märgendid
Sõna_______________Morfosüntaktiline analüüs
Reeglite otsimine
• Iga sõnajärje jaoks oluline märgend kirjutatakse välja• Analüüs katkestatakse siis, kui uuritav sõna ja selle
märgend ei kuulunud eespool nimetatud hulkadesse (nt CLB on osalausepiiri märgend)
• Tulemuseks on järjestatud oluliste märgendite jada• Reeglite otsingu ettevalmistuse käigus läbiti mitmeid
iteratsioone – oluliste ja ebaoluliste märgendite väljaselgitamiseks ning
sõnade (semantilise) hulga täiendamiseks
Vealeidja prototüübi loomisest• Eesti keele morfosüntaktilist analüüsi saab
teostada EVKK Linuxi-põhises veebikeskonnas– tänu Kaili Müürisepale, kes lõi Linuxi jaoks
analüsaatori uue versiooni • Uute tehniliste lahenduste tõttu (erisümbolite töötlus) tuli
meil arvesse võtta mõningaid muutusi märgendites• Vahur Rebase teostatud EVKK tarkvaraarenduses
on kasutatud programmeerimiskeelt phython– Sõnajärjereeglite kontrollimiseks on korpusse
programmeeritud uued moodulid• Võimaldab kasutada analüsaatorit korpuskeskkonnas
(EVKKs)
Vealeidja prototüübi loomisest
• Prototüüp ei oma esialgu graafilist kasutajaliidest.
• Sisesendtekst paigutatakse faili, käivitatakse käsurealt ning vastu saadakse tekstifail
• Analüüsi lõpus annab programm statistilised andmed reeglite kasutussageduse kohta
Vealeidja prototüübi loomisest: näide
Vealeidja reeglistiku katvus kirjakeeles (681 lauset TÜ ilukirjanduskorpusest)
Vealeidja rakendus õppijakeele korpuses
• Detailsed tulemused on esitatud Eesti Rakenduslingvistika Ühingu aastaraamatusse konkureerivas artiklis
• Mõned väljavõtted:– Kasutati 242 sõnajärjereeglit, mis olid leitud
ilukirjandustekstide analüüsi alusel – Õppijakeele korpusest võeti juhumeetodil välja valim,
mis koosnes 4743 lausest– Populaarsemate reeglite osas olid nii kattuvusi kui
erinevusi
Vealeidja rakendamine EVKK-s
• Nii õppijakeele kui ilukirjanduskeele valimis on kõige sagedamini kasutatav reegel ['@SUBJ', '@FMV', '@ADVL'], mille osakaal on 13% (564 lauset).
• Teisel kohal on reegel ['@SUBJ', '@FMV', '@PRD'] osakaaluga 7% (324, Aga arvutite kasutamine on ka ohtlik), mida ilukirjanduskeeles oli 2%.
• Kolmandal kohal on reegel ['@ADVL', '@FMV', '@ADVL'] (5%, 238 lauset).
Õppijate eelistused sõnajärjereeglite kasutamisel
Valede reeglite otsing märgendatud tekstides
• Kui lauses oli esinenud märgend 7.1, siis analüüsiti selle märgendiga seotud osalause
• Valesid reegleid otsitakse sama põhimõtte alusel kui õigeid
• Suureks probleemiks on – muude vigade esinemine lauses (nt hääldupärane
kirjaviis, paronüümia, vale käändevormi kasutamine, sisestamisvead jne)
– analüsaatori mittesuutlikkus valesti kirjutatud sõnu analüüsida • ideaalis vajame teksti, kus esineks üks vealiik - sõnajärg ja
lause teatestruktuur
Valede reeglite otsing märgendatud tekstides
• Valede sõnajärjereeglite mustrid on suhteliselt väikse korduvusega, paljud on ühekordses kasutuses
• Mõned kooslused andsid õigete reeglite mustreid, kuna – kirjavea tõttu osutus sõna analüüs valeks – sõnavormile vastav analüüs andis ühestamata
vastuse
Valede reeglite otsing märgendatud tekstides
• Sagedasemad vead on seotud predikaadi vale positsiooniga:– @ADVL @SUBJ @FMV (nt Kõigi muinasaja jooksul
inimesed arvasid , et edu ja õnne sõltuvad surnute austamisest) 2%• @ADVL @SUBJ @FMV @OBJ 1%• @ADVL @SUBJ @FMV @PRD 1%
– @SUBJ @ADVL @FMV 1,3%
Kokkuvõte
• Sõnajärje uurimiseks on kasutatud eesti keele süntaksianalüsaatorit koos ühestajaga, mis võimaldab lauseid formaliseerida morfosüntaktiliste märgendite abil.
• Vigase sõnajärje automaatset tuvastamist on alustatud õigetest sõnajärjereeglitest.
• Vigase sõnajärje tuvastamiseks on EVKKs loodud eraldi moodul, mis võimaldab analüüsida õppijakeelt, s.h eesti õppijakeele sõnajärge.