sissejuhatus informaatikasse keeletehnoloogia · 2013. 10. 10. · mõisted arvutilingvistika (al)...

Post on 21-Feb-2021

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Sissejuhatus informaatikasse

Keeletehnoloogia

Tiina Puolakainen

tiina.puolakainen@ut.ee

Mõisted

Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse ja informaatika piiriala

Keeletehnoloogia (KT) (language technology, natural language processing NLP) on arvutilingvistika praktiline pool, kasutab arvutilingvistikas väljatöötatud teooriaid rakenduste loomiseks ning ühtlasi loob vahendeid arvutilingvistika arenguks AL/KT - interdistsiplinaarne teadusala lingvistika ja informaatika vahepeal, mille eesmärgiks on keele automaattöötluseks vajalike keele kirjeldus-, analüüsi- ja sünteesimeetodite väljatöötamine ning arvutitel realiseerimine (http://www.cs.ut.ee/~koit/SAL/index.html)

Keeletehnoloogilised rakendused

– Õigekirjakontroll, grammatika kontroll

– Veebiotsing, teksti sisukokkuvõtja

– Grammatiline analüüs

– Semantiline analüüs

– Keele genereerimine

– Kõnetuvastus

– Kõnesüntees

– Masintõlge

– Dialoogsüsteemid

Tehisintellekt http://www.cs.ut.ee/~koit/Tehisintellekt/index.html

P. Winston (1992): TI on arvutuste uurimine, mis teevad võimalikuks taibata, arutleda ja tegutseda. Eesmärkide seisukohast võib TI-i vaadata kui insenerlikku uurimissuunda ja kui teadust. TI insenerlik eesmärk on lahendada reaalse maailma probleeme, kasutades TI-i kui teadmiste esitamise, kasutamise ja süsteemse monteerimise ideede arsenali. TI teaduslik eesmärk on määrata, missugused teadmiste esitamise, kasutamise ja monteerimise ideed väljendavad intellekti erinevaid liike. Intellektitehnika on teaduslik uurimissuund, mis tegeleb mõtlemisprotsesside imiteerimisega arvutil. Miks seda vaja on? 1) inimese loomingulise tegevuse toetamine ja võimendamine (nt. teoreemide tõestamine, peamurdmisülesannete lahendamine, mängude mängimine - male, diagnostika - ekspertsüsteemid). 2) inimese asendamine rasketes või eluohtlikes tingimustes (intellektuaalsete robotite loomine).

Tehisintellektisüsteemid http://www.cs.ut.ee/~koit/Tehisintellekt/index.html

J.McCarthy, P. Heyes (1969): TI süsteem - masin, mida iseloomustavad järgmised tunnused: • 1) välismaailma mudeli olemasolu • 2) oskus vastata seda mudelit kasutades mitmesugustele

küsimustele • 3) oskus eesmärgipäraselt käituda muutuvas maailmas. D. Michie (1971) TI süsteem - • 1) maailma mudeli olemasolu • 2) oskus koostada plaane • 3) oskus analüüsida plaanides sisalduvaid alternatiivseid võimalusi • 4) plaanide muudetavus • 5) maailma mudeli muudetavus

Keeletehnoloogia infotehnoloogia kontekstis

Allikas: Eesti keel digiajastul The Estonian Language in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf

Keeletöötluse arhitektuur

Keeleline kontroll

Veebiotsing

Kõnepõhine dialoog

Loomuliku keele mõistmine

• Jaotus sõnedeks, lauseteks, osalauseteks

• Morfoloogiline analüüs

• Morfoloogiline ühestamine

• Pindsüntaktiline analüüs

• Süvasüntaktiline analüüs

• Semantiline analüüs

• Pragmaatiline analüüs

• Diskursuse analüüs

Morfoloogiline analüüs

See asesõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav mind asesõna isik. ainsuse osastav ära verbi eitusvormi osa määrsõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav .

Morfoloogiline ühestamine

See asesõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav mind asesõna isik. ainsuse osastav ära verbi eitusvormi osa määrsõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav .

Pindsüntaktiline analüüs

See eestäiend

viis subjekt e alus

mind objekt e sihitis

ära afiksaaladverb

viis öeldis

.

Süvasüntaktiline analüüs

viis

viis mind ära

See .

Semantiline analüüs

See viis meloodia moodus mind ära viis. vs See viis meloodia moodus oli mõistlik.

Pragmaatiline, diskursuse analüüs

- See viis mind ära viis…

- Kas sulle meeldis see viimane laul?

vs

- See viis mind ära viis…

- Kas sa viisid dokumendid ära?

Masintõlge

Arvutilingvistika ja keeletehnoloogia Eestis

TÜ keeletehnoloogia uurimisrühm

http://www.cs.ut.ee/~koit/KT/

TÜ arvutilingvistika uurimisrühm www.cl.ut.ee

TTÜ foneetika ja kõnetehnoloogia labor (kõnetuvastus) http://www.phon.ioc.ee

Eesti Keele Instituudi keeleteaduse ja –tehnoloogia osakond www.eki.ee

Riiklik programm ‘Eesti keeletehnoloogia’ www.keeletehnoloogia.ee

TÜ KT rühma uurimisvaldkonnad http://www.cs.ut.ee/~koit/KT/teadustoo.html

• Eesti keele korpused: Internetikeele korpuste kogumise programmid, paralleelkorpused ja nende adekvaatsuse automaatne kontroll http://www.cl.ut.ee/korpused/

• Arvutisüntaks: eestikeelsete lausete sõltuvusstruktuuri tuvastav süntaksianalüsaator http://lepo.it.da.ut.ee/~kaili/Syntax/

• Arvutisemantika: Wordnet, Framenet, sõnatähenduste ühestamine, lausete tähenduse tuvastamine http://www.cl.ut.ee/ressursid/teksaurus/

• Pragmaatika ja keelekasutus - dialoogi modelleerimine http://www.dialoogid.ee/

• Statistiline masintõlge http://masintolge.ut.ee/

Keeleressursid

• Keeleressursid: digitaalsed keelevarad, korpused, andmestikud, teadmusbaasid – Tekstikorpused – Kõnekorpused – Paralleelkorpused – Leksikaalsed ressursid – Grammatikad

www.cl.ut.ee – korpused ja Eesti WordNet www.keeleveeb.ee – paljude ressursside ühispäring www.eki.ee – Eesti keele instituudi sõnastikud

Leksikaal-semantiline andmebaas WordNET (http://www.cl.ut.ee/ressursid/teksaurus/)

Ühte mõistet väljendavad sünonüümsed sõnad (ja sõnaühendid) moodustavad sünohulga. Näiteks: • nimisõnaline mõiste: pang, ämber; • tegusõnaline: õhutama, agiteerima, kihutama, ässitama, kehutama; • omadussõnaline: rõõmsameelne, rõõmus, rõõmsatujuline,

päikseline Mõistetevahelised semantilised suhted: • hierarhilised suhted • osa-terviku suhted • rollisuhted • põhjussuhted jm Seotud inglise keelega (ILI, InterLingualIndex)

Eesti keele süntaks http://lepo.it.da.ut.ee/~kaili/Syntax/puudepank.html

Sõnaliikide määramine

• They can fish.

• Time flies like an arrow.

• . . .

• Otsi vead üles!

• Keel on võimas realiteet

• Jälgi koolimatemaatika arenguteel

Käändemitmesused

• maailma-OMAST juhtivad majandusriigid

• maailma-OSAST juhtivad majandusriigid

• maailma-SISSE juhtivad majandusriigid

Süntaksianalüüs

Määrused või määruslikud täiendid: • Ta võttis praeahjust panni AGA Ta võttis vasest ahjuroobi • Mees sai siiski pidada ühendust mobiiltelefoniga (@ADVL

@NN> @<NN) Kosovos sõdivate poegadega. (kes/mis?) Omastavas käändes sihitis või eestäiend • Ta asetas mantli (@OBJ @NN>) tooli (@OBJ @NN>)

seljatoele (mantli tool ja asetas tooli vs tooli seljatugi) Alus ja sihitis • Eesti rahuvalvajad vahetasid Bosnias välja lätlased. (kes?) Alus ja määrus • See kord ilmus, kord kadus. (vahetevahel vs eeskiri)

Eesti keeletehnoloogia rakendusi

• Õigekirjakorrektor ehk speller – http://www.filosoft.ee • Targem otsing sõnavormituvastaja abiga –

http://www.cl.ut.ee • Referent ehk sisukokkuvõtete tegija

http://math.ut.ee/~kaili/estsum/estsumframe.cgi • Suhtlusagent ehk dialoogisüsteem – www.dialoogid.ee

(kinoagent, hambahaldjas) • Eesti-inglise masintõlke demo – http://masintolge.ut.ee/ • EKI kõnesüntesaatorid – http://kiisu.eki.ee • KübI kõnetuvastajad – http://bark.phon.ioc.ee/webtrans/

Dialoogsüsteemid http://www.keeletehnoloogia.ee/konverentsid/ekt-esimene-

konverents/EKT5-koit2012.pdf Dialoogsüsteemiks nimetatakse programmi, mis suhtleb kasutajaga loomulikus keeles. Dialoogistrateegia – suhtluseesmärgi saavutamise viis (algoritm) kummalgi osalejal. On loodud asünkroonsete dialoogsüsteemide raamistik – modulaarne tarkvara, mis võimaldab luua Internetis erinevatele ainevaldkondadele häälestatud dialoogsüsteeme, millega kasutaja saab suhelda eesti keeles. Töömahukaim osa iga konkreetse dialoogsüsteemi loomisel selle raamistiku abil on ainevaldkonna-spetsiifilise teadmusbaasi sisustamine. Teadmusbaas kui regulaaravaldiste kogum, kus iga regulaaravaldis sisaldab selle ainevaldkonna võtmesõnu või fraase. Teadmuse automaatne ekstraheerimine - • teadmusbaas koosneb regulaaravaldistest, • väljatöötatav meetod ei sõltu ainevaldkonnast.

Sisend: küsimuste-vastuste komplektid, mis koguti Internetist KKK rubriikidest. Meetod: – sisendile rakendatakse eesti keele morfoloogilist ühestajat küsimuse ja vastuse sõnavormide lemmatiseerimiseks ning lemmade ühisosa leidmiseks. – seejärel kasutatakse eesti wordnet’i ontoloogia versiooni, et suurendada võimalike võtmesõnade hulka: pärast esialgsete võtmesõnade leidmist tehakse päring andmebaasi, leidmaks kõigile seni leitud märksõnadele ka sünonüümid ja hüperonüümid.

Masintõlge http://www.cs.ut.ee/~roosmaa/MTL1.html

1952 - USA Georgetown'i ülikoolis käivitati masintõlke projekt füüsika alaste tekstide tõlkimiseks vene keelest inglise keelde. Süsteem sai valmis 1964 ja oli töös kuni 1979. aastani 1969 -Montreali ülikooli süsteem TAUM-METEO (Traduction Automatique Universitie de Montreal) ilmateadete automaatseks tõlkimiseks, alates 1977. aastast tõlkis keskmiselt 15 miljonit sõna (ilmateateid)) inglise keelest prantsuse keelde 1970 - Käivitus SYSTRAN süsteem, mida kasutati veel kaheksakümnendatel aastatel venekeelse informatsiooni tõlkimiseks inglise keelde. 1987 - 12 keeltepaari, tõlkekiirus on 500 000 sõna tunnis või 26 lehekülge minutis, http://www.systransoft.com 1990-ndad - personaalsed masintõlkesüsteemid (TRADOS IBM Translation Manager, jt). mis katavad enamuse suurematest keeltest (inglise saksa, prantsuse portugali, itaalia, hollandi, taani, hispaania, jaapani, vene jt.) 1972 - Saabruckeni ülikooli tõlkesüsteem SUSY. Keeltepaarid: saksa keelest - vene keelde; prantsuse keelest - saksa keelde; inglise keelest - saksa keelde. Tööd käisid järgmiste keeltepaaridega: esperanto keelest - saksa keelde; taani keelest saksa keelde; hollandi keelest - saksa keelde; saksa keelest - inglise ja prantsuse keelde 1991 - PROMT, http://www.promt.ru/, http://www.online-translator.com

Masintõlge http://www.cs.ut.ee/~roosmaa/MTL1.html

• Reeglipõhine (systran, promt, gramtrans.com): morfoloogiline analüüs -> süntaktiline analüüs -> interlingua (vahevorm, mille abil viiakse teadmus üle teisele keelele) -> süntaktiline süntees -> morfoloogiline süntees

• Statistiline (google, bing) - programm õpib tõlkima kasutades etteantud paralleelkorpusi ja statistilisi meetodeid, väga mahukad mudelid, vajab suuri korpusi treenimiseks, tõlke kvaliteet sõltub korpuste kvaliteedist – Tõlkemudel – saab sisendiks lähtekeelse lause f ja genereeritud sihtkeelse lause e, väljastab tõlke f -> e tõenäosuse – Keelemudel - väljastab antud sihtkeelse lause e tõenäosuse keelelise korrektsuse seisukohalt f - lähtekeele lause – e - sihtkeele lause – p(e) – keelemudel – p(f | e) – tõlkemudel – ê = argmax p(e) p(f | e) – Dekooder leiab suurima tõenäosusega tõlke f

Masintõlge

Masintolge.ut.ee

Kõnetehnoloogia http://phon.ioc.ee/dokuwiki/

• Kõnetuvastus on tehnoloogia, mille abil leitakse automaatselt sõnad ja laused, mis kõige paremini vastavad sisendiks olevale inimkõnele. Võimalikud rakendused: dikteerimine või tuvastatud sõnade põhjal käskluste edastamine seadmetele, kõne semantiline analüüs automaatses dialoogisüsteemis.

• Kõnetuvastusteadus on interdistsiplinaarne valdkond, kus kasutatakse meetodeid arvutiteadusest, signaalitöötlusest, matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“ suurte kõne- ja tekstikogumite põhjal ning kasutatavad algoritmid on keelest sõltumatud.

Kõnetehnoloogia http://phon.ioc.ee/dokuwiki/

Kõnetehnoloogia rakendusi

Tegeldakse Eesti keele instituudis (kõnesüntees) ja TTÜ Küberneetika instituudis (kõnetuvastus ja kõnesüntees)

Veebipõhine kõnetuvastus (kõnesalvestuste transkribeerimine): http://bark.phon.ioc.ee/webtrans/

Reaalajalise kõnetuvastuse veebiteenus: http://bark.phon.ioc.ee/speech-api/v1

https://play.google.com/store/apps/details?id=ee.ioc.phon.android.speak

Rakendused Androidile „Kõnele“ – kõikides Androidi rakendustes, „Arvuta“ ja „Diktofon“, otsing kontaktidest (Teaduste Akadeemia Emakeele Selts ja Haridus- ja Teadusministeeriumi 2011. aasta konkursi parim keeletegu):

http://www.postimees.ee/607184/telefon-paneb-eestikeelse-jutu-ule-ootuste-hasti-kirja

Kõnesüntees (EKI) http://kiisu.eki.ee/

Kõnetuvastus (Küberneetika instituut) http://bark.phon.ioc.ee/tsab/p/play?trans=3721

Maailmas

• Statistiline masintõlge: – Google - Google Translate - http://translate.google.com – Microsoft – Bing Translator -

http://www.bing.com/translator/

• Reeglipõhine masintõlge – GrammarSoft ApS (Taani), and Kaldera Språkteknologi AS

(Norra) - http://gramtrans.com/ – PROMT http://www.promt.ru/ - http://www.online-

translator.com/

• Mobiilassistent (dialoogisüsteem): SIRI - http://www.apple.com/ios/siri/

• Kognitiivne süsteem IBM Watson - https://www-03.ibm.com/innovation/us/watson/science-behind_watson.shtml

SIRI http://www.sirifunny.com/

(CNN) -- She may be a disembodied robot, but Siri has a sense of humor.

Maailmas: IBM Watson http://www.youtube.com/watch?v=DywO4zksfXw&rel=0

SMART MACHINES: IBM’S WATSON AND THE ERA OF COGNITIVE COMPUTING

Cognitive systems - the goal of creating machines that sense, learn, reason and interact with people in new ways.

IBM Watson ja Jeopardy Küsimuste-vastuste telemäng Jeopardy („deep QA“) – nõuab väga kiiret vastust;

võimet eristada sõnade eri tähendusi, riimi ning võtta arvesse kaudseid vihjeid; võimet töödelda tohutut hulka informatsiooni, luues keerulisi loogilisi seoseid: • Category ‘Alternate meanings’ • Q: 4-letter word for a vantage point or a belief • A: What is ‘view’ IBM Watson: • 90 serverit • 2,880 protsessorit • 16 terabaiti RAM • al 2006 – 6 miljardit USD aastas Nõuab: loomuliku keele töötlust, Hüpoteeside püstitamist ja nende hindamist Iseõppimise tehnikaid

top related