![Page 2: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/2.jpg)
Mõisted
Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse ja informaatika piiriala
Keeletehnoloogia (KT) (language technology, natural language processing NLP) on arvutilingvistika praktiline pool, kasutab arvutilingvistikas väljatöötatud teooriaid rakenduste loomiseks ning ühtlasi loob vahendeid arvutilingvistika arenguks AL/KT - interdistsiplinaarne teadusala lingvistika ja informaatika vahepeal, mille eesmärgiks on keele automaattöötluseks vajalike keele kirjeldus-, analüüsi- ja sünteesimeetodite väljatöötamine ning arvutitel realiseerimine (http://www.cs.ut.ee/~koit/SAL/index.html)
![Page 3: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/3.jpg)
Keeletehnoloogilised rakendused
– Õigekirjakontroll, grammatika kontroll
– Veebiotsing, teksti sisukokkuvõtja
– Grammatiline analüüs
– Semantiline analüüs
– Keele genereerimine
– Kõnetuvastus
– Kõnesüntees
– Masintõlge
– Dialoogsüsteemid
![Page 4: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/4.jpg)
Tehisintellekt http://www.cs.ut.ee/~koit/Tehisintellekt/index.html
P. Winston (1992): TI on arvutuste uurimine, mis teevad võimalikuks taibata, arutleda ja tegutseda. Eesmärkide seisukohast võib TI-i vaadata kui insenerlikku uurimissuunda ja kui teadust. TI insenerlik eesmärk on lahendada reaalse maailma probleeme, kasutades TI-i kui teadmiste esitamise, kasutamise ja süsteemse monteerimise ideede arsenali. TI teaduslik eesmärk on määrata, missugused teadmiste esitamise, kasutamise ja monteerimise ideed väljendavad intellekti erinevaid liike. Intellektitehnika on teaduslik uurimissuund, mis tegeleb mõtlemisprotsesside imiteerimisega arvutil. Miks seda vaja on? 1) inimese loomingulise tegevuse toetamine ja võimendamine (nt. teoreemide tõestamine, peamurdmisülesannete lahendamine, mängude mängimine - male, diagnostika - ekspertsüsteemid). 2) inimese asendamine rasketes või eluohtlikes tingimustes (intellektuaalsete robotite loomine).
![Page 5: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/5.jpg)
Tehisintellektisüsteemid http://www.cs.ut.ee/~koit/Tehisintellekt/index.html
J.McCarthy, P. Heyes (1969): TI süsteem - masin, mida iseloomustavad järgmised tunnused: • 1) välismaailma mudeli olemasolu • 2) oskus vastata seda mudelit kasutades mitmesugustele
küsimustele • 3) oskus eesmärgipäraselt käituda muutuvas maailmas. D. Michie (1971) TI süsteem - • 1) maailma mudeli olemasolu • 2) oskus koostada plaane • 3) oskus analüüsida plaanides sisalduvaid alternatiivseid võimalusi • 4) plaanide muudetavus • 5) maailma mudeli muudetavus
![Page 6: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/6.jpg)
Keeletehnoloogia infotehnoloogia kontekstis
Allikas: Eesti keel digiajastul The Estonian Language in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf
![Page 7: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/7.jpg)
Keeletöötluse arhitektuur
![Page 8: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/8.jpg)
Keeleline kontroll
![Page 9: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/9.jpg)
Veebiotsing
![Page 10: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/10.jpg)
Kõnepõhine dialoog
![Page 11: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/11.jpg)
Loomuliku keele mõistmine
• Jaotus sõnedeks, lauseteks, osalauseteks
• Morfoloogiline analüüs
• Morfoloogiline ühestamine
• Pindsüntaktiline analüüs
• Süvasüntaktiline analüüs
• Semantiline analüüs
• Pragmaatiline analüüs
• Diskursuse analüüs
![Page 12: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/12.jpg)
Morfoloogiline analüüs
See asesõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav mind asesõna isik. ainsuse osastav ära verbi eitusvormi osa määrsõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav .
![Page 13: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/13.jpg)
Morfoloogiline ühestamine
See asesõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav mind asesõna isik. ainsuse osastav ära verbi eitusvormi osa määrsõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav .
![Page 14: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/14.jpg)
Pindsüntaktiline analüüs
See eestäiend
viis subjekt e alus
mind objekt e sihitis
ära afiksaaladverb
viis öeldis
.
![Page 15: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/15.jpg)
Süvasüntaktiline analüüs
viis
viis mind ära
See .
![Page 16: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/16.jpg)
Semantiline analüüs
See viis meloodia moodus mind ära viis. vs See viis meloodia moodus oli mõistlik.
![Page 17: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/17.jpg)
Pragmaatiline, diskursuse analüüs
- See viis mind ära viis…
- Kas sulle meeldis see viimane laul?
vs
- See viis mind ära viis…
- Kas sa viisid dokumendid ära?
![Page 18: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/18.jpg)
Masintõlge
![Page 19: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/19.jpg)
![Page 20: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/20.jpg)
Arvutilingvistika ja keeletehnoloogia Eestis
TÜ keeletehnoloogia uurimisrühm
http://www.cs.ut.ee/~koit/KT/
TÜ arvutilingvistika uurimisrühm www.cl.ut.ee
TTÜ foneetika ja kõnetehnoloogia labor (kõnetuvastus) http://www.phon.ioc.ee
Eesti Keele Instituudi keeleteaduse ja –tehnoloogia osakond www.eki.ee
Riiklik programm ‘Eesti keeletehnoloogia’ www.keeletehnoloogia.ee
![Page 21: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/21.jpg)
TÜ KT rühma uurimisvaldkonnad http://www.cs.ut.ee/~koit/KT/teadustoo.html
• Eesti keele korpused: Internetikeele korpuste kogumise programmid, paralleelkorpused ja nende adekvaatsuse automaatne kontroll http://www.cl.ut.ee/korpused/
• Arvutisüntaks: eestikeelsete lausete sõltuvusstruktuuri tuvastav süntaksianalüsaator http://lepo.it.da.ut.ee/~kaili/Syntax/
• Arvutisemantika: Wordnet, Framenet, sõnatähenduste ühestamine, lausete tähenduse tuvastamine http://www.cl.ut.ee/ressursid/teksaurus/
• Pragmaatika ja keelekasutus - dialoogi modelleerimine http://www.dialoogid.ee/
• Statistiline masintõlge http://masintolge.ut.ee/
![Page 22: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/22.jpg)
Keeleressursid
• Keeleressursid: digitaalsed keelevarad, korpused, andmestikud, teadmusbaasid – Tekstikorpused – Kõnekorpused – Paralleelkorpused – Leksikaalsed ressursid – Grammatikad
www.cl.ut.ee – korpused ja Eesti WordNet www.keeleveeb.ee – paljude ressursside ühispäring www.eki.ee – Eesti keele instituudi sõnastikud
![Page 23: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/23.jpg)
Leksikaal-semantiline andmebaas WordNET (http://www.cl.ut.ee/ressursid/teksaurus/)
Ühte mõistet väljendavad sünonüümsed sõnad (ja sõnaühendid) moodustavad sünohulga. Näiteks: • nimisõnaline mõiste: pang, ämber; • tegusõnaline: õhutama, agiteerima, kihutama, ässitama, kehutama; • omadussõnaline: rõõmsameelne, rõõmus, rõõmsatujuline,
päikseline Mõistetevahelised semantilised suhted: • hierarhilised suhted • osa-terviku suhted • rollisuhted • põhjussuhted jm Seotud inglise keelega (ILI, InterLingualIndex)
![Page 24: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/24.jpg)
WordNET (http://www.cl.ut.ee/ressursid/teksaurus/)
![Page 25: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/25.jpg)
Eesti keele süntaks http://lepo.it.da.ut.ee/~kaili/Syntax/puudepank.html
![Page 26: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/26.jpg)
Sõnaliikide määramine
• They can fish.
• Time flies like an arrow.
• . . .
• Otsi vead üles!
• Keel on võimas realiteet
• Jälgi koolimatemaatika arenguteel
![Page 27: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/27.jpg)
Käändemitmesused
• maailma-OMAST juhtivad majandusriigid
• maailma-OSAST juhtivad majandusriigid
• maailma-SISSE juhtivad majandusriigid
![Page 28: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/28.jpg)
Süntaksianalüüs
Määrused või määruslikud täiendid: • Ta võttis praeahjust panni AGA Ta võttis vasest ahjuroobi • Mees sai siiski pidada ühendust mobiiltelefoniga (@ADVL
@NN> @<NN) Kosovos sõdivate poegadega. (kes/mis?) Omastavas käändes sihitis või eestäiend • Ta asetas mantli (@OBJ @NN>) tooli (@OBJ @NN>)
seljatoele (mantli tool ja asetas tooli vs tooli seljatugi) Alus ja sihitis • Eesti rahuvalvajad vahetasid Bosnias välja lätlased. (kes?) Alus ja määrus • See kord ilmus, kord kadus. (vahetevahel vs eeskiri)
![Page 29: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/29.jpg)
Eesti keeletehnoloogia rakendusi
• Õigekirjakorrektor ehk speller – http://www.filosoft.ee • Targem otsing sõnavormituvastaja abiga –
http://www.cl.ut.ee • Referent ehk sisukokkuvõtete tegija
http://math.ut.ee/~kaili/estsum/estsumframe.cgi • Suhtlusagent ehk dialoogisüsteem – www.dialoogid.ee
(kinoagent, hambahaldjas) • Eesti-inglise masintõlke demo – http://masintolge.ut.ee/ • EKI kõnesüntesaatorid – http://kiisu.eki.ee • KübI kõnetuvastajad – http://bark.phon.ioc.ee/webtrans/
![Page 30: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/30.jpg)
Dialoogsüsteemid http://www.keeletehnoloogia.ee/konverentsid/ekt-esimene-
konverents/EKT5-koit2012.pdf Dialoogsüsteemiks nimetatakse programmi, mis suhtleb kasutajaga loomulikus keeles. Dialoogistrateegia – suhtluseesmärgi saavutamise viis (algoritm) kummalgi osalejal. On loodud asünkroonsete dialoogsüsteemide raamistik – modulaarne tarkvara, mis võimaldab luua Internetis erinevatele ainevaldkondadele häälestatud dialoogsüsteeme, millega kasutaja saab suhelda eesti keeles. Töömahukaim osa iga konkreetse dialoogsüsteemi loomisel selle raamistiku abil on ainevaldkonna-spetsiifilise teadmusbaasi sisustamine. Teadmusbaas kui regulaaravaldiste kogum, kus iga regulaaravaldis sisaldab selle ainevaldkonna võtmesõnu või fraase. Teadmuse automaatne ekstraheerimine - • teadmusbaas koosneb regulaaravaldistest, • väljatöötatav meetod ei sõltu ainevaldkonnast.
Sisend: küsimuste-vastuste komplektid, mis koguti Internetist KKK rubriikidest. Meetod: – sisendile rakendatakse eesti keele morfoloogilist ühestajat küsimuse ja vastuse sõnavormide lemmatiseerimiseks ning lemmade ühisosa leidmiseks. – seejärel kasutatakse eesti wordnet’i ontoloogia versiooni, et suurendada võimalike võtmesõnade hulka: pärast esialgsete võtmesõnade leidmist tehakse päring andmebaasi, leidmaks kõigile seni leitud märksõnadele ka sünonüümid ja hüperonüümid.
![Page 31: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/31.jpg)
![Page 32: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/32.jpg)
Masintõlge http://www.cs.ut.ee/~roosmaa/MTL1.html
1952 - USA Georgetown'i ülikoolis käivitati masintõlke projekt füüsika alaste tekstide tõlkimiseks vene keelest inglise keelde. Süsteem sai valmis 1964 ja oli töös kuni 1979. aastani 1969 -Montreali ülikooli süsteem TAUM-METEO (Traduction Automatique Universitie de Montreal) ilmateadete automaatseks tõlkimiseks, alates 1977. aastast tõlkis keskmiselt 15 miljonit sõna (ilmateateid)) inglise keelest prantsuse keelde 1970 - Käivitus SYSTRAN süsteem, mida kasutati veel kaheksakümnendatel aastatel venekeelse informatsiooni tõlkimiseks inglise keelde. 1987 - 12 keeltepaari, tõlkekiirus on 500 000 sõna tunnis või 26 lehekülge minutis, http://www.systransoft.com 1990-ndad - personaalsed masintõlkesüsteemid (TRADOS IBM Translation Manager, jt). mis katavad enamuse suurematest keeltest (inglise saksa, prantsuse portugali, itaalia, hollandi, taani, hispaania, jaapani, vene jt.) 1972 - Saabruckeni ülikooli tõlkesüsteem SUSY. Keeltepaarid: saksa keelest - vene keelde; prantsuse keelest - saksa keelde; inglise keelest - saksa keelde. Tööd käisid järgmiste keeltepaaridega: esperanto keelest - saksa keelde; taani keelest saksa keelde; hollandi keelest - saksa keelde; saksa keelest - inglise ja prantsuse keelde 1991 - PROMT, http://www.promt.ru/, http://www.online-translator.com
![Page 33: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/33.jpg)
Masintõlge http://www.cs.ut.ee/~roosmaa/MTL1.html
• Reeglipõhine (systran, promt, gramtrans.com): morfoloogiline analüüs -> süntaktiline analüüs -> interlingua (vahevorm, mille abil viiakse teadmus üle teisele keelele) -> süntaktiline süntees -> morfoloogiline süntees
• Statistiline (google, bing) - programm õpib tõlkima kasutades etteantud paralleelkorpusi ja statistilisi meetodeid, väga mahukad mudelid, vajab suuri korpusi treenimiseks, tõlke kvaliteet sõltub korpuste kvaliteedist – Tõlkemudel – saab sisendiks lähtekeelse lause f ja genereeritud sihtkeelse lause e, väljastab tõlke f -> e tõenäosuse – Keelemudel - väljastab antud sihtkeelse lause e tõenäosuse keelelise korrektsuse seisukohalt f - lähtekeele lause – e - sihtkeele lause – p(e) – keelemudel – p(f | e) – tõlkemudel – ê = argmax p(e) p(f | e) – Dekooder leiab suurima tõenäosusega tõlke f
![Page 34: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/34.jpg)
Masintõlge
Masintolge.ut.ee
![Page 35: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/35.jpg)
Kõnetehnoloogia http://phon.ioc.ee/dokuwiki/
• Kõnetuvastus on tehnoloogia, mille abil leitakse automaatselt sõnad ja laused, mis kõige paremini vastavad sisendiks olevale inimkõnele. Võimalikud rakendused: dikteerimine või tuvastatud sõnade põhjal käskluste edastamine seadmetele, kõne semantiline analüüs automaatses dialoogisüsteemis.
• Kõnetuvastusteadus on interdistsiplinaarne valdkond, kus kasutatakse meetodeid arvutiteadusest, signaalitöötlusest, matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“ suurte kõne- ja tekstikogumite põhjal ning kasutatavad algoritmid on keelest sõltumatud.
![Page 36: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/36.jpg)
Kõnetehnoloogia http://phon.ioc.ee/dokuwiki/
![Page 37: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/37.jpg)
Kõnetehnoloogia rakendusi
Tegeldakse Eesti keele instituudis (kõnesüntees) ja TTÜ Küberneetika instituudis (kõnetuvastus ja kõnesüntees)
Veebipõhine kõnetuvastus (kõnesalvestuste transkribeerimine): http://bark.phon.ioc.ee/webtrans/
Reaalajalise kõnetuvastuse veebiteenus: http://bark.phon.ioc.ee/speech-api/v1
https://play.google.com/store/apps/details?id=ee.ioc.phon.android.speak
Rakendused Androidile „Kõnele“ – kõikides Androidi rakendustes, „Arvuta“ ja „Diktofon“, otsing kontaktidest (Teaduste Akadeemia Emakeele Selts ja Haridus- ja Teadusministeeriumi 2011. aasta konkursi parim keeletegu):
http://www.postimees.ee/607184/telefon-paneb-eestikeelse-jutu-ule-ootuste-hasti-kirja
Kõnesüntees (EKI) http://kiisu.eki.ee/
![Page 38: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/38.jpg)
Rakendused Androidile http://www.postimees.ee/607184/telefon-paneb-eestikeelse-jutu-ule-ootuste-hasti-kirja
![Page 39: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/39.jpg)
Kõnetuvastus (Küberneetika instituut) http://bark.phon.ioc.ee/tsab/p/play?trans=3721
![Page 40: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/40.jpg)
Maailmas
• Statistiline masintõlge: – Google - Google Translate - http://translate.google.com – Microsoft – Bing Translator -
http://www.bing.com/translator/
• Reeglipõhine masintõlge – GrammarSoft ApS (Taani), and Kaldera Språkteknologi AS
(Norra) - http://gramtrans.com/ – PROMT http://www.promt.ru/ - http://www.online-
translator.com/
• Mobiilassistent (dialoogisüsteem): SIRI - http://www.apple.com/ios/siri/
• Kognitiivne süsteem IBM Watson - https://www-03.ibm.com/innovation/us/watson/science-behind_watson.shtml
![Page 41: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/41.jpg)
SIRI http://www.sirifunny.com/
(CNN) -- She may be a disembodied robot, but Siri has a sense of humor.
![Page 42: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/42.jpg)
Maailmas: IBM Watson http://www.youtube.com/watch?v=DywO4zksfXw&rel=0
![Page 43: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse](https://reader035.vdocuments.pub/reader035/viewer/2022071401/60ebf0c7cda70c544828ed67/html5/thumbnails/43.jpg)
SMART MACHINES: IBM’S WATSON AND THE ERA OF COGNITIVE COMPUTING
Cognitive systems - the goal of creating machines that sense, learn, reason and interact with people in new ways.
IBM Watson ja Jeopardy Küsimuste-vastuste telemäng Jeopardy („deep QA“) – nõuab väga kiiret vastust;
võimet eristada sõnade eri tähendusi, riimi ning võtta arvesse kaudseid vihjeid; võimet töödelda tohutut hulka informatsiooni, luues keerulisi loogilisi seoseid: • Category ‘Alternate meanings’ • Q: 4-letter word for a vantage point or a belief • A: What is ‘view’ IBM Watson: • 90 serverit • 2,880 protsessorit • 16 terabaiti RAM • al 2006 – 6 miljardit USD aastas Nõuab: loomuliku keele töötlust, Hüpoteeside püstitamist ja nende hindamist Iseõppimise tehnikaid