sissejuhatus informaatikasse keeletehnoloogia · 2013. 10. 10. · mõisted arvutilingvistika (al)...

43
Sissejuhatus informaatikasse Keeletehnoloogia Tiina Puolakainen [email protected]

Upload: others

Post on 21-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Sissejuhatus informaatikasse

Keeletehnoloogia

Tiina Puolakainen

[email protected]

Page 2: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Mõisted

Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse ja informaatika piiriala

Keeletehnoloogia (KT) (language technology, natural language processing NLP) on arvutilingvistika praktiline pool, kasutab arvutilingvistikas väljatöötatud teooriaid rakenduste loomiseks ning ühtlasi loob vahendeid arvutilingvistika arenguks AL/KT - interdistsiplinaarne teadusala lingvistika ja informaatika vahepeal, mille eesmärgiks on keele automaattöötluseks vajalike keele kirjeldus-, analüüsi- ja sünteesimeetodite väljatöötamine ning arvutitel realiseerimine (http://www.cs.ut.ee/~koit/SAL/index.html)

Page 3: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Keeletehnoloogilised rakendused

– Õigekirjakontroll, grammatika kontroll

– Veebiotsing, teksti sisukokkuvõtja

– Grammatiline analüüs

– Semantiline analüüs

– Keele genereerimine

– Kõnetuvastus

– Kõnesüntees

– Masintõlge

– Dialoogsüsteemid

Page 4: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Tehisintellekt http://www.cs.ut.ee/~koit/Tehisintellekt/index.html

P. Winston (1992): TI on arvutuste uurimine, mis teevad võimalikuks taibata, arutleda ja tegutseda. Eesmärkide seisukohast võib TI-i vaadata kui insenerlikku uurimissuunda ja kui teadust. TI insenerlik eesmärk on lahendada reaalse maailma probleeme, kasutades TI-i kui teadmiste esitamise, kasutamise ja süsteemse monteerimise ideede arsenali. TI teaduslik eesmärk on määrata, missugused teadmiste esitamise, kasutamise ja monteerimise ideed väljendavad intellekti erinevaid liike. Intellektitehnika on teaduslik uurimissuund, mis tegeleb mõtlemisprotsesside imiteerimisega arvutil. Miks seda vaja on? 1) inimese loomingulise tegevuse toetamine ja võimendamine (nt. teoreemide tõestamine, peamurdmisülesannete lahendamine, mängude mängimine - male, diagnostika - ekspertsüsteemid). 2) inimese asendamine rasketes või eluohtlikes tingimustes (intellektuaalsete robotite loomine).

Page 5: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Tehisintellektisüsteemid http://www.cs.ut.ee/~koit/Tehisintellekt/index.html

J.McCarthy, P. Heyes (1969): TI süsteem - masin, mida iseloomustavad järgmised tunnused: • 1) välismaailma mudeli olemasolu • 2) oskus vastata seda mudelit kasutades mitmesugustele

küsimustele • 3) oskus eesmärgipäraselt käituda muutuvas maailmas. D. Michie (1971) TI süsteem - • 1) maailma mudeli olemasolu • 2) oskus koostada plaane • 3) oskus analüüsida plaanides sisalduvaid alternatiivseid võimalusi • 4) plaanide muudetavus • 5) maailma mudeli muudetavus

Page 6: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Keeletehnoloogia infotehnoloogia kontekstis

Allikas: Eesti keel digiajastul The Estonian Language in the Digital Age http://www.meta-net.eu/whitepapers/e-book/estonian.pdf

Page 7: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Keeletöötluse arhitektuur

Page 8: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Keeleline kontroll

Page 9: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Veebiotsing

Page 10: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Kõnepõhine dialoog

Page 11: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Loomuliku keele mõistmine

• Jaotus sõnedeks, lauseteks, osalauseteks

• Morfoloogiline analüüs

• Morfoloogiline ühestamine

• Pindsüntaktiline analüüs

• Süvasüntaktiline analüüs

• Semantiline analüüs

• Pragmaatiline analüüs

• Diskursuse analüüs

Page 12: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Morfoloogiline analüüs

See asesõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav mind asesõna isik. ainsuse osastav ära verbi eitusvormi osa määrsõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav .

Page 13: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Morfoloogiline ühestamine

See asesõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav mind asesõna isik. ainsuse osastav ära verbi eitusvormi osa määrsõna viis verbi „viima“ vorm nimisõna ainsuse nimetav arvsõna ainsuse nimetav .

Page 14: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Pindsüntaktiline analüüs

See eestäiend

viis subjekt e alus

mind objekt e sihitis

ära afiksaaladverb

viis öeldis

.

Page 15: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Süvasüntaktiline analüüs

viis

viis mind ära

See .

Page 16: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Semantiline analüüs

See viis meloodia moodus mind ära viis. vs See viis meloodia moodus oli mõistlik.

Page 17: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Pragmaatiline, diskursuse analüüs

- See viis mind ära viis…

- Kas sulle meeldis see viimane laul?

vs

- See viis mind ära viis…

- Kas sa viisid dokumendid ära?

Page 18: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Masintõlge

Page 19: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse
Page 20: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Arvutilingvistika ja keeletehnoloogia Eestis

TÜ keeletehnoloogia uurimisrühm

http://www.cs.ut.ee/~koit/KT/

TÜ arvutilingvistika uurimisrühm www.cl.ut.ee

TTÜ foneetika ja kõnetehnoloogia labor (kõnetuvastus) http://www.phon.ioc.ee

Eesti Keele Instituudi keeleteaduse ja –tehnoloogia osakond www.eki.ee

Riiklik programm ‘Eesti keeletehnoloogia’ www.keeletehnoloogia.ee

Page 21: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

TÜ KT rühma uurimisvaldkonnad http://www.cs.ut.ee/~koit/KT/teadustoo.html

• Eesti keele korpused: Internetikeele korpuste kogumise programmid, paralleelkorpused ja nende adekvaatsuse automaatne kontroll http://www.cl.ut.ee/korpused/

• Arvutisüntaks: eestikeelsete lausete sõltuvusstruktuuri tuvastav süntaksianalüsaator http://lepo.it.da.ut.ee/~kaili/Syntax/

• Arvutisemantika: Wordnet, Framenet, sõnatähenduste ühestamine, lausete tähenduse tuvastamine http://www.cl.ut.ee/ressursid/teksaurus/

• Pragmaatika ja keelekasutus - dialoogi modelleerimine http://www.dialoogid.ee/

• Statistiline masintõlge http://masintolge.ut.ee/

Page 22: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Keeleressursid

• Keeleressursid: digitaalsed keelevarad, korpused, andmestikud, teadmusbaasid – Tekstikorpused – Kõnekorpused – Paralleelkorpused – Leksikaalsed ressursid – Grammatikad

www.cl.ut.ee – korpused ja Eesti WordNet www.keeleveeb.ee – paljude ressursside ühispäring www.eki.ee – Eesti keele instituudi sõnastikud

Page 23: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Leksikaal-semantiline andmebaas WordNET (http://www.cl.ut.ee/ressursid/teksaurus/)

Ühte mõistet väljendavad sünonüümsed sõnad (ja sõnaühendid) moodustavad sünohulga. Näiteks: • nimisõnaline mõiste: pang, ämber; • tegusõnaline: õhutama, agiteerima, kihutama, ässitama, kehutama; • omadussõnaline: rõõmsameelne, rõõmus, rõõmsatujuline,

päikseline Mõistetevahelised semantilised suhted: • hierarhilised suhted • osa-terviku suhted • rollisuhted • põhjussuhted jm Seotud inglise keelega (ILI, InterLingualIndex)

Page 25: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Eesti keele süntaks http://lepo.it.da.ut.ee/~kaili/Syntax/puudepank.html

Page 26: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Sõnaliikide määramine

• They can fish.

• Time flies like an arrow.

• . . .

• Otsi vead üles!

• Keel on võimas realiteet

• Jälgi koolimatemaatika arenguteel

Page 27: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Käändemitmesused

• maailma-OMAST juhtivad majandusriigid

• maailma-OSAST juhtivad majandusriigid

• maailma-SISSE juhtivad majandusriigid

Page 28: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Süntaksianalüüs

Määrused või määruslikud täiendid: • Ta võttis praeahjust panni AGA Ta võttis vasest ahjuroobi • Mees sai siiski pidada ühendust mobiiltelefoniga (@ADVL

@NN> @<NN) Kosovos sõdivate poegadega. (kes/mis?) Omastavas käändes sihitis või eestäiend • Ta asetas mantli (@OBJ @NN>) tooli (@OBJ @NN>)

seljatoele (mantli tool ja asetas tooli vs tooli seljatugi) Alus ja sihitis • Eesti rahuvalvajad vahetasid Bosnias välja lätlased. (kes?) Alus ja määrus • See kord ilmus, kord kadus. (vahetevahel vs eeskiri)

Page 29: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Eesti keeletehnoloogia rakendusi

• Õigekirjakorrektor ehk speller – http://www.filosoft.ee • Targem otsing sõnavormituvastaja abiga –

http://www.cl.ut.ee • Referent ehk sisukokkuvõtete tegija

http://math.ut.ee/~kaili/estsum/estsumframe.cgi • Suhtlusagent ehk dialoogisüsteem – www.dialoogid.ee

(kinoagent, hambahaldjas) • Eesti-inglise masintõlke demo – http://masintolge.ut.ee/ • EKI kõnesüntesaatorid – http://kiisu.eki.ee • KübI kõnetuvastajad – http://bark.phon.ioc.ee/webtrans/

Page 30: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Dialoogsüsteemid http://www.keeletehnoloogia.ee/konverentsid/ekt-esimene-

konverents/EKT5-koit2012.pdf Dialoogsüsteemiks nimetatakse programmi, mis suhtleb kasutajaga loomulikus keeles. Dialoogistrateegia – suhtluseesmärgi saavutamise viis (algoritm) kummalgi osalejal. On loodud asünkroonsete dialoogsüsteemide raamistik – modulaarne tarkvara, mis võimaldab luua Internetis erinevatele ainevaldkondadele häälestatud dialoogsüsteeme, millega kasutaja saab suhelda eesti keeles. Töömahukaim osa iga konkreetse dialoogsüsteemi loomisel selle raamistiku abil on ainevaldkonna-spetsiifilise teadmusbaasi sisustamine. Teadmusbaas kui regulaaravaldiste kogum, kus iga regulaaravaldis sisaldab selle ainevaldkonna võtmesõnu või fraase. Teadmuse automaatne ekstraheerimine - • teadmusbaas koosneb regulaaravaldistest, • väljatöötatav meetod ei sõltu ainevaldkonnast.

Sisend: küsimuste-vastuste komplektid, mis koguti Internetist KKK rubriikidest. Meetod: – sisendile rakendatakse eesti keele morfoloogilist ühestajat küsimuse ja vastuse sõnavormide lemmatiseerimiseks ning lemmade ühisosa leidmiseks. – seejärel kasutatakse eesti wordnet’i ontoloogia versiooni, et suurendada võimalike võtmesõnade hulka: pärast esialgsete võtmesõnade leidmist tehakse päring andmebaasi, leidmaks kõigile seni leitud märksõnadele ka sünonüümid ja hüperonüümid.

Page 31: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse
Page 32: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Masintõlge http://www.cs.ut.ee/~roosmaa/MTL1.html

1952 - USA Georgetown'i ülikoolis käivitati masintõlke projekt füüsika alaste tekstide tõlkimiseks vene keelest inglise keelde. Süsteem sai valmis 1964 ja oli töös kuni 1979. aastani 1969 -Montreali ülikooli süsteem TAUM-METEO (Traduction Automatique Universitie de Montreal) ilmateadete automaatseks tõlkimiseks, alates 1977. aastast tõlkis keskmiselt 15 miljonit sõna (ilmateateid)) inglise keelest prantsuse keelde 1970 - Käivitus SYSTRAN süsteem, mida kasutati veel kaheksakümnendatel aastatel venekeelse informatsiooni tõlkimiseks inglise keelde. 1987 - 12 keeltepaari, tõlkekiirus on 500 000 sõna tunnis või 26 lehekülge minutis, http://www.systransoft.com 1990-ndad - personaalsed masintõlkesüsteemid (TRADOS IBM Translation Manager, jt). mis katavad enamuse suurematest keeltest (inglise saksa, prantsuse portugali, itaalia, hollandi, taani, hispaania, jaapani, vene jt.) 1972 - Saabruckeni ülikooli tõlkesüsteem SUSY. Keeltepaarid: saksa keelest - vene keelde; prantsuse keelest - saksa keelde; inglise keelest - saksa keelde. Tööd käisid järgmiste keeltepaaridega: esperanto keelest - saksa keelde; taani keelest saksa keelde; hollandi keelest - saksa keelde; saksa keelest - inglise ja prantsuse keelde 1991 - PROMT, http://www.promt.ru/, http://www.online-translator.com

Page 33: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Masintõlge http://www.cs.ut.ee/~roosmaa/MTL1.html

• Reeglipõhine (systran, promt, gramtrans.com): morfoloogiline analüüs -> süntaktiline analüüs -> interlingua (vahevorm, mille abil viiakse teadmus üle teisele keelele) -> süntaktiline süntees -> morfoloogiline süntees

• Statistiline (google, bing) - programm õpib tõlkima kasutades etteantud paralleelkorpusi ja statistilisi meetodeid, väga mahukad mudelid, vajab suuri korpusi treenimiseks, tõlke kvaliteet sõltub korpuste kvaliteedist – Tõlkemudel – saab sisendiks lähtekeelse lause f ja genereeritud sihtkeelse lause e, väljastab tõlke f -> e tõenäosuse – Keelemudel - väljastab antud sihtkeelse lause e tõenäosuse keelelise korrektsuse seisukohalt f - lähtekeele lause – e - sihtkeele lause – p(e) – keelemudel – p(f | e) – tõlkemudel – ê = argmax p(e) p(f | e) – Dekooder leiab suurima tõenäosusega tõlke f

Page 34: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Masintõlge

Masintolge.ut.ee

Page 35: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Kõnetehnoloogia http://phon.ioc.ee/dokuwiki/

• Kõnetuvastus on tehnoloogia, mille abil leitakse automaatselt sõnad ja laused, mis kõige paremini vastavad sisendiks olevale inimkõnele. Võimalikud rakendused: dikteerimine või tuvastatud sõnade põhjal käskluste edastamine seadmetele, kõne semantiline analüüs automaatses dialoogisüsteemis.

• Kõnetuvastusteadus on interdistsiplinaarne valdkond, kus kasutatakse meetodeid arvutiteadusest, signaalitöötlusest, matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“ suurte kõne- ja tekstikogumite põhjal ning kasutatavad algoritmid on keelest sõltumatud.

Page 36: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Kõnetehnoloogia http://phon.ioc.ee/dokuwiki/

Page 37: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Kõnetehnoloogia rakendusi

Tegeldakse Eesti keele instituudis (kõnesüntees) ja TTÜ Küberneetika instituudis (kõnetuvastus ja kõnesüntees)

Veebipõhine kõnetuvastus (kõnesalvestuste transkribeerimine): http://bark.phon.ioc.ee/webtrans/

Reaalajalise kõnetuvastuse veebiteenus: http://bark.phon.ioc.ee/speech-api/v1

https://play.google.com/store/apps/details?id=ee.ioc.phon.android.speak

Rakendused Androidile „Kõnele“ – kõikides Androidi rakendustes, „Arvuta“ ja „Diktofon“, otsing kontaktidest (Teaduste Akadeemia Emakeele Selts ja Haridus- ja Teadusministeeriumi 2011. aasta konkursi parim keeletegu):

http://www.postimees.ee/607184/telefon-paneb-eestikeelse-jutu-ule-ootuste-hasti-kirja

Kõnesüntees (EKI) http://kiisu.eki.ee/

Page 39: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Kõnetuvastus (Küberneetika instituut) http://bark.phon.ioc.ee/tsab/p/play?trans=3721

Page 40: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Maailmas

• Statistiline masintõlge: – Google - Google Translate - http://translate.google.com – Microsoft – Bing Translator -

http://www.bing.com/translator/

• Reeglipõhine masintõlge – GrammarSoft ApS (Taani), and Kaldera Språkteknologi AS

(Norra) - http://gramtrans.com/ – PROMT http://www.promt.ru/ - http://www.online-

translator.com/

• Mobiilassistent (dialoogisüsteem): SIRI - http://www.apple.com/ios/siri/

• Kognitiivne süsteem IBM Watson - https://www-03.ibm.com/innovation/us/watson/science-behind_watson.shtml

Page 41: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

SIRI http://www.sirifunny.com/

(CNN) -- She may be a disembodied robot, but Siri has a sense of humor.

Page 42: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

Maailmas: IBM Watson http://www.youtube.com/watch?v=DywO4zksfXw&rel=0

Page 43: Sissejuhatus informaatikasse Keeletehnoloogia · 2013. 10. 10. · Mõisted Arvutilingvistika (AL) (computational linguistics) on loomuliku keele automaattöötlusega tegelev keeleteaduse

SMART MACHINES: IBM’S WATSON AND THE ERA OF COGNITIVE COMPUTING

Cognitive systems - the goal of creating machines that sense, learn, reason and interact with people in new ways.

IBM Watson ja Jeopardy Küsimuste-vastuste telemäng Jeopardy („deep QA“) – nõuab väga kiiret vastust;

võimet eristada sõnade eri tähendusi, riimi ning võtta arvesse kaudseid vihjeid; võimet töödelda tohutut hulka informatsiooni, luues keerulisi loogilisi seoseid: • Category ‘Alternate meanings’ • Q: 4-letter word for a vantage point or a belief • A: What is ‘view’ IBM Watson: • 90 serverit • 2,880 protsessorit • 16 terabaiti RAM • al 2006 – 6 miljardit USD aastas Nõuab: loomuliku keele töötlust, Hüpoteeside püstitamist ja nende hindamist Iseõppimise tehnikaid