valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

22
tehnoloģiju lietojums mašīntulkošanas risinājumos MĀRCIS PINNIS [email protected] TILDE LATVIJAS UNIVERSITĀTE

Upload: sloan

Post on 23-Feb-2016

50 views

Category:

Documents


0 download

DESCRIPTION

Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos. Mārcis Pinnis [email protected] TildeLatvijas Universitāte. Prezentācijas pārskats. Mašīntulkošanas risinājumu iedalījums pēc pielietojuma Statistiskās mašīntulkošanas (SMT) adaptācija (pielāgošana) konkrētai nozarei - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Valodas tehnoloģiju lietojums

mašīntulkošanas risinājumos

MĀRCIS [email protected]

TILDE LATVIJAS UNIVERSITĀTE

Page 2: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Prezentācijas pārskats•Mašīntulkošanas risinājumu iedalījums pēc

pielietojuma•Statistiskās mašīntulkošanas (SMT) adaptācija

(pielāgošana) konkrētai nozarei• Ieskats netālā nākotnē (1-2 gadi)

Page 3: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Neliela atkāpe no tēmasKāpēc vispār nepieciešams attīstīt valodu tehnoloģijas?

◦ Lai likvidētu komunikācijas barjeras◦ Lai padarītu informāciju pieejamu ātri un efektīvi◦ Lai paaugstinātu produktivitāti◦ Jo valodu tehnoloģiju un pakalpojumu tirgus ir ļoti liels un

augošs!◦ Pēc Eiropas Komisijas* pētījuma Eiropas 2012. gada valodas

tehnoloģiju un pakalpojumu tirgus apjoma prognozes ir 12,3 miljardi eiro.

◦ Pēc Common Sense Advisory** pētījuma pasaules 2012. gada valodas tehnoloģiju un pakalpojumu tirgus apjoma prognozes ir 33,5 miljardi ASV dolāru.

* Study on the size of the language industry in the EU, ISBN: 978-92-79-14181-2, 2009** Language Services Market 2012, Nataly Kelly, Donald A. DePalma, Robert G. Stewart, 2012

Page 4: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Kādam mērķim mums nepieciešama mašīntulkošana?1. Lai uztvertu tekstā ietverto informāciju

◦ ziņas, tūrisma informācija, jebkura veida informatīvs saturs

◦ Prasības var atšķirties◦ No lasītāju/lietotāju skatupunkta◦ No pakalpojumu sniedzēju skatupunkta

Page 5: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Tīmekļa lapu tulkošana, izmantojot specializētus tīmekļa

pakalpojumus

Page 6: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Tīmekļa lapu tulkošana, izmantojot logrīkus

Piemērs: Transposh tulkošanas logrīks, kas izmanto Google Translate pakalpojumu.

Page 7: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Tīmekļa lapu tulkošana, izmantojot pārlūkprogrammu

spraudņusPiemērs: Google Chrome pārlūkprogrammasGoogle Translate tulkošanas spraudnis

Page 8: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Kādam mērķim mums nepieciešama mašīntulkošana?2. Lai palīdzētu tulkot tekstu (rediģējot saturu)

◦ Amatieriem◦ Profesionāliem tulkiem

Page 9: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Apšaubāmas kvalitātes satura veidošana, izmantojot brīvi pieejamus mašīntulkošanas

risinājumus

Teksta rediģēšana

Page 10: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Profesionāla satura veidošana, izmantojot specializētus

mašīntulkošanas risinājumus

Page 11: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Kādam mērķim mums nepieciešama mašīntulkošana?3. Lai aizstātu cilvēku (tulku)

◦ Nepieciešama perfekta (šobrīd neiespējama) mašīntulkošanas sistēma vai kontrolēta valoda

◦ Piemērs 1: Vienkāršota tehniskā angļu valoda (ASD Simplified Technical English)◦ Izstrādāta aviācijas industrijas tekstu standartizācijai

◦ Piemērs 2: Medicīnas produktu aprakstu kontrolēta tulkošana◦ Uwe Muegge, "Fully automatic high quality machine translation

of restricted text: A case study", Translating and the computer 28. Proceedings of the twenty-eighth international conference on translating and the computer, 2006. gada 16. – 17. novembris, Londona.

Page 12: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Kāpēc nepieciešama SMT sistēmu adaptēšana?

• Sistēmas būvētas citas nozares vai vairāku nozaru tekstu tulkošanai screw screw screw screw

•Mašīntulks prot analizēt tikai to kontekstu, ko tam iemāca analizēt• Robežas (daži vārdi, teikums, rindkopa, viss teksts, ārpus teksta informācija)• Informācija par nozari un tās specifisko terminoloģiju• Informācija par dažādiem apzīmējumiem (vietvārdi, netulkojami fragmenti,

speciāli apstrādājami fragmenti) • lokalizācijas informācija (mērvienību sistēmas, valūtas, utt.)

The ship’s propeller rammed into the ground. (dzenskrūve)The airplane’s propeller started rotating. (propelleris) There is a loose somewhere. I do not believe it. (kaut kas nav kārtībā) There is a loose in the stand. (vaļīga skrūve)

Page 13: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Tipiska mūsdienu statistiskās mašīntulkošanas sistēma

• Ko nedara• Neidentificē teksta nozari (domēnu) – tiek izmantota fiksēta

sistēma• Neidentificē terminus – nenošķir no citiem fragmentiem• Neidentificē fragmentus, kas būtu jātulko ar specifiskām

metodēm (vietvārdi, personvārdi, datumi, mērvienības, utt.)

• Ko dara• Angļu-latviešu virzienā veic teksta dalīšanu vārdos,

pieturzīmēs (atsevišķos gadījumos morfosintaktiski marķē)• Analizē teksta kontekstu noteiktās robežās (līdz noteiktam

teksta vienību skaitam pa kreisi un pa labi)

Page 14: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

SMT adaptācija ar ierobežotiem resursiem

Pieņemsim, ka pie mums ierodas klients, kas vēlas mašīntulkošanas sistēmu kādā šaurā nozarē

◦ Klientam līdzi ir paņemti:◦ Neliels apjoms (2-3 tūkstoši teikumu) tulkotu tekstu (dokumenti

divās valodās, vai jau sastatīti teikumi no tulkošanas atmiņām)◦ un/vai terminu vārdnīca

◦ Mums ir pieejams liels vispārīgs (ne konkrētās nozares) paralēls korpuss

Page 15: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

1. Iegūstam terminus salīdzināma korpusa

vākšanai• Ja klients ieradies ar dokumentiem, tad:• sastatām dokumentus teikumu līmenī• izveidojam frāžu tabulu (ar Moses SMT sistēmas rīku palīdzību)• Marķējam terminus atsevišķo valodu dokumentos• Iegūstam terminu (frāžu) vārdnīcu

• Terminus sakārtojam• Atlasam terminu pārus, atkarībā pēc to informatīvā svara (izfiltrējam

vispārīgās valodas frāzes)

•Metodes aprakstītas:• M. Pinnis un R. Skadiņš, MT Adaptation for Under-Resourced Domains –

What Works and What Not, Proceedings of the Fifth International Conference Human Language Technologies — The Baltic Perspective, Tartu, Igaunija, 2012. gada 4. – 5. oktobris.

Page 16: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

2. Vācam salīdzināmu korpusu• Ar fokusētiem korpusu vākšanas rīkiem, piemēram ACCURAT

FMC (Focussed Monolingual Crawler)• Rezultāts:• Divu valodu salīdzināms korpuss

• Korpusu sastatām dokumentu līmenī tā, lai dokumenti būtu viens ar otru salīdzināmi (saturs, ar noteiktu slieksni, pārklātos)• Izmantojam salīdzināmības metrikas – rīkus, kas analizē dokumentus

un nosaka satura pārklāšanās daudzumu robežās no 0 līdz 1.• Piemēram, ACCURAT DictMetric vai ComMetric.

•Metodes aprakstītas:• Inguna Skadiņa et al., Collecting and Using Comparable Corpora for Statistical

Machine Translation, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012), 438. – 445. lpp., Stambula, Turcija, 2012.

Page 17: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

3. Izvelkam jaunu terminu (frāžu) vārdnīcu

• Salīdzināmajā korpusā marķējam terminus

• Tos savstarpēji sastatām ar terminu sastatīšanas rīkiem

•Metodes aprakstītas:• M. Pinnis et al., Term Extraction, Tagging,

and Mapping Tools for Under-Resourced Languages. Proceedings of the 10th Conference on Terminology and Knowledge Engineering (TKE 2012), 193. –208. lpp., Madride, Spānija, 2012.

ACCURAT terminu sastatīšanas darbplūsma

Vienas valodasdokumenti (TXT)

Otras valodasdokumenti (TXT)

Terminu kandidātu saraksti

Priekšapstrādāts dokuments (TSV)

CollTerm

TerminologyAligner (TEA)

Marķēti dokumenti(TXT+tags)

Marķēti dokumenti(TXT+tags)

Dokumentu sastatījums

Dokumentu sastatījums

Terminu pāri (TSV)

ACCURAT korpusu vākšanas rīki

Salīdzināms korpussno tīmekļa

Ārējsmorfosintaktsks

marķētājs

Teksta dokumnts (TXT)

Priekšapstrādāts dokuments (TST)

Tilde’s Wrapper Systemfor CollTerm (TWSC)

Page 18: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

4. Meklējam paralēlu teikumu pārus salīdzināmajā korpusā•Sastatām teikumus ar teikumu sastatīšanas rīku

ACCURAT LEXACC• Ja korpuss ir pietiekami salīdzināms (tajā ir teikumi, kas ir viens otra

tulkojumi), rezultātā tiks iegūts saraksts ar sastatītiem teikumiem

•Metodes aprakstītas:• D. Ştefănescu et al., Hybrid parallel sentence mining from

comparable corpora. Proceedings of the 16th Conference of the European Association for Machine Translation (EAMT 2012), Trento, Itālija.

Page 19: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

5. Trenējam mašīntulkošanas

sistēmu• Izmantojam mērķa valodas specifiskās nozares korpusu

valodas modeļa trenēšanai.

• Papildinām paralēlo datu korpusu ar iegūtajiem teikumu pāriem un terminu vārdnīcu (!).

•Modificējam frāžu tabulu, lai nozares terminoloģija tiktu augstāk novērtēta.

• SMT sistēmas trenēšanai izmantojam Let’sMT! tīmekļa platformu (ietver Moses SMT platformu).

Page 20: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Vairāk informācijasM. Pinnis, R. Ion, D. Ştefănescu, F. Su, I. Skadiņa, A. Vasiļjevs un B. Babych, ACCURAT Toolkit for Multi-Level Alignment and Information Extraction from Comparable Corpora, Proceedings of the ACL 2012 System Demonstrations, 91. – 96. lpp., Association for Computational Linguistics, Jeju, Dienvidkoreja, 2012.

M. Pinnis, N. Ljubešić, D. Ştefănescu, I. Skadiņa, M. Tadić un T. Gornostay, Term Extraction, Tagging, and Mapping Tools for Under-Resourced Languages, Proceedings of the 10th Conference on Terminology and Knowledge Engineering (TKE 2012), 193. – 208. lpp., Madride, Spānija, 2012.

M. Pinnis un R. Skadiņš, MT Adaptation for Under-Resourced Domains – What Works and What Not, Proceedings of the Fifth International Conference Human Language Technologies — The Baltic Perspective, Tartu, Igaunija, 2012. gada 4. – 5. oktobris.

I. Skadiņa, A. Aker, N. Mastropavlos, F. Su, D. Tufiș, M. Verlic, A. Vasiļjevs, B. Babych, P. Clough, R. Gaizauskas, N. Glaros, M.L. Paramita un M. Pinnis, Collecting and Using Comparable Corpora for Statistical Machine Translation, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012), 438. – 445. lpp., Stambula, Turcija, 2012.

D. Ştefănescu, R. Ion un S. Hunsicker. 2012. Hybrid parallel sentence mining from comparable corpora. Proceedings of the 16th Conference of the European Association for Machine Translation (EAMT 2012), Trento, Italy.

Page 21: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Ieskats netālā nākotnē• Apskatītais piemērs neskāra sekojošus jautājumus:• Pieejamo terminu datu bāžu (piem., EuroTermBank) utilizācija

tulkošanas procesā (FP7 projekta TaaS darbības sfēra)• Terminu izpildlaika integrācija mašīntulkošanas risinājumos• Apzīmējumu integrācija mašīntulkošanas risinājumos

• Projekti, kas skar (var skart) latviešu valodas saistītu mašīntulkošanas risinājumu attīstību:• TaaS (Terminology as a Service)• MultilingualWeb-LT (paplašināti tīmekļa standarti daudzvalodu

atbalsta nodrošināšanai)

Page 22: Valodas tehnoloģiju lietojums mašīntulkošanas risinājumos

Paldies par uzmanību!

Šis darbs izstrādāts ar Eiropas Sociālā fonda atbalstu projektā «Atbalsts doktora studijām Latvijas Universitātē»