tungutækni – hvað og til hvers? © eiríkur rögnvaldsson
Post on 20-Dec-2015
238 Views
Preview:
TRANSCRIPT
Tungutækni –hvað og til hvers?
© Eiríkur Rögnvaldsson
Hvað er tungutækni?
• Tungutækni er ungt nýyrði– fyrir enska hugtakið ‘language technology’
• eða ‘language engineering’
• Samvinna tungumáls og tölvutækni– í einhverjum hagnýtum tilgangi
• Tvær hliðar samvinnunnar:– notkun tölvutækninnar í þágu tungumálsins– notkun tungumálsins innan tölvutækninnar
Fyrstu tengsl tölva og tungumáls
• Tengsl tölva og tungumáls má rekja aftur til fyrstu ára tölvunnar um miðja 20. öld
• Fljótlega var farið að nota tölvur til að gera ýmiss konar orðaskrár, skoða tíðni orða í mismunandi textum o.s.frv.
• Talsvert var gert að því að leita höfunda texta eða skoða áhrif eins höfundar á annan– með því að bera saman orðaforða þeirra og
orðtíðni
Tölvuþýðingar
• Á 6. áratug 20. aldar og fram á þann 7. var miklu fé varið í tilraunir með tölvuþýðingar
• Fyrstu forritin þýddu texta orð fyrir orð– studdust ekki við málfræðilegar kenningar eða
líkön
• 1966 birti bandaríska vísindaakademían „svarta skýrslu“ um tölvuþýðingar– þar sem fram kom að þrátt fyrir gífurlegan
kostnað hefði árangurinn verið ákaflega lítill
Máltölvun
• Literary and Linguistic Computing– máltölvun
• Hvers kyns notkun tölva við lausn mállegra verkefna– talningar orða og bókstafa, tíðniskrár– orðstöðulyklar, orðabókagerð
• Ekki þörf á mikilli tölvukunnáttu– oft unnið með hjálp tilbúinna forrita eða
forritapakka
Tölvufræðileg málvísindi
• Computational Linguistics– tölvufræðileg málvísindi/tölvumálvísindi
• Að setja fram aðferðir (algrím) sem tölvur geta unnið með við greiningu tungumáls– undirstaða þess að hægt sé að nota tölvur við
vélrænar þýðingar, lemmun, talgreiningu o.fl.
• Þeir sem semja mállýsinguna þurfa að hafa góða hugmynd um það hvernig tölvur vinna
Gagnamálfræði
• Corpus Linguistics– Gagnamálfræði
• Mállýsingar og rannsóknir byggðar á textum– Textar skoðaðir vandlega og sett fram lýsing að
þeirri skoðun lokinni
• Theoretical Linguistics– Fræðileg málvísindi– Settar fram kenningar og þær síðan prófaðar á
tungumálinu sjálfu
Málgreining
• Natural Language Processing – NLP– Málvinnsla
• Greining (analysis)– Greining formgerðar (og merkingar) á ýmsum
sviðum málsins (texta eða tals)
• Myndun (generation)– Myndun máls (texta eða tals) út frá formgerð
(merkingu)
Þrjár merkingar orðsins tungutækni
• Orðið tungutækni hefur þrjár merkingar– vissulega nátengdar, en þó aðskildar
• Þverfagleg fræðigrein– sem byggist á málvísindum og tölvunarfræði
• Hugbúnaður og tæki– sem byggjast á fræðilegum rannsóknum
• Iðnaðarstarfsemi– þar sem fengist er við gerð tungutæknitóla
Afmörkun tungutækni
• Misjafnt er hvað talið er falla undir tungutækni:– Þýðingar forrita?– Tölvustudd orðabókargerð?– Tölvunotkun í tungumálakennslu?– Tölvustuddar þýðingar?
• E.t.v. má miða við þörf fyrir virka kunnáttu– bæði í máli/málfræði og tölvunotkun/tölvutækni
Tæknin í þágu tungumálsins
• Tölvutækni má nýta á ýmsan hátt– til að auðvelda mönnum að nota tungumálið
• Þar má nefna– forrit til leiðréttingar á stafsetningu og málfari– vélrænar þýðingar– tölvuorðabækur af ýmsu tagi– talgervla og önnur hjálpartæki handa fötluðum– ýmiss konar kennsluforrit
Tungumálið í þágu tækninnar
• Tungumálið gegnir sívaxandi hlutverki– innan upplýsingatækninnar
• Þar má nefna– samskipti við upplýsingaveitur
• spurningar bornar fram í samfelldu, eðlilegu máli í stað þess að nota takmarkaðan orðaforða á fastmótaðan hátt
– stjórn ýmiss konar tækja• talað er við tæki á venjulegu máli og þeim stjórnað með
rödd og tungumáli í stað þess að ýta á takka
Starfshópur um tungutækni
• Starfshópur menntamálaráðherra 1998-99– Rögnvaldur Ólafsson
• dósent í eðlisfræði; formaður starfshópsins
– Eiríkur Rögnvaldsson• prófessor í íslenskri málfræði
– Þorgeir Sigurðsson• Staðlaráði; verkfræðingur og íslenskufræðingur
– Sigurður H. Pálsson• málfræðingur og tölvufræðingur; ritari hópsins
Forsendur fyrir íslenskri tungutækni
• Tungutækni – skýrsla starfshóps– menntamálaráðuneytið, 1999
• Þrjár meginstoðir íslenskrar tungutækni– menntað fólk– málsöfn– málgreiningarforrit
• Áhugi fyrirtækja þarf að vera fyrir hendi– og líka stuðningur hins opinbera
Íslensk tungutækni
• Kemur íslensk tungutækni af sjálfu sér– eigum við bara að bíða þolinmóð?
• Fáum við íslensk tungutæknitól að utan?– það er ólíklegt– tungutæknilausnir eru mjög dýrar– íslenski markaðurinn alltof lítill
• Sprettur tungutækni af sjálfu sér innanlands?– varla – af sömu ástæðum
Menntun og rannsóknir
• Þekking, menntun, reynsla– ekkert nám af þessu tagi hefur verið til á Íslandi– engar rannsóknir hafa verið á þessu sviði– fáir Íslendingar búa yfir þekkingu og reynslu
• Úr þessu þarf að bæta– og um það voru gerðar tillögur í skýrslu
starfshóps um tungutækni vorið 1999
Úr skýrslu starfshóps um tungutækni
• Óráðlegt er að ætla að Íslendingar geti byggt upp öflugt starf á sviði tungutækni án þess að hyggja að fræðilegum undirstöðum slíks starfs. Nauðsynlegt er að fá sem fyrst til starfa vel menntað fólk á sviði íslensks máls og tölvunarfræði sem gerir sér grein fyrir sérkennum íslenskrar málfræði og þörfum íslensks málsamfélags.
... og áfram:
• Ef ekki verður byggð upp innlend þekking á þessu sviði innan menntastofnana verðum við um ófyrirsjáanlega framtíð þiggjendur á þessu sviði og höfum miklu minni möguleika á að bregðast við breyttum aðstæðum og nýjungum, og þróa þau tól og tæki sem henta best íslenskum aðstæðum.
Þetta svið á sér víða langa hefð
• Computational linguistics– í enskumælandi löndum
• Datalingvistik– á Norðurlöndum
• Mikill vöxtur hefur verið í þessum greinum– samfara örri þróun í tungutækni sem iðngrein
• En jafnframt hafa áherslur breyst
Aukin áhersla á hagnýtingu
• Greinar með áherslu á hagnýtingu í ýmiss konar tækjum og tólum hafa komið upp– við hlið hefðbundinna akademískra greina
• Language technology– í stað eða við hlið Computational Linguistics
• Sprogteknologi/språkteknologi– í stað eða við hlið Datalingvistik
Tilgangur
• Er rétt að verja stórfé– í uppbyggingu og þróun íslenskrar tungutækni?
• Er ekki best að bíða– og sjá hverju fram vindur?
• Þrenns konar réttlæting fyrir tungutækni– nýsköpun þekkingar– verndun og varðveisla tungumálsins– virðing og samkeppnisstaða málnotenda
Ógnar upplýsingatæknin tungunni?
• Þrjú einkenni upplýsingatækni skipta máli– þegar áhrif hennar á íslenska tungu eru metin
• Hún er að verða– mikilvægur þáttur– í daglegu lífi– alls almennings
• Þess vegna verður hún að vera á íslensku– að öðrum kosti er tungan feig
Þrengt notkunarsvið móðurmálsins
• Hvað ef móðurmálið er ekki gjaldgengt á sviði– sem er mikilvægt– í daglegu lífi– alls almennings?
• Hvað ef það er ekki nothæft– í nýrri tækni og öðru sem er nýtt og spennandi– á sviðum þar sem nýsköpun á sér stað– og þar sem ný atvinnutækifæri bjóðast?
Tungumál í hættu
• Við þær aðstæður hefst dauðastríð tungunnar– móðurmálið verður víkjandi– aðeins hæft til heimabrúks– en ekki til neinna alvarlegra hluta
• Ungt fólk sér þá ekki tilgang í að læra málið– heldur leggur áherslu á að tileinka sér enskuna
sem best
• Hvað er þá til ráða?
Tveir kostir í stöðunni
• Að hafna tækninni en halda tungunni– látið eiga sig að tileinka okkur ýmsar nýjungar– fyrst tungumálið er ekki gjaldgengt á þessu sviði
• Þessi kostur er ekki raunhæfur
• Að fórna tungunni en fylgjast með tækninni– nota ensku í upplýsinga- og tölvutækni– úr því að íslenska er ekki nothæf á því sviði
• Þessi kostur er óviðunandi
– og sá þriðji:
• Að hefjast handa– gera átak á sviði tungutækni– gera íslensku nothæfa innan upplýsingatækninnar
• Það er eini valkostur okkar– ef við viljum halda áfram að nota íslensku– á öllum sviðum þjóðlífsins
• Annars verður málið fljótlega forngripur– dauðadæmt og gæti dáið út á fáum áratugum
Tungutækni fyrir málnotendur
• Tungutækni snýst ekki bara um málvernd– einnig um þjónustu og sjálfsvirðingu
• Eigum við að sitja við sama borð og aðrir– eða eigum við að sitja skör lægra?
• Við eigum kröfu á að geta notað móðurmálið– sem víðast, við sem fjölbreyttastar aðstæður
• Allt annað er uppgjöf
Tákn og tungumál
• Við munum aldrei hafa allt á íslensku– hvað með R, N, P á gírstönginni í bílnum okkar?– þetta stendur fyrir reverse, neutral, park– en fyrir okkur eru þetta bara tákn, óháð tungumáli
• Mál í virkri notkun getur aldrei orðið tákn– á sama hátt – orðin slitna ekki frá tungumálinu
• Þess vegna verður málið að vera íslenska– að öðrum kosti verðum við málfarslega undirokuð
Niðurstöður starfshópsins
• Nauðsynlegt er að hefja sem fyrst átak– til að skjóta stoðum undir íslenska tungutækni
• Ríkið verður að hafa forgöngu um þetta átak– og bera meginkostnaðinn af því á fyrstu stigum
þess
• Æskilegast er að markaðurinn taki síðan við– en hann getur ekki borið þróunarkostnaðinn í
upphafi
Tillögur starfshópsins
• Byggð verði upp sameiginleg gagnasöfn, málsöfn, sem geti nýst fyrirtækjum sem hráefni í afurðir
• Fé verði veitt til að styrkja hagnýtar rannsóknir á sviði tungutækni
• Fyrirtæki verði styrkt til þess að þróa afurðir tungutækni
• Menntun á sviði tungutækni og málvísinda verði efld
Áætlaður kostnaður
MKR
• Þróunarmiðstöð 25-50
• Rannsókna- og þróunarsjóður 150
• Styrkir til stærri alþjóðlegra verkefna 30
• Stutt hagnýtt nám í máltækni 10
• Meistaranám í tungutækni 10 Alls 225-250– á ári í 4-5 ár
Hvað hefur fengist?
MKR
• Fjáraukalög 2000 40
• Fjárlög 2001 64,5
• Fjárlög 2002 0
• Fjárlög 2003 15
• Fjárlög 2004 13,5
Alls 133 MKR
Forgangsverkefni í íslenskri tungutækni
• Meginmarkmið Íslendinga hlýtur að vera að unnt verði að nota íslenska tungu, ritaða með réttum táknum, sem víðast innan tölvu- og fjarskiptatækninnar
• Það er mikið verkefni að gera íslensku gjald-genga á öllum sviðum, við allar aðstæður. Því verður að leggja megináherslu á þá þætti sem varða daglegt líf og starf alls almenn-ings, eða munu gera það á næstu árum
1. Þýðing tölvuforrita
• Helstu tölvuforrit á almennum markaði verði á íslensku (Windows, Word, Excel; Netscape, Internet Explorer; Eudora; …)
• Windows XP og Microsoft Office er komið á íslensku– og einnig ýmis önnur forrit– en óljóst hvaða útbreiðslu þýðingarnar fá
2. Íslenskir bókstafir
• Unnt verði að nota íslenska bókstafi (áéíóúýðþæö ÁÉÍÓÚÝÐÞÆÖ) við allar aðstæður; í tölvum, GSM-símum, textavarpi og öðrum tækjum sem almenningur notar.
• Hér hefur staðan batnað– m.a. með aukinni útbreiðslu Unicode
• Nú er hægt að nota íslenska stafi í GSM– með takmörkunum þó
3. Málgreining
• Unnið verði að þróun málgreiningar fyrir íslensku, með það að markmiði að geta greint íslenskan texta í orðflokka og setningarliði.
• Tvö verkefni á þessu sviði hafa verið styrkt af Tungutæknisjóði:– málfræðilegur markari (grammatical tagger)– vélræn íslensk setningagreining
3.1 Textaheild – 3.2 Orðasafn
– Koma þarf upp stórri tölvutækri [mál]heild með íslenskum textum af sem fjölbreyttustum toga til að byggja áframhaldandi vinnu á.
– Vinna við slíka málheild stendur yfir
– Koma þarf upp fullgreindu orðasafni (með málfræðilegri og merkingarlegri greiningu) til nota í áframhaldandi vinnu.
– Ekkert slíkt orðasafn er til• þótt til sé hráefni sem vinna mætti út frá
4. Hjálparforrit við ritun
• Til verði góð hjálparforrit við ritun texta á íslensku, s.s. orðskiptiforrit, stafsetningar-leiðréttingarforrit, málfarsleiðréttingarforrit o.fl.
• Nýtt forrit til stafsetningarleiðréttingar hefur verið unnið á vegum Microsoft
• Málfarsleiðréttingaforrit eru ekki til enn– en forvinna að slíku forriti er í gangi
5. Íslenskur talgervill
• Til verði góður íslenskur talgervill sem geti lesið upp íslenskan texta með skýrum og auðskiljanlegum framburði og eðlilegu tónfalli og sem sé skiljanlegur án þjálfunar.
• Talgervill Infovox hefur verið endurbættur– er þó langt frá því að vera nógu góður
• Unnið er að nýjum talgervli– sem byggður er á nýrri tækni og verður til 2006
6. Talgreining
• Unnið verði að þróun talgreiningar fyrir íslensku, með það að markmiði að til verði forrit sem geti túlkað eðlilegt íslenskt tal.
• Háskólinn og fjögur fyrirtæki stóðu að Hjali– íslenskri stakorðagreiningu
• Íslenskur talgreinir er nú til og virkar vel– en langt er í greiningu samfellds máls
7. Vélrænar þýðingar
• Unnið verði að þróun forrita til vélrænna þýðinga milli íslensku og annarra tungumála, m.a. til að auðvelda leit í gagnabönkum.
• Hér hefur lítið gerst– einstöku tilraunir hafa þó verið gerðar– ýmsir hafa unnið með þýðingarminni– en engin nothæf þýðingarforrit eru á leiðinni
8. Ábyrgðaraðilar
• Ákveðnum aðilum (stofnunum eða fyrir-tækjum) verði falin ábyrgð á einstökum verkefnum.
• Sett var á fót verkefnisstjórn í tungutækni– sem átti að hafa yfirlit yfir stöðu mála í landinu– ýta verkefnum af stað og samræma aðgerðir
• Þetta skilaði góðum árangri– en verkefnisstjórnin var lögð niður í árslok 2004
Tungutækniáætlunin á enda
• Tungutækniáætlunin hefur skilað sínu– menntun á sviði tungutækni er hafin– Íslendingar farnir að fara í nám erlendis– gagnasöfn hafa verið byggð upp– ýmsum verkefnum verið ýtt af stað
• En íslensk tungutækni er ekki orðin sjálfbær– nú þegar tungutækniáætlunin er á enda– og einmitt þyrfti meira fé í rannsóknir og þróun
Fordæmi Eista
• Eistar eru smáþjóð eins og við– aðeins um ein milljón talar eistnesku
• Þeir hafa gert áætlun um þróun tungutækni– Estonian HLT Roadmap for 2004-2011
• Þeir eru núna á svipuðu stigi og við– en þeirra tungutækniáætlun er að byrja– okkar að enda
• Ætlum við að láta hér við sitja?
top related