Download - Hiztegiak, Internet eta euskararen desafioak
![Page 1: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/1.jpg)
Hiztegiak, Internet eta euskararen desafioak
Antton Gurrutxaga Hernaiz, Josu Aztiria UrtaranElhuyar Hizkuntza Zerbitzuak
www.elhuyar.org/hizkuntza-zerbitzuak
Praktika egokiak gutxitutako hizkuntzen erabilera IKTetan sustatzeko biltzarra
Leizaola FundazioaBilbo, 2010-11-19
![Page 2: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/2.jpg)
Elhuyarko Hizkuntza Zerbitzuak saileko
lantaldea
Itzulpenak / Hiztegiak / I+G
![Page 3: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/3.jpg)
![Page 4: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/4.jpg)
Abiatzeko
• Elhuyar hiztegiak Interneten• Interneten eragina hiztegigintzan• Desafio batzuk
![Page 5: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/5.jpg)
![Page 6: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/6.jpg)
![Page 7: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/7.jpg)
es euItzulpen-memoriak
ItzulTerm
DB termTerminologoak
Hiztegigintza-prozesuan berrikuntzak
![Page 8: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/8.jpg)
![Page 9: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/9.jpg)
Interneten eragina hiztegigintzan
• Testu-baliabideetan corpusgintza: web as/for corpus
• Hiztegiak: testuinguru berria– Hiztegi kontzeptuaren ezaugarrietan– Erabiltzeko, argitaratzeko eta egiteko
ereduetan– Negozio-ereduan
![Page 10: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/10.jpg)
Internet eta corpusak
• Ikuspegi linguistikoaInteresgarria da webaren alderdi
linguistiko bereziak aztertzea• Ikuspegi "praktikoa" Interesgarria da webetik
corpusak automatikoki eratzeko tresnak garatzea
• Internet: errealitate "linguistikoa"• Interneten BAKARRIK argitaratzen diren
testuak gero eta ugariagoak dira, eta ezaugarri bereziak dituzte
• Corpusak eratzea prozesu geldoa eta garestia da
• Interneten testu-kantitate handia dago, digitalizatuta; Interneten ERE argitaratzen diren testuak gero eta ugariagoak dira
![Page 11: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/11.jpg)
Web-corpusak
• Web as corpus: Internet corpus gisa kontsultatzea
• Web for corpus: Interneteko testuetatik corpusak automatikoki eratzea (offline)
![Page 12: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/12.jpg)
Web-corpusak – Elhuyar I+G
• Web as corpus:– CorpEus (http://www.corpeus.org)
• Web for corpus:– Elebakarrak: AutoCorpEx– Konparagarriak: Co3 (Comparable
Corpora Collector)– Pareleloak: PaCo2 (Parallel Corpora
Collector)
![Page 13: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/13.jpg)
![Page 14: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/14.jpg)
Interneten eragina
• Testu-baliabideetan corpusgintza: web as/for corpus
• Hiztegiak: testuinguru berria– Hiztegi kontzeptuaren ezaugarrietan– Erabiltzeko, argitaratzeko eta egiteko
ereduetan– Negozio-ereduan
![Page 15: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/15.jpg)
Testuinguru berria
• Hiztegi "elektronikoak" (vs "hiztegi inprimatuen bertsio digitalak")– Edukiera eta eduki-motak– Bilatze- eta nabigatze-aukerak
• Interaktibitatea– Feedback-a, parte-hartzea– Erabiltzailearen beharrak: pertsonalizazioa– Prozesu kolektiboa (Wikipedia, Wiktionary, Logos,
TermWiki...)• Automatizazioa? LNP...• Doako kontsulta / eduki librea
– Negozio-eredua!!!!
Hiztegigintzaren paradigma-aldaketa (Anderson & Nielsen, 2009)
![Page 16: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/16.jpg)
![Page 17: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/17.jpg)
M. Rundellen hiru "agertokiak"
• Enhanced dictionary– Standard version free (supported by advertising),
enhanced version paid-for
• Embedded dictionary– a “service” – available to users within another
environment
• Not a dictionary at all– Why do dictionaries exist?– They fulfil certain communicative needs – but what
if those needs could be met by other means?
Rundell, M. 2009. A future for dictionary publishing? Lexicom 2009
![Page 18: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/18.jpg)
![Page 19: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/19.jpg)
Euskararen desafio batzuk
• Corpus-hiztegigintza• Hiztegi (benetan) elektronikoak• Nork eta nola?
![Page 20: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/20.jpg)
Corpus-hiztegigintza
• Corpusak!!!!!– Erreferentzia-corpusa(k?),
espezializatuak... // web-corpusak!– Ustiatzeko aukera
• Teknologia: sakonago lantzeko arloak– Corpusak ustiatzeko tresna aurreratuak
sortu
• Ikuspegia – Deskriptiboa Pr[e|o]skriptiboa
([arau|gomendio]-emailea)
?
![Page 21: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/21.jpg)
Ongi aprobetxatzen ari al gara?
• Papereko hiztegien web-bertsioak edo Interneterako hiztegiak?– Edukiak: papera eta Internetekoak
berdinak dira– Functionalitateak: hainbat hobekuntza
bilaketa-sisteman eta aukeretan– Eguneratzea: Paperekoaren menpe
hiztegi estatikoak eguneraketa-maiztasun txikia
![Page 22: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/22.jpg)
Hiztegi (benetan) elektronikoak
• Diseinuak berritu (ez grafikoa bakarrik!), erabilgarritasuna.
• Eduki-motak ugaritu eta integratu (Copus-agerraldiak…)
• Funtzionalitatea areago landu (Lematizazioa, hizkuntza-teknologiak..)
• Pertsonalizaziorantz
"New electronic media provide not only new and better lexicographic solutions but also new options" (Bergenholtz & Tarp, 2005)
![Page 23: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/23.jpg)
Nork eta nola?
• Nork?– Profesionalak / Erabiltzaileak
• Zein diru-baliabidez?– Salmenta / harpidetza / publizitatea– Diru publikoa– Dohaintzak– Wiki eredua: banako editoreen doako
lana– ... Irudimena
![Page 24: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/24.jpg)
Ikasteko grinez, ekiteko prest
Eskerrik asko!
Solaserako unea...
![Page 25: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/25.jpg)
Internet, hiztegiak eta euskararen desafioak
Antton Gurrutxaga Hernaiz, Josu Aztiria Urtaran
Elhuyar Hizkuntza Zerbitzuakwww.elhuyar.org/hizkuntza-zerbitzuak
Praktika egokiak gutxitutako hizkuntzen erabilera IKTetan sustatzeko biltzarra
Leizaola FundazioaBilbo, 2010-11-19
![Page 26: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/26.jpg)
Bibliografia I• Aldezabal, I., Arriola, JM., Diaz de Ilarraza, A. & Sarasola, K.
2005. Hizkuntzalaritza Konputazionala. Bilbo: UEU Kilgarriff, A., 2000. "Business models for Dictionaries and NLP" In International Journal of Lexicography 13-2.
• Andersen, B. & Nielsen, S. 2008. "Ten Key Issues in Lexicography for the Future." In Lexicography at a Crossroads – Dictionaries and Encyclopedias Today, Lexicographycal Tools Tomorrow
• Atkins, S. & Rundell, M. 2008. The Oxford Guide to Practical Lexicography. Oxford Linguistics
• Bergenholtz, H. & S. Tarp. 2002. "Die moderne lexikographische Funktionslehre. Diskussionsbeitrag zu neuen und alten Paradigmen, die Wörterbücher als Gebrauchsgegenstände verstehen." Lexicographica. International Annual for Lexicography 18, 253-263.
• Grefenstette, G. 1998. "The Future of Linguistics and Lexicographers: Will there be Lexicographers in the year 3000?" In Euralex’98 Proceedings
• Hanks, P. 2000. "Do word meanings exist?" In Computers and the Humanities. 34-1-2, Springer.
• Kilgarriff, A. 1997. "I don't believe in word senses" In Computers and the Humanities. 31-2, Springer.
![Page 27: Hiztegiak, Internet eta euskararen desafioak](https://reader035.vdocuments.pub/reader035/viewer/2022062406/55c38875bb61eb8b318b45f5/html5/thumbnails/27.jpg)
Bibliografia II• Kilgarriff, A., Rychlý, P., Smrz, P. & and Tugwell, D. 2004. "The
Sketch Engine." In Proceedings of Euralex04. Lorient, France (http://www.sketchengine.co.uk/)
• Leturia, I., San Vicente, I. & Saralegi., X. 2009. "Search engine based approaches for collecting domain-specific Basque-English comparable corpora from the Internet". In 5th International Web as Corpus Workshop (WAC5). Donostia.
• Pustejovsky, J., Hanks, P. & Rumshisky, A. 2004. "Automated induction of sense in context." In Proceedings of the 20th international Conference on Computational Linguistics. Geneva.
• Rundell, M. 2009. "The road to automated lexicography: first banish the drudgery... then the drudges?" In eLexicography in the 21st century: new challenges, new applications (eLEX2009). Lovaina.
• Villegas, M., Bel, N., Bel, S., Alemany, F. & Martínez, H. (2009). "Lexicography in the grid environment ." In Proceedings of eLexicography in the 21st century: new challenges, new applications (eLEX2009). Lovaina: Cahiers du Cental.