darius amileviČius „lietuvių kalbos sintaksinės-semantinės analizės sistema“

17
Sintaksinės semantinės analizės sistema dr. Darius Amilevičius (VDU)

Upload: lietuvos-kompiuterininku-sajunga

Post on 15-Apr-2017

287 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Sintaksinės semantinės analizės sistema

dr. Darius Amilevičius (VDU)

Page 2: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“
Page 3: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“
Page 4: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“
Page 5: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Ekonomikos augimo veiksmų programos 3 prioriteto „INFORMACINĖ VISUOMENĖ VISIEMS“ įgyvendinimo priemonės Nr. VP2-3.1-IVPK-12-k

„LIETUVIŲ KALBA INFORMACINĖJE VISUOMENĖJE“

antroji veiklų grupė – esamo lietuvių kalbos tekstyno papildymas; lietuvių kalbos sintaksinės-

semantinės analizės priemonių ir jų pritaikymų kūrimas; lietuviškų interneto svetainių analizės sistemos ir jos pritaikymų kūrimas

Page 6: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Iš konkurso sąlygų:• Projekto vykdytojas ir partneris, įgyvendindami aprašo 4.2 punkte

nurodytą antrąją veiklų grupę turi:• 94.1. sukurti interaktyvią elektroninę lietuvių rašytinės kalbos naujovių vartosenos

paslaugą;• 94.2. sukurti priemones, pritaikytas teikti sintaksinės-semantinės analizės

paslaugą su galimybe vykdyti semantinę paiešką esamuose gramatiškai anotuotuose tekstynuose ir analizuoti savo įvestus tekstus, atlikti lietuvių kalbos gramatinę analizę ir pasiūlyti sakinio formuluotes;• 94.3. sukurti sistemą, saugančią lietuvių kalbos ir analizės priemones ir rezultatus,

pritaikytą analizuoti lietuviško turinio interneto svetainių turinį, atlikti pagal jį paiešką, pateikti analizės rezultatus vartotojui priimtina forma

Page 7: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Kalbos technologijų padėties Lietuvoje problemos:

• Nėra infrastruktūros (kompleksinis)• Nėra pakankamai įrankių• Nėra pakankamai išteklių• Nėra standartų• Nesutvarkyta teisinė bazė

Page 8: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

„LIETUVIŲ KALBOS SINTAKSINĖS-SEMANTINĖS ANALIZĖS SISTEMA TEKSTYNUI,

LIETUVIŠKAM INTERNETUI IR VIEŠOJO SEKTORIAUS TAIKYMAMS“ Nr. VP2-3.1-IVPK-

12-K-01-007 • Projekto pradžia: 2012-05-09• Projekto pabaiga: 2015-04-30

Page 9: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Projekto vykdytojai• Projekto vykdytojas: Vytauto Didžiojo universitetas

• Lingvistiniai-semantiniai ištekliai, įrankiai ir komponentai• dr. A. Utka, dr. D. Vitkutė-Adžgauskienė, dr. D. Amilevičius, dr. T. Krilavičius, dr. E.

Rimkutė, dr. L. Boizou, dr. F. Zamblera, I. Markiewicz ir kiti

• Projekto partneris: Kauno technologijos universitetas• Semantiniai ištekliai, įrankiai ir komponentai, informacinė sistema ir infrastruktūra• prof. R. Butleris, prof. L. Nemuraitė, dr. R. Butkienė ir kiti

Projekto vadovas: dr. Darius Amilevičius

Page 10: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Projekto esmė:10 elektroninių sprendimų, kurie įgyvenditi sukuriant:20 e-priemonių, 9 ontologijas ir gramatikos taisyklių rinkinius Informacinę sistemą

Be to:50 mln. Žodžių papildytas DLKT ( iki 200 mln. žodžių)Sukurtas lietuviško interneto tekstynas (800 mln. Žodžių)

Page 11: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Projekto esmė:Projekto įgyvendinimo metu buvo sukurtos viešosios paslaugos:I. Viešai interneto vartotojams prieinamos lietuvių rašytinės kalbos sintaksinės−semantinės analizės ir paieškos elektroninės paslaugos:

1. lietuviu rašytinės kalbos naujovių vartosenos paslauga;2. sintaksinės-semantinės analizės paslauga;3. lietuviškų svetainių turinio analizės ir paieškos paslauga;

II. Taip pat lietuvių kalbos sintaksinės-semantinės analizės branduolio paslaugos: 4. morfologinės ir sintaksinės analizės paslauga; 5. lingvistinės semantinės analizės paslauga; 6. specialių sričių semantinės analizės ir paieškos paslauga.III. Paslaugoms teikti buvo sukurta lietuvių kalbos sintaksinės ir semantinės analizės informacinė sistema, kuri prisidės prie nacionalinės lietuvių kalbos infrastrūkturos sukūrimo.

Page 12: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Komponentai ir kalbos duomenų bazės:• Tekstynų saugykla ir tekstynų tvarkymo komponentas• Lietuvių kalbos junginių (kolokacijų) atpažinimo ir anotavimo įrankis• Lietuvių kalbos konkordansų formavimo įrankis• Lietuvių kalbos tekstų statistinės analizės įrankis• Lietuvių kalbos teksto skaidymo įrankis (tokenizuotojas)• Teksto koduotės atpažinimo įrankis • Lietuvių kalbos atpažinimo įrankis• Tekstų panašumo įvertinimo įrankis

Page 13: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Komponentai ir kalbos duomenų bazės:• Lietuvių kalbos lemavimo įrankis• Lietuvių kalbos dalių anotavimo įrankis• Morfologinės analizės įrankis • Lietuvių k. morfologijos taisyklių rinkinys• Lietuvių k. sintaksinių taisyklių rinkinys• Lietuvių kalbos paviršutiniškos sintaksinės analizės ir anotavimo įrankis • Lietuvių kalbos pilno sintaksinio analizatorius ir anotatorius • Tripletų atpažinimo įrankis• Lietuvių k. gramatikos klaidų tikrinimo įrankis• Lietuvių kalbos rašybos tikrinimo įrankis• Įvardytų esybių atpažinimo įrankis• Tekstų panašumo įvertinimo įrankis• Teksto sentimentų įvertinimo įrankis• Ontologijų išgavimo komponentas• Specialių sričių semantinės analizės ir paieškos komponentas• Specialių sričių žodynų ir taisyklių kūrimo komponentas

Page 14: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Ontologijos:• Trijų specialių sričių ontologijos• Sentimentų ontologija• Bendrosios lietuvių k. ontologija• Vietovardžių ontologija• Asmenvardžių ontologija• Organizacijų pavadinimų ontologija• Trumpinių ontologija

Page 15: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Du (trys?) lietuvių kalbos modeliai:I. DLKT tekstynas (norminė LT kalba). II. Interneto tekstynas (norminei artima kalba).III. Socialiniai tekstai (chaosas)

Page 16: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

I. www.semantika.ltII. www. rastija.ltIII. VIISP ir Elektroniniai valdžios vartai

Page 17: Darius AMILEVIČIUS „Lietuvių kalbos sintaksinės-semantinės analizės sistema“

Dėkoju už dėmesį !