formalne gramatike

30
Računalna metodologija za jezično istraživanje Razine formalnog opisa i obrada jezika

Upload: ivi

Post on 18-Mar-2016

84 views

Category:

Documents


6 download

DESCRIPTION

FORMALNE GRAMATIKE. Regularne gramatike ( Regular Grammars ) Božo Bekavac. Konačni automat (KA). Pokušajmo objasniti princip rada konačnog automata na primjeru automata za kavu. Karakteristike automata za kavu su: cijena kave je 2,5 kuna - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: FORMALNE GRAMATIKE

Računalna metodologija za jezično istraživanje

Razine formalnog opisa i obrada

jezika

Page 2: FORMALNE GRAMATIKE

Obrada jezika – termini Označavanje (tagging, mark-up) je

pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst

Oznake (tags) – umeću se u tekst Pri obilježavanju korpusa oznake se

umeću iz određenoga skupa oznaka Skup oznaka (tagset) je popis svih

mogućih oznaka kojima se može obilježavati tekst

Page 3: FORMALNE GRAMATIKE

Razine obrade prirodnoga jezika (bez semantike)

Page 4: FORMALNE GRAMATIKE

Razine obrade prirodnoga jezika (bez semantike)1. tokenizacija (opojavničenje)2. segmentacija na rečenice3. lematizacija4. POS i MSD označavanje5. plitko (shallow) parsanje6. dubinsko (deep) parsanje POGRŠKE SE ČESTO ZBRAJAJU!

Page 5: FORMALNE GRAMATIKE

Opojavničenje Postupak identifikacije i ekspliciranja

pojavnica, tj. lingvističkih jedinica kao što su “riječi”, interpunkcija, znamenke i sl.

Iako izgleda trivijalan problem, promotrimo slučajeve: 11. travnja 2008., Austro-Ugarska, daljinski upravljač, npr., SAD-a, we’ll, isn’t, Lebensversicherungsgesellschaftsangestellter, itd.

O koliko je pojavnica riječ?

Page 6: FORMALNE GRAMATIKE

Segmentacija na rečenice Ekspliciranje granica između rečenica Znakovi interpunkcije (., ?, !) uvijek kraj

rečenice? Heuristički gledano, oko 90% točaka

jesu krajevi rečenica! PROBLEMI: titule, kratice, inicijali i sl.

Prof. Ivić, npr. Austrija, Antun B. Šimić, J. K. itd.

Moguće riješiti ekskluzivnim pravilima (regularnim), preciznost > 99 %

Page 7: FORMALNE GRAMATIKE

Lematizacija Lematizacija (lemmatisation) je

svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu

Lema je onaj oblik pod kojim bismo tražili neku riječ u rječniku

Lema predstavlja sve oblike određene riječi

Page 8: FORMALNE GRAMATIKE

Lematizacija Na primjer, pojavnice walked, walks ili

walking bile bi svedene na lemu (to) walk Na primjer, pojavnice stol, stolova ili

stolu bile bi svedene na lemu stol Lematizacija se na isti način primjenjuje

na morfološki supletivne oblike, npr. jesam, bijah ili bila svode se na leksem biti

Nije isto što i stemming: pojavnicu stemmer→stemm, ali better→tek lematizator ispravno svodi na good

Page 9: FORMALNE GRAMATIKE

Označavanje vrsta riječi (Part-of-speech (POS) tagging) Označavanje vrsta riječi (POS

tagging) je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu

Spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je npr. sintaktički parsing, chunking

Page 10: FORMALNE GRAMATIKE

POS označivač (tagger) Alat s pomoću kojega se obavlja

automatsko POS označavanje naziva se POS označivač (tagger)

Osnovna podjela prema načinu rada na: One koji se zasnivaju na pravilima

(Rule based) Vjerojatnosne (Probabilistic)

Page 11: FORMALNE GRAMATIKE

Označavanje vrsta riječi Točnost automatskog označavanja

danas: do 96-97 % POS oznake prvi su korak u

razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik, a različite gramatičke kategorije i/ili značenje

Page 12: FORMALNE GRAMATIKE

Alembic tagger vs. QTAG

Page 13: FORMALNE GRAMATIKE

Prepoznavanje imena (Name recognition) Imena su često nepoznata sustavu za

obradu jezika (nema ih u leksikonu) Osobe, lokacije, tvrtke itd. čine otvoren

popis jezičnog inventara U nekim žanrovima teksta pokrivaju čak

jednu desetinu cjelokupnoga teksta Često se obavlja prije POS označavanja

ili parsinga

Page 14: FORMALNE GRAMATIKE

Name recognition - eng<ENAMEX TYPE="LOCATION">Washington</ENAMEX>, <TIMEX TYPE="DATE">March 7</TIMEX> (<ENAMEX TYPE="ORGANIZATION">Bloomberg</ENAMEX>) -- <ENAMEX TYPE="ORGANIZATION">MCI Communications Corp.</ENAMEX> and <ENAMEX TYPE="ORGANIZATION">News Corp.</ENAMEX> said they will pay <ENAMEX TYPE="ORGANIZATION">Loral Corp.</ENAMEX> more than <NUMEX TYPE="MONEY">$400 million</NUMEX> to build two satellites for a direct television broadcasting venture. <ENAMEX TYPE="ORGANIZATION">Loral</ENAMEX> said it will launch the first satellite <TIMEX TYPE="DATE">late next year</TIMEX> and the second in <TIMEX TYPE="DATE">1998</TIMEX>. <ENAMEX TYPE="ORGANIZATION">MCI</ENAMEX> said it expects to offer satellite television in the <ENAMEX TYPE="LOCATION">U.S.</ENAMEX> by the <TIMEX TYPE="DATE">end of 1997</TIMEX>.

Page 15: FORMALNE GRAMATIKE

Parsanje (parsing) Parsanje (ili sintaktička raščlamba,

sintaktička analiza) je postupak analize nizova pojavnica u rečenici kako bi se utvrdila njena gramatička struktura s obzirom na zadanu formalnu gramatiku

Page 16: FORMALNE GRAMATIKE

Plitko parsanje Plitko parsanje (eng. shallow

parsing, light parsing) – je postupak analize rečenice kod kojeg se prepoznaju sastavnice (konstituenti), ali se ne prepoznaje interna struktura sastavnica, niti njihova uloga u rečenici

Sastavnice – NP, VP, PP, ADVP

Page 17: FORMALNE GRAMATIKE

Što je sastavnica? U nekim slučajevima ne postoji

suglasnost svih lingvista što je točno sastavnica, ali osnovne prihvaćene značajke su: Distribucija: sastavnica se ponaša kao

jedinica koja se može pojaviti na različitim mjestima u rečenici (scrambling)

Zamjena i proširenje: I sat [on the box/right on the top of the box/

there]

Page 18: FORMALNE GRAMATIKE

Premetanje sastavnica (scrambling) - engleski On September seventeenth, I'd like to fly from

Atlanta to Denver I'd like to fly on September seventeenth from

Atlanta to Denver I'd like to fly from Atlanta to Denver on

September seventeenth *On September, I'd like to fly seventeenth

from Atlanta to Denver *On I'd like to fly September seventeenth

from Atlanta to Denver *I'd like to fly on September from Atlanta to

Denver seventeenth

Page 19: FORMALNE GRAMATIKE

Dubinsko parsanje Dubinsko (deep, full parsing) parsanje je

postupak kojim se utvrđuje cjelovita hijerarhijska struktura rečenice

Drugim riječima, od linearnog ulaza (rečenice) izgrađuje se hijerarhijska struktura (stablo)

Struktura rečenice najčešće se definira nizom beskontekstnih pravila

Page 20: FORMALNE GRAMATIKE

Dubinsko parsanje Rezultat obrade je stablo parsanja:

Page 21: FORMALNE GRAMATIKE

Banke stabala - The Penn Treebank ( (S (NP-SBJ (DT The) (NN move)) (VP (VBD followed) (NP (NP (DT a) (NN round)) (PP (IN of) (NP (NP (JJ similar) (NNS increases)) (PP (IN by) (NP (JJ other) (NNS lenders))) (PP (IN against) (NP (NNP Arizona) (JJ real) (NN estate) (NNS loans)))))) (, ,) (S-ADV (NP-SBJ (-NONE- *)) (VP (VBG reflecting) (NP (NP (DT a) (VBG continuing) (NN decline)) (PP-LOC (IN in) (NP (DT that) (NN market))))))) (. .)))

Page 22: FORMALNE GRAMATIKE

Zašto je prepoznavanje prirodnoga jezika toliko složeno? Znanje određenog jezika (tj. njegov

leksikon i gramatika) pruža moguće interpretacije određenog iskaza

Željena/namjeravana interpretacija ovisi o kontekstu, diskursu, konvencijama komunikacije i izvanjezičnom znanju

Na primjer, potrebno je izabrati između više smislova riječi, više alternativnih parsinga rečenice itd. koji zahtijevaju izvanjezično znanje

Page 23: FORMALNE GRAMATIKE

Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer! Fed raises interest rates 0.5% in effort to

control inflation. (NYT naslov 17. svibnja. 2000) Stablo parsanja:

Page 24: FORMALNE GRAMATIKE

Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer! Višeznačnost vrsta riječi (POS)

in effort

to control infl. Višeznačnost sintaktičkog pridruživanja Skrivene strukture u jeziku često su

iznimno višeznačne!

Page 25: FORMALNE GRAMATIKE

Oznake NN - noun, common singular (action) NNS - noun, common plural (actions) NNP - noun, proper singular (Thailand) VBZ - verb, -s (believes) VB - verb, base (believe) VBP - verb, non-3rd person singular

present CD - number, cardinal (four)

Page 26: FORMALNE GRAMATIKE

Stabla parsanja

Page 27: FORMALNE GRAMATIKE

Stabla parsanja Ako izradimo pravila formalne gramatike:

S NP VP NN interest NP (DT) NN NNS rates NP NN NNS NNS raises NP NNP VBP interest VP V NP VBZ rates …

Najmanja (minimalna) gramatika promatrane rečenice daje 10 stabala parsanja

Jednostavna gramatika koja se sastoji od 10 pravila daje 592 stabala parsanja

Cjelovita gramatika eng. → više od milijun stabala

Page 28: FORMALNE GRAMATIKE

Tipičan problem obrade prirodnoga jezika Gramatike s velikim ograničenjima

nastoje limitirati manje vjerojatne/željene parsinge To ih čini manje robusnima i mnoge

rečenice nemaju stabla Gramatike s manjim ograničenjima

mogu parsati više rečenica Čak jednostavne rečenice imaju više stabala

Statističkim metodama pronalaze se najvjerojatnija rješenja (stabla)!

Page 29: FORMALNE GRAMATIKE

Drugi pogled na jezičnu strukturu Postoje i formalni gramatički opisi koji se

ne zasnivaju na sastavnicama Npr. ovisnosna gramatika (dependency

grammar) (Tesnière, Mel´čuk) – pokazuje koje riječi ovise (modificiraju ih ili su argumenti od) neke druge riječi Proizvodi stabla ovisnosti, ne konstituentska

stabla Nema sastavničkih čvorova

Prikladnija za opis jezika sa “slobodnijim redom riječi”

Page 30: FORMALNE GRAMATIKE

Ovisnosna (dependency) i konstituentska struktura