formalne gramatike

Post on 18-Mar-2016

84 Views

Category:

Documents

6 Downloads

Preview:

Click to see full reader

DESCRIPTION

FORMALNE GRAMATIKE. Regularne gramatike ( Regular Grammars ) Božo Bekavac. Konačni automat (KA). Pokušajmo objasniti princip rada konačnog automata na primjeru automata za kavu. Karakteristike automata za kavu su: cijena kave je 2,5 kuna - PowerPoint PPT Presentation

TRANSCRIPT

Računalna metodologija za jezično istraživanje

Razine formalnog opisa i obrada

jezika

Obrada jezika – termini Označavanje (tagging, mark-up) je

pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst

Oznake (tags) – umeću se u tekst Pri obilježavanju korpusa oznake se

umeću iz određenoga skupa oznaka Skup oznaka (tagset) je popis svih

mogućih oznaka kojima se može obilježavati tekst

Razine obrade prirodnoga jezika (bez semantike)

Razine obrade prirodnoga jezika (bez semantike)1. tokenizacija (opojavničenje)2. segmentacija na rečenice3. lematizacija4. POS i MSD označavanje5. plitko (shallow) parsanje6. dubinsko (deep) parsanje POGRŠKE SE ČESTO ZBRAJAJU!

Opojavničenje Postupak identifikacije i ekspliciranja

pojavnica, tj. lingvističkih jedinica kao što su “riječi”, interpunkcija, znamenke i sl.

Iako izgleda trivijalan problem, promotrimo slučajeve: 11. travnja 2008., Austro-Ugarska, daljinski upravljač, npr., SAD-a, we’ll, isn’t, Lebensversicherungsgesellschaftsangestellter, itd.

O koliko je pojavnica riječ?

Segmentacija na rečenice Ekspliciranje granica između rečenica Znakovi interpunkcije (., ?, !) uvijek kraj

rečenice? Heuristički gledano, oko 90% točaka

jesu krajevi rečenica! PROBLEMI: titule, kratice, inicijali i sl.

Prof. Ivić, npr. Austrija, Antun B. Šimić, J. K. itd.

Moguće riješiti ekskluzivnim pravilima (regularnim), preciznost > 99 %

Lematizacija Lematizacija (lemmatisation) je

svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu

Lema je onaj oblik pod kojim bismo tražili neku riječ u rječniku

Lema predstavlja sve oblike određene riječi

Lematizacija Na primjer, pojavnice walked, walks ili

walking bile bi svedene na lemu (to) walk Na primjer, pojavnice stol, stolova ili

stolu bile bi svedene na lemu stol Lematizacija se na isti način primjenjuje

na morfološki supletivne oblike, npr. jesam, bijah ili bila svode se na leksem biti

Nije isto što i stemming: pojavnicu stemmer→stemm, ali better→tek lematizator ispravno svodi na good

Označavanje vrsta riječi (Part-of-speech (POS) tagging) Označavanje vrsta riječi (POS

tagging) je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu

Spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je npr. sintaktički parsing, chunking

POS označivač (tagger) Alat s pomoću kojega se obavlja

automatsko POS označavanje naziva se POS označivač (tagger)

Osnovna podjela prema načinu rada na: One koji se zasnivaju na pravilima

(Rule based) Vjerojatnosne (Probabilistic)

Označavanje vrsta riječi Točnost automatskog označavanja

danas: do 96-97 % POS oznake prvi su korak u

razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik, a različite gramatičke kategorije i/ili značenje

Alembic tagger vs. QTAG

Prepoznavanje imena (Name recognition) Imena su često nepoznata sustavu za

obradu jezika (nema ih u leksikonu) Osobe, lokacije, tvrtke itd. čine otvoren

popis jezičnog inventara U nekim žanrovima teksta pokrivaju čak

jednu desetinu cjelokupnoga teksta Često se obavlja prije POS označavanja

ili parsinga

Name recognition - eng<ENAMEX TYPE="LOCATION">Washington</ENAMEX>, <TIMEX TYPE="DATE">March 7</TIMEX> (<ENAMEX TYPE="ORGANIZATION">Bloomberg</ENAMEX>) -- <ENAMEX TYPE="ORGANIZATION">MCI Communications Corp.</ENAMEX> and <ENAMEX TYPE="ORGANIZATION">News Corp.</ENAMEX> said they will pay <ENAMEX TYPE="ORGANIZATION">Loral Corp.</ENAMEX> more than <NUMEX TYPE="MONEY">$400 million</NUMEX> to build two satellites for a direct television broadcasting venture. <ENAMEX TYPE="ORGANIZATION">Loral</ENAMEX> said it will launch the first satellite <TIMEX TYPE="DATE">late next year</TIMEX> and the second in <TIMEX TYPE="DATE">1998</TIMEX>. <ENAMEX TYPE="ORGANIZATION">MCI</ENAMEX> said it expects to offer satellite television in the <ENAMEX TYPE="LOCATION">U.S.</ENAMEX> by the <TIMEX TYPE="DATE">end of 1997</TIMEX>.

Parsanje (parsing) Parsanje (ili sintaktička raščlamba,

sintaktička analiza) je postupak analize nizova pojavnica u rečenici kako bi se utvrdila njena gramatička struktura s obzirom na zadanu formalnu gramatiku

Plitko parsanje Plitko parsanje (eng. shallow

parsing, light parsing) – je postupak analize rečenice kod kojeg se prepoznaju sastavnice (konstituenti), ali se ne prepoznaje interna struktura sastavnica, niti njihova uloga u rečenici

Sastavnice – NP, VP, PP, ADVP

Što je sastavnica? U nekim slučajevima ne postoji

suglasnost svih lingvista što je točno sastavnica, ali osnovne prihvaćene značajke su: Distribucija: sastavnica se ponaša kao

jedinica koja se može pojaviti na različitim mjestima u rečenici (scrambling)

Zamjena i proširenje: I sat [on the box/right on the top of the box/

there]

Premetanje sastavnica (scrambling) - engleski On September seventeenth, I'd like to fly from

Atlanta to Denver I'd like to fly on September seventeenth from

Atlanta to Denver I'd like to fly from Atlanta to Denver on

September seventeenth *On September, I'd like to fly seventeenth

from Atlanta to Denver *On I'd like to fly September seventeenth

from Atlanta to Denver *I'd like to fly on September from Atlanta to

Denver seventeenth

Dubinsko parsanje Dubinsko (deep, full parsing) parsanje je

postupak kojim se utvrđuje cjelovita hijerarhijska struktura rečenice

Drugim riječima, od linearnog ulaza (rečenice) izgrađuje se hijerarhijska struktura (stablo)

Struktura rečenice najčešće se definira nizom beskontekstnih pravila

Dubinsko parsanje Rezultat obrade je stablo parsanja:

Banke stabala - The Penn Treebank ( (S (NP-SBJ (DT The) (NN move)) (VP (VBD followed) (NP (NP (DT a) (NN round)) (PP (IN of) (NP (NP (JJ similar) (NNS increases)) (PP (IN by) (NP (JJ other) (NNS lenders))) (PP (IN against) (NP (NNP Arizona) (JJ real) (NN estate) (NNS loans)))))) (, ,) (S-ADV (NP-SBJ (-NONE- *)) (VP (VBG reflecting) (NP (NP (DT a) (VBG continuing) (NN decline)) (PP-LOC (IN in) (NP (DT that) (NN market))))))) (. .)))

Zašto je prepoznavanje prirodnoga jezika toliko složeno? Znanje određenog jezika (tj. njegov

leksikon i gramatika) pruža moguće interpretacije određenog iskaza

Željena/namjeravana interpretacija ovisi o kontekstu, diskursu, konvencijama komunikacije i izvanjezičnom znanju

Na primjer, potrebno je izabrati između više smislova riječi, više alternativnih parsinga rečenice itd. koji zahtijevaju izvanjezično znanje

Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer! Fed raises interest rates 0.5% in effort to

control inflation. (NYT naslov 17. svibnja. 2000) Stablo parsanja:

Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer! Višeznačnost vrsta riječi (POS)

in effort

to control infl. Višeznačnost sintaktičkog pridruživanja Skrivene strukture u jeziku često su

iznimno višeznačne!

Oznake NN - noun, common singular (action) NNS - noun, common plural (actions) NNP - noun, proper singular (Thailand) VBZ - verb, -s (believes) VB - verb, base (believe) VBP - verb, non-3rd person singular

present CD - number, cardinal (four)

Stabla parsanja

Stabla parsanja Ako izradimo pravila formalne gramatike:

S NP VP NN interest NP (DT) NN NNS rates NP NN NNS NNS raises NP NNP VBP interest VP V NP VBZ rates …

Najmanja (minimalna) gramatika promatrane rečenice daje 10 stabala parsanja

Jednostavna gramatika koja se sastoji od 10 pravila daje 592 stabala parsanja

Cjelovita gramatika eng. → više od milijun stabala

Tipičan problem obrade prirodnoga jezika Gramatike s velikim ograničenjima

nastoje limitirati manje vjerojatne/željene parsinge To ih čini manje robusnima i mnoge

rečenice nemaju stabla Gramatike s manjim ograničenjima

mogu parsati više rečenica Čak jednostavne rečenice imaju više stabala

Statističkim metodama pronalaze se najvjerojatnija rješenja (stabla)!

Drugi pogled na jezičnu strukturu Postoje i formalni gramatički opisi koji se

ne zasnivaju na sastavnicama Npr. ovisnosna gramatika (dependency

grammar) (Tesnière, Mel´čuk) – pokazuje koje riječi ovise (modificiraju ih ili su argumenti od) neke druge riječi Proizvodi stabla ovisnosti, ne konstituentska

stabla Nema sastavničkih čvorova

Prikladnija za opis jezika sa “slobodnijim redom riječi”

Ovisnosna (dependency) i konstituentska struktura

top related