korpusna lingvistika

21
Uvod u opštu lingvistiku 2 Uvod u opštu lingvistiku 2

Upload: ngonhan

Post on 08-Feb-2017

270 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Korpusna lingvistika

Uvod u opštu lingvistiku 2Uvod u opštu lingvistiku 2

Page 2: Korpusna lingvistika

Nastanak korpusne lingvistike� Korpusna lingvistika - devedesetih godina dvadesetog

veka

� Generativisti – pedesete godine XX veka (fokus � Generativisti – pedesete godine XX veka (fokus lingvistike od empirizma ka racionalizmu)

� Kritika korpusnog pristupa

� Osamdesetih – interesovanje za korpsunu lingvistiku

Page 3: Korpusna lingvistika

Cilj� Primarna svrha korpusne lingvistike je opisivanje

sadržaja i odnosa unutar autentičnog jezika, iizučavanje diskursa kao medijatora znanja i društvenihnormi. normi.

� Korpusni pristup posmatra zakonitosti u jeziku kaouslovljene fundamentalnom praktičnom upotrebom udruštvenoj interakciji zajedno sa relevantnimkognitivnim i pragmatičkim implikacijama.

Page 4: Korpusna lingvistika

Korpus� Korpus u svom osnovnom značenju predstavlja skup teksta,

bilo pisanog ili govornog jezika.� Kvantitet korpusa (zbirka tekstova). Jedna knjiga –

nereprezentativnost

� Primer upotrebe ličnih zamenica muškog i ženskog roda(indirektna diskriminacija u jeziku).

� Računarski korpus - kodirani i standardizovan,optimizovani za pretragu i analizu i nalaze se pothranjeni uračunarskim bazama. Obično se sastoje od više miliona rečiiz različitih jezičkih i društvenih izvora i idealnoobuhvataju sve moguće pojave jednog jezika ,,uhvaćene” uvremenu i pretočene u elektronski tekstualni oblik.

Page 5: Korpusna lingvistika

Korpus� Opšti i specijalni korpusi – namenjeni različitim

vrstama lingv. analize.

� Određeni varijetet jezika� Određeni varijetet jezika

� Monitoring korpusi - korpusi koji održavaju svojureprezentativnost stalnim dodavanjem novih delovajezika i stalnim proširivanjem varijeteta u njima.

� bitno ispravno odabrati i definisati korpus za analizuda bi se osigurala relevantnost povratnih informacija

Page 6: Korpusna lingvistika

Korpus� Prema delu prirodnog jezika koji predstavlja dati

korpus postavlja se i opseg i cilj jezičkog istraživanja.

� Na primer, ako je korpus sastavljen od akademskih� Na primer, ako je korpus sastavljen od akademskihtekstova teško se može očekivati da pruži podlogu zaanalizu varijeteta jezika.

Page 7: Korpusna lingvistika

Reprezentativnost� Reprezentativnost jednog korpusa, a posledično i

rezultata koje taj korpus pruža prilikom neke analize,postiže se ne veličinom nego prvenstvenoraznolikošću, odnosno pravilnim i planiranimraznolikošću, odnosno pravilnim i planiranimodabirom izvora pri konstrukciji.

� Sinhronijska i dijahronijska dimenzija (istorijski razvojteksta).

Page 8: Korpusna lingvistika

Korpusi� Britanski nacionalni korpus

� To je veliki računarski korpus koji se sastoji od preko 100miliona reči iz pisanih i govornih izvora.

� Izvori 75% pisanog jezika su uglavnom informativni� Izvori 75% pisanog jezika su uglavnom informativnitekstovi iz oblasti nauke, religije, ekonomije, filozofije,umetnosti i medija, dok je 25% odvojeno za književnadela.

� Usmeni jezik je zastupljen u oko 10 miliona reči isastavljen je od transkripta spontanih razgovora,skriptovanih razgovora, javnih govora i usmenog jezika umedijima.

Page 9: Korpusna lingvistika

Korpusi� Korpus savremenog američkog engleskog jezika

(Corpus of Contemporary American English):monitoring korpus opšteg tipa sa 360 miliona reči naadresi http:// www.americancorpus.org/;

� − Korpus australijskog engleskog jezika (AustralianCorpus of English): monitoring korpus opšteg tipa sa 1milionom reči na adresi http://khnt.hit.uib.no/icame;

� − Kembridžov meñunarodni korpus (CambridgeInternational Corpus): višejezični korpus specijalnogtipa sa 275 miliona reči naadrehttp://www.cambridge.org/elt/corpus;

Page 10: Korpusna lingvistika

Korpusi� − Ruski nacionalni korpus (Russian National Corpus):

monitoring korpus opšteg tipa sa 150 miliona reči na adresihttp://www.ruscorpora.ru/en/index.html;

� − Nacionalni korpus hrvatskog jezika: monitoring korpusopšteg tipa sa 30 miliona reči na adresiopšteg tipa sa 30 miliona reči na adresihttp://www.hnk.ffzg.hr/;

� − Korpus savremenog srpskog jezika: korpus opšteg tipa sa24 miliona reči na adresihttp://korpus.matf.bg.ac.yu/prezentacija/korpus.html;

� − Korpus srpskog jezika: korpus opšteg tipa sa 12 milionareči na adresi http://www.serbiancorpus.edu.rs/indexns.htm.

Page 11: Korpusna lingvistika

Terminologija� Kodiranje - Postupak dodavanja dodatnih lingvističkih

informacija u tekstove unutar korpusa;� etiketirani/neetiketirani korpusi - Etiketiranje je

komplikovani proces dodavanja dodatnih informacijakomplikovani proces dodavanja dodatnih informacijau korpus. Informacije se mogu ticati obeležavanja rečipo gramatičkoj kategoriji, rodu, broju, morfološkim ifonološkim karakteristikama, itd.

� Parsiranje je postupak odvajanja rečeničnih delova iopisivanje odnosa između njih. Parsiranjem seodređuje sintaksička struktura rečenice i retki sukorpusi koji poseduju ovakav napredni nivo kodiranja;

Page 12: Korpusna lingvistika

Terminologija� Tip i token – kvalitativna i kvantitativna analiza.

� Konkordanser – programi za pretragu korpusa.

Page 13: Korpusna lingvistika

Karakteristike korpusnog pristupa� Primenljivost na više različitih polja:

� leksikografija (upotreba korpusa je veoma rasprostranjena pripravljenju rečnika);

� − sociolingvistika (korpusni pristup omogućuje istraživanjedijalekata, registara i samog društva);dijalekata, registara i samog društva);

� − analiza diskursa (ovakav pristup obezbeñuje dovoljno velikeuzorke diskursa omogućujući time pronalaženjekarakteristika jezika bez strukturalnih ograničenja);

� − morfologija (rezultati dobijeni pri analizi korpusa moguotkriti mnogo o frekventnosti, distribuciji i ulozi raznihoblika leksema);

� − fonologija (računarski korpusi mogu pružiti uvid u različitepojave fonetske distribucije i pomoći u pronalaženjuzakonitosti);

Page 14: Korpusna lingvistika

Karakteristike korpusnog pristupa� semantika (teško je pronaći pristup koji može pružiti toliko

podataka o značenju reči kao korpusni pristup);� − sintaksa (istraživanje jezičkih struktura na ovakav način

može pružiti empirijske dokaze o tome kako pristupamokonstruisanju rečenica i kako se izražavamo kroz jezik);konstruisanju rečenica i kako se izražavamo kroz jezik);

� − komparativna i kontrastivna lingvistika (postojanjeparalelnih korpusa može otkriti sličnosti i razlike meñujezicima);

� − metodika nastave (korpusi mogu pomoći pri dizajniranjumaterijala i aktivnosti za učenje jezika);

� − kognitivna lingvistika (autentična prirodna upotrebajezika smeštena u korpuse daje uvid u način na kojimentalni procesi utiču na komunikaciju i na jezik u celini).

Page 15: Korpusna lingvistika

Odlike korpusnog pristupa� Induktivni tip. � empirijskog je karaktera budući da se bavi analizom

komunikacije u njenom prirodnom obliku;� − analiza se zasniva na velikim skupovima teksta koji� − analiza se zasniva na velikim skupovima teksta koji

predstavlja jezik, a koji se nazivaju korpusi;� − koriste se računari u istraživanju;� − fokus je na jezičkoj performansi umesto na jezičkoj

kompetenciji;� − radi se o kvantitativnom i kvalitativnom modelu

proučavanja jezika

Page 16: Korpusna lingvistika

Jedinice analize� Zavisi od lingvističkog nivoa koji nas zanima

(fonologija, morfologija, sintaksta, leksikologija,diskurs)

Page 17: Korpusna lingvistika

Kvantitativna i kvalitativna analiza� Kvalitativna dimenzija istraživanja odnosi se na

istraživanje jezičkih pojava kao određenih tipova,predstavnika svoje jezičke grupe (npr. istraživanjeimenica, ili određenih morfoloških nastavaka, kaoimenica, ili određenih morfoloških nastavaka, kaopredstavnika jedne klase) dok se kvantitativna analizaodnosi na frekventnost pojedinačnih jezičkih jedinica,odnosno tokena.

� Kod kvalitativne analize važan je nivo etiketiranostikorpusa.

Page 18: Korpusna lingvistika

Frekventnost� Razne vrste statističke obrade podataka su zapravo materija

koja daje čvrstu empirijsku bazu i služi kao izvor svakojposledičnoj teoriji o nekoj jezičkoj pojavi.

� Statistički proračuni se koriste i kod izračunavanjaverovatnoće pojave jezičke jedinice u pretpostavljenomverovatnoće pojave jezičke jedinice u pretpostavljenomdiskursu teorijski neograničene veličine.

� Statistička analiza je obavezan deo svakog korpusnogistraživanja jer ona ne samo da daje temelj teoretisanju oodreñenim jezičkim zakonitostima i izračunavanjuverovatnoće, nego i potvrñuje naučnu vrednost podatakaverifikujući ih ili kao nasumične ili kao lingvističkirelevantne

Page 19: Korpusna lingvistika

Kontekstualizacija� Svaki korpus pruža precizno definisani uvid u

kontekstualnu situaciju u kojoj je dati tekstproizveden, što nam daje kontrolu nad još jednomvarijablom u istraživanju dajući nam na taj način viševarijablom u istraživanju dajući nam na taj način višekontrole nad istraživanjem.

Page 20: Korpusna lingvistika

Ograničenja� Filmor: „Mislim da ne postoji takav korpus, ma koliko

bio veliki, koji bi posedovao dovoljno podataka osvimoblastima leksikona i gramatike [engleskog]jezika koje bih ja želeo da analiziram. Međutm, svakijezika koje bih ja želeo da analiziram. Međutm, svakikorpus koji sam imao prilika da analiziram, bez obzirana to koliko je mali bio, prikazao mi je činjenice kojene bih ni na kakav drugi zamisliv način mogaopronaći.”

Page 21: Korpusna lingvistika

Korpusna lingvistika u Srbiji� Ne postoji opšti nacionalni korpus srpskog jezika.� Korpus savremenog srpskog jezika (Matematička i

računarska lingvistika 1981. godine pod vođstvom Duška Vitasa, iposle postavljanja na internet većim delom ostaje neetiketiran.Izvori za 24 miliona reči, od kojih dve trećine čine tekstovi izPolitike, nisu ni približno dovoljno raznovrsni.)Politike, nisu ni približno dovoljno raznovrsni.)

� Korpus srpskog jezika (vizionarski započet još 1957. od straneĐorđa Kostića, kao deo velikog jezičkog projekta socijalističkeJugoslavije na kome su učestvovali i Rudolf Filipović i ŽeljkoBujas. Korpus je pretvoren u elektronski tekst 1996. od straneAleksandra Kostića i sadrži 11 miliona reči. Korpus posedujeodličnu dijahronu dimenziju sa izvorima počevši od 12. veka.Nedostaci se tiču sinhrone dimenzije jezika koja praktično nepostoji, jer nedostaju uzorci savremenog srpskog jezika.