spletni konkordančnik za govorni korpus slovenskega jezika gos

24
DARINKA VERDONIK UNIVERZA V MARIBORU, FAKULTETA ZA ELEKTROTEHNIKO, RAČUNALNIŠTVO IN INFORMATIKO Spletni konkordančnik za govorni korpus slovenskega jezika GOS MINISTRSTVO ZA VISOKO ŠOLSTVO, ZNANOST IN TEHNOLOGIJO REPUBLIKA SLOVENIJA

Upload: hao

Post on 23-Mar-2016

64 views

Category:

Documents


9 download

DESCRIPTION

Spletni konkordančnik za govorni korpus slovenskega jezika GOS. Darinka verdonik Univerza v mariboru, fakulteta za elektrotehniko, računalništvo in informatiko. MINISTRSTVO ZA VISOKO ŠOLSTVO, ZNANOST IN TEHNOLOGIJO. REPUBLIKA SLOVENIJA. Namen konkordančnika GOS. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

D A R I N KA V E R D O N I K

U N I V E R Z A V M A R I B O R U , F A K U L T E T A Z A E L E K T R O T E H N I K O , R A Č U N A L N I Š T V O I N I N F O R M A T I K O

Spletni konkordančnik za govorni korpus slovenskega

jezika GOS

MINISTRSTVO ZA VISOKO ŠOLSTVO, ZNANOST IN TEHNOLOGIJO

REPUBLIKA SLOVENIJA

Page 2: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Omogočiti spletni dostop in iskanje po nacionalnem govornem korpusu slovenščine najrazličnejšim zainteresiranim uporabnikom: zbirka dostopna širši javnosti in bo omogočala sodobnikom

vpogled v trenutno stanje jezikovne podobe slovenskega jezika, kakršen doslej ni bil mogoč,

s skrbnim hranjenjem in dostopnostjo korpusa tudi za prihodnje generacije pa predstavlja tudi dragocen kulturni dokument za naše zanamce.

Eden od korakov v okviru dolgoročne strategije razvoja, gradnje, vzdrževanja in nenehnega posodabljanja temeljne sodobne jezikoslovne infrastrukture za slovenski jezik in nadgrajuje del rezultatov predhodno začetega projekta Sporazumevanje v slovenskem jeziku.

Namen konkordančnika GOS

Page 3: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Uporabniki

Raziskovalci govora – omogoča številne raziskovalne možnosti za raziskovalce, ki se v svojih raziskavah dotikajo (tudi) človeškega govora in govorne komunikacije: vse veje jezikoslovja, razne veje sociologije, antropologije, kognitivnih in informacijskih znanosti

itd. V izobraževanju pri pouku slovenskega jezika, pri učenju

slovenskega jezika za tuje govorce: vir številnih avtentičnih primerov različnih govorjenih žanrov (od zbornega

do pokrajinskega in narečnega govora) in govora različnih slovenskih regij vir številnih primerov za spoznavanje oblikoslovja in skladnje govorjenega

jezika vir številnih primerov za spoznavanje pragmatične narave govorjenega

diskurza itd. Nekateri poklici, ki so v stiku z govorom:

razni pisci (scenaristi, pisatelji, novinarji...), tolmači in prevajalci, poklicni govorci (npr. na radiu in televiziji) idr.

Page 4: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Cilji konkordančnika

Prost dostop do govornega korpusa GOS. Povezanost transkribcij z zvokom na ravni izjav. Izkoristiti čim več informacij iz gradiva. Zadovoljiti različne skupine uporabnikov.

Page 5: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Vključitev gradiva GOS v konkordančnik za pisni korpus…

… bi zgledala nekako takole (WordSmith, del konkordančnega niza “in”):

so profesorji hudli takle je som tist volec takle sovkal in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta

dama al ne vem kaj [Af-star-05611 (hkrati):] eee joj [Cf-otro-05613:] in enkret bi mela poker in s nisem stavla k mi je edn eee zblefirov

kolk jih je pej še? [Cf-star-05561:] še edn [Bf-otro-05560 (hkrati):] in kej [ime] že ud zjutru piše nalogo? [Am-star-05559 (hkrati):] nje nje

jz sem mel tud tok jz sem mel z ruzakom osemšeeset... no in in ta je ta je še strastno hujša a veš in to če takle poba začne hujšat on on si

Page 6: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Potencial GOS-a

2 nivoja transkribcij: Pogovorni zapis: [Cm-star-02106:] in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele mejze pav kvadratnega metra uba

Knjižni zapis:[Cm-star-02106:] in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele mize pol kvadratnega metra oba

Page 7: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Potencial GOS-a

Zvok: [Cm-star-02106:] in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele mejze pav kvadratnega metra uba

Page 8: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Potencial GOS-a

Podatki o posnetku/diskurzu

TIP DISKURZA: nejavni zasebniVRSTA SITUACIJE: osebni stikOPIS DISKURZA: doma, druzinaREGIJA: CEVIR: terenski posnetekKRAJ: ŽičeCAS: 25.08.2009 18:30ST. AKTIVNIH UDELEZENCEV: 4OPIS GOVORNEGA DOGODKA: Pogovor predvsem o temah,

povezanih z življenjem na podeželju - stroji, pridelki, kuhanje …

Page 9: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Potencial GOS-a

Podatki o govorcih

SPOL: mSTAROST: 35 do 59REGIONALNA PRIPADNOST1: CEREGIONALNA PRIPADNOST2: nedolocnoREGIONALNA PRIPADNOST3: nedolocnoREGIONALNA PRIPADNOST4: nedolocnoREGIONALNA PRIPADNOST5: nedolocnoIZOBRAZBA: srednja solaPRVI JEZIK: slovenscina

Page 10: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Zasnova konkordančnika GOS

1 ISKALNI TIPI

2 ISKALNE OPERACIJE

3 PRIKAZ REZULTATOV

4 UREJANJE REZULTATOV

A OSNOVNO ISKANJE

iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini …

konkordančni niz, po izbiri še:-zvok-razširjeni odstavek-vir-opis govorca-opis diskurza…

statistika, urejanje, sito, vzorec …

B RAZŠIRJENO/PODKORPUSNO ISKANJE

enako enako enako

C IZBOR IN SHRANJEVANJE TRANSKRIPCIJ

- txt datoteke za shranjevanje

po želji na svojem računalniku

Page 11: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

A1, A2 Osnovno iskanje

A1 Privzeto po: 2. (knjižnem) nivoju zapisa (jaz – jaz, jest, jz, jst) in po celotnem korpusu

A2 Mogoče različne iskalne operacije, podobno kot v pisnem korpusu:

iskanje besede iskanje z nadomestnimi znaki iskanje po kanalih (lema – avtomatsko označena) iskanje po frazah iskanje po bližini …

Page 12: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

A3 Prikaz rezultatov

Rezultati se prikažejo po konkordancah:

vejdal de so profesorji hudli takle je som tist volec takle sovkal [smehna] | in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta

[Cf-otro][1] men se zi a dama al ne vem kaj [Bm-star][2] eee joj [Cf-otro] in enkret bi mela poker in s nisem stavla k mi je edn eee zblefirov

[Bf-otro] kolk jih pej še je? [Cf-star] še edn [premor] [Bf-otro] [1] in kej [ime] že ud zjutru piše nalogo? [Am-star] [2] nje nje

[Om-prij] [1] jz sem mel tud tok jz sem mel z ruzakom osemšeeset ... no in in ta je ta je še strastno hujša a veš in to če takle poba začne hujšat on on si

Page 13: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

A3 Prikaz rezultatov

Na klik so na voljo dodatne informacije: Zvok:

za izjavo, v kateri je najdeni izraz Podatki o govorcu

moški, 35 do 59, celjska regija, srednja šola, slovenščina Podatki o diskurzu

nejavni zasebni, osebni stik, družina, 25.8.09 ob 18.30 Pogovor predvsem o temah, povezanih z življenjem na podeželju -

stroji, pridelki, kuhanje… Knjižni zapis – cel konkordančni niz ali posamezne konkordance?:

videl da so profesorji hodili takole je samo tisti volec takole sukal [smehna] | in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista

Vir: terenski posnetek

Page 14: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

A3 Prikaz rezultatov

Razširjeni kontekst, +/- 1 segment/izjava, pogovorni zapis: [Cm-star-02106:]

som ku je vejdal de so profesorji hudli takle je som tist volec takle sovkal [smehna] in v tisti pal uri v trej četart uri puol sn še vejdal se sta celo dvo nejsta poštrejhala za pal

tutele mejze pal kvadratnga metra ubo [[Am-soro-02104][1] + [Cm-star-02106] [2]:]

[1] ja se tav je ze vidiš tisto[2] som takle sta [smehgo] ka si nuor jz sn se tak smejal puol tam zran ko sn jih gledal

Na zahtevo – zvok:

Na zahtevo – knjižni zapis: [Cm-star-02106:]

samo ko je videl da so profesorji hodili takole je samo tisti volec takole sukal [smehna] in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele

mize pol kvadratnega metra oba [[Am-soro-02104 ][1] + [Cm-star-02106] [2]:]

[1] ja saj to je zdaj vidiš tisto[2] samo takole sta [smehgo] kaj si nor jaz sem se tako smejal pol tam zraven ko sem jih gledal

Page 15: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

A4 Urejanje rezultatov

Filtriranje rezultatov: po atributih diskurzov (tip, kanal, regija …) po atributih govorcev (spol, starost, izobrazba …)

Statistika in druga opravila iz pisnega korpusa

Page 16: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Zasnova konkordančnika GOS

1 ISKALNI TIPI

2 ISKALNE OPERACIJE

3 PRIKAZ REZULTATOV

4 UREJANJE REZULTATOV

A OSNOVNO ISKANJE

Iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini …

Konkordančni niz, po izbiri še:-Zvok-Razširjeni odstavek-Vir-Opis govorca-Opis diskurza…

Statistika, urejanje, sito, vzorec …

B RAZŠIRJENO/PODKORPUSNO ISKANJE

enako enako enako

C IZBOR IN SHRANJEVANJE TRANSKRIPCIJ

- Txt datoteke za shranjevanje

Po želji na svojem računalniku

Page 17: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

B1 Podkorpusno iskanje

Možnost izbire znotraj gradiva glede na: Nivo zapisa:

pogovorni zapis (in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele …)

knjižni zapis (in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele)

Oznake diskurza: tip diskurza: JI, JR, NN, NZ kanal: radio, tv, telefon, osebni stik vrsta situacije: OŠ, SŠ, predavanje, družina, prijatelji… regija: MB, LJ, MS, CE, SG, KK, PO, NM, KP, GO, Italija,

Avstrija… število udeležencev tudi kraj (ob registraciji)

Page 18: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

B1 Podkorpusno iskanje

Možnost izbire znotraj gradiva glede na: Oznake govorcev:

Spol Starost: do 10, 10 do 14, 15 do 18, 19 do 24, 25 do 34, 35 do 59,

nad 60, nedolocno Izobrazba: OS ali manj, srednja sola,visja ali visoka sola,

fakulteta ali vec, nedolocno Regija:

Regija 1: MB, MS, SG, CE, LJ, KR, NM, KK, GO, PO, KP, Italija, Avstrija, Madzarska, tujina, nedolocno

Regija 2: enako Regija 3: enako

Prvi jezik: slovenscina, anglescina, nemscina, italijanscina itd.

Page 19: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

B2, B3, B4 Podkorpusno iskanje

1. B2 Iskalne operacije: enako kot osnovno iskanje2. B3 Prikaz rezultatov: enako kot osnovno iskanje3. B4 Urejanje rezultatov: enako kot osnovno iskanje

Page 20: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Zasnova konkordančnika GOS

1 ISKALNI TIPI

2 ISKALNE OPERACIJE

3 PRIKAZ REZULTATOV

4 UREJANJE REZULTATOV

A OSNOVNO ISKANJE

Iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini …

Konkordančni niz, po izbiri še:-Zvok-Razširjeni odstavek-Vir-Opis govorca-Opis diskurza…

Statistika, urejanje, sito, vzorec …

B RAZŠIRJENO/PODKORPUSNO ISKANJE

enako enako enako

C IZBOR IN SHRANJEVAN. TRANSKRIPCIJ

- Txt datoteke za shranjevanje

Po želji na svojem računalniku

Page 21: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

C Izbor in shranjevanje transkripcij

C1 Možnost izbire znotraj gradiva enako kot pri podkorpusnem iskanju

C3 Uporabnik lahko shrani izbrane transkripcije kot txt datoteke na svoj računalnik

Govorec 1: Cf-star-06564Govorec 2: If-otro-06565 [Cf-star-06564:]

kakšn film s gledala? [If-otro-06565:]

čak eee čak da se spomnem [Cf-star-06564:]

kdaj pa? [If-otro-06565:]

eem ja včer sva drgač gle() aja [smehgo] ko je [ime] naštimvov [smehgo] | ja ta je dora ja [[If-otro-06565][1] + [If-otro-06565][2]:]

[1] [smehgo] sva se odločla dava film a ne g() dava gleala film[2] ja

[If-otro-06565:] sem uzela v knjižnc a ne devedeje | [neraz] [smehgo] ful smešn eem k je on ma zej a veš un ta nov eem ekran a ne za računalnik k kao loh un devede pl() plejer direkt ušteka

Page 22: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Predlogi, roki

Morebitne predloge za konkordančnik pošljite na: [email protected], [email protected]

Rok: konkordančnik bo na spletu do 30. septembra 2010

Page 23: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Prihodnost GOS-a?

Želeli bi si, da bi se spletni konkordančnik za govorni korpus, in seveda tudi gradivo – korpus, v prihodnosti dodatno razvijal, nadgrajeval z novimi funkcijami in novim gradivom ter nenehno posodabljal.

ČE se bodo odprle možnosti nadaljnjega financiranja, je vizija o prihodnjih posodobitvah korpusa: oblikoslovno označevanje in vključitev možnosti iskanja po

oblikoslovnih oznakah v konkordančnik skladenjsko označevanje in vključitev možnosti iskanja po

skladenjskih oznakah v konkordančnik širjenje gradiva na 2 mio. besed ali več …

Page 24: Spletni konkordančnik za govorni korpus slovenskega jezika  GOS

Zahvala

Številnim ustvarjalcem GOS-a (študenti FF UL, FDV, FF MB, FERI MB in sodelavci korpusa)

Govorcem, ki so dobrohotno dovolili vstop v svojo zasebnost (sorodniki, govorci, znanci … snemalcev in sodelavcev korpusa, učitelji idr.).

Institucijam, ki so odstopile posnetke ali dovolile snemanje pod svojim okriljem: mediji: Pop TV, RTV Slo, Radio Maribor, Radio City, Radio Center,

Radio Maxi, Koroški radio, Radio Fantasy, Štajerski val, Radio Krka, Radio Alfa, Radio Kranj, Radio Belvi, Radio Slovenija, Val 202, Radio Capris)

osnovne in srednje šole idr.

… in vam za pozornost!