spletni konkordančnik za govorni korpus slovenskega jezika gos
DESCRIPTION
Spletni konkordančnik za govorni korpus slovenskega jezika GOS. Darinka verdonik Univerza v mariboru, fakulteta za elektrotehniko, računalništvo in informatiko. MINISTRSTVO ZA VISOKO ŠOLSTVO, ZNANOST IN TEHNOLOGIJO. REPUBLIKA SLOVENIJA. Namen konkordančnika GOS. - PowerPoint PPT PresentationTRANSCRIPT
D A R I N KA V E R D O N I K
U N I V E R Z A V M A R I B O R U , F A K U L T E T A Z A E L E K T R O T E H N I K O , R A Č U N A L N I Š T V O I N I N F O R M A T I K O
Spletni konkordančnik za govorni korpus slovenskega
jezika GOS
MINISTRSTVO ZA VISOKO ŠOLSTVO, ZNANOST IN TEHNOLOGIJO
REPUBLIKA SLOVENIJA
Omogočiti spletni dostop in iskanje po nacionalnem govornem korpusu slovenščine najrazličnejšim zainteresiranim uporabnikom: zbirka dostopna širši javnosti in bo omogočala sodobnikom
vpogled v trenutno stanje jezikovne podobe slovenskega jezika, kakršen doslej ni bil mogoč,
s skrbnim hranjenjem in dostopnostjo korpusa tudi za prihodnje generacije pa predstavlja tudi dragocen kulturni dokument za naše zanamce.
Eden od korakov v okviru dolgoročne strategije razvoja, gradnje, vzdrževanja in nenehnega posodabljanja temeljne sodobne jezikoslovne infrastrukture za slovenski jezik in nadgrajuje del rezultatov predhodno začetega projekta Sporazumevanje v slovenskem jeziku.
Namen konkordančnika GOS
Uporabniki
Raziskovalci govora – omogoča številne raziskovalne možnosti za raziskovalce, ki se v svojih raziskavah dotikajo (tudi) človeškega govora in govorne komunikacije: vse veje jezikoslovja, razne veje sociologije, antropologije, kognitivnih in informacijskih znanosti
itd. V izobraževanju pri pouku slovenskega jezika, pri učenju
slovenskega jezika za tuje govorce: vir številnih avtentičnih primerov različnih govorjenih žanrov (od zbornega
do pokrajinskega in narečnega govora) in govora različnih slovenskih regij vir številnih primerov za spoznavanje oblikoslovja in skladnje govorjenega
jezika vir številnih primerov za spoznavanje pragmatične narave govorjenega
diskurza itd. Nekateri poklici, ki so v stiku z govorom:
razni pisci (scenaristi, pisatelji, novinarji...), tolmači in prevajalci, poklicni govorci (npr. na radiu in televiziji) idr.
Cilji konkordančnika
Prost dostop do govornega korpusa GOS. Povezanost transkribcij z zvokom na ravni izjav. Izkoristiti čim več informacij iz gradiva. Zadovoljiti različne skupine uporabnikov.
Vključitev gradiva GOS v konkordančnik za pisni korpus…
… bi zgledala nekako takole (WordSmith, del konkordančnega niza “in”):
so profesorji hudli takle je som tist volec takle sovkal in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta
dama al ne vem kaj [Af-star-05611 (hkrati):] eee joj [Cf-otro-05613:] in enkret bi mela poker in s nisem stavla k mi je edn eee zblefirov
kolk jih je pej še? [Cf-star-05561:] še edn [Bf-otro-05560 (hkrati):] in kej [ime] že ud zjutru piše nalogo? [Am-star-05559 (hkrati):] nje nje
jz sem mel tud tok jz sem mel z ruzakom osemšeeset... no in in ta je ta je še strastno hujša a veš in to če takle poba začne hujšat on on si
Potencial GOS-a
2 nivoja transkribcij: Pogovorni zapis: [Cm-star-02106:] in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele mejze pav kvadratnega metra uba
Knjižni zapis:[Cm-star-02106:] in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele mize pol kvadratnega metra oba
Potencial GOS-a
Zvok: [Cm-star-02106:] in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele mejze pav kvadratnega metra uba
Potencial GOS-a
Podatki o posnetku/diskurzu
TIP DISKURZA: nejavni zasebniVRSTA SITUACIJE: osebni stikOPIS DISKURZA: doma, druzinaREGIJA: CEVIR: terenski posnetekKRAJ: ŽičeCAS: 25.08.2009 18:30ST. AKTIVNIH UDELEZENCEV: 4OPIS GOVORNEGA DOGODKA: Pogovor predvsem o temah,
povezanih z življenjem na podeželju - stroji, pridelki, kuhanje …
Potencial GOS-a
Podatki o govorcih
SPOL: mSTAROST: 35 do 59REGIONALNA PRIPADNOST1: CEREGIONALNA PRIPADNOST2: nedolocnoREGIONALNA PRIPADNOST3: nedolocnoREGIONALNA PRIPADNOST4: nedolocnoREGIONALNA PRIPADNOST5: nedolocnoIZOBRAZBA: srednja solaPRVI JEZIK: slovenscina
Zasnova konkordančnika GOS
1 ISKALNI TIPI
2 ISKALNE OPERACIJE
3 PRIKAZ REZULTATOV
4 UREJANJE REZULTATOV
A OSNOVNO ISKANJE
iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini …
konkordančni niz, po izbiri še:-zvok-razširjeni odstavek-vir-opis govorca-opis diskurza…
statistika, urejanje, sito, vzorec …
B RAZŠIRJENO/PODKORPUSNO ISKANJE
enako enako enako
C IZBOR IN SHRANJEVANJE TRANSKRIPCIJ
- txt datoteke za shranjevanje
po želji na svojem računalniku
A1, A2 Osnovno iskanje
A1 Privzeto po: 2. (knjižnem) nivoju zapisa (jaz – jaz, jest, jz, jst) in po celotnem korpusu
A2 Mogoče različne iskalne operacije, podobno kot v pisnem korpusu:
iskanje besede iskanje z nadomestnimi znaki iskanje po kanalih (lema – avtomatsko označena) iskanje po frazah iskanje po bližini …
A3 Prikaz rezultatov
Rezultati se prikažejo po konkordancah:
vejdal de so profesorji hudli takle je som tist volec takle sovkal [smehna] | in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta
[Cf-otro][1] men se zi a dama al ne vem kaj [Bm-star][2] eee joj [Cf-otro] in enkret bi mela poker in s nisem stavla k mi je edn eee zblefirov
[Bf-otro] kolk jih pej še je? [Cf-star] še edn [premor] [Bf-otro] [1] in kej [ime] že ud zjutru piše nalogo? [Am-star] [2] nje nje
[Om-prij] [1] jz sem mel tud tok jz sem mel z ruzakom osemšeeset ... no in in ta je ta je še strastno hujša a veš in to če takle poba začne hujšat on on si
A3 Prikaz rezultatov
Na klik so na voljo dodatne informacije: Zvok:
za izjavo, v kateri je najdeni izraz Podatki o govorcu
moški, 35 do 59, celjska regija, srednja šola, slovenščina Podatki o diskurzu
nejavni zasebni, osebni stik, družina, 25.8.09 ob 18.30 Pogovor predvsem o temah, povezanih z življenjem na podeželju -
stroji, pridelki, kuhanje… Knjižni zapis – cel konkordančni niz ali posamezne konkordance?:
videl da so profesorji hodili takole je samo tisti volec takole sukal [smehna] | in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista
Vir: terenski posnetek
A3 Prikaz rezultatov
Razširjeni kontekst, +/- 1 segment/izjava, pogovorni zapis: [Cm-star-02106:]
som ku je vejdal de so profesorji hudli takle je som tist volec takle sovkal [smehna] in v tisti pal uri v trej četart uri puol sn še vejdal se sta celo dvo nejsta poštrejhala za pal
tutele mejze pal kvadratnga metra ubo [[Am-soro-02104][1] + [Cm-star-02106] [2]:]
[1] ja se tav je ze vidiš tisto[2] som takle sta [smehgo] ka si nuor jz sn se tak smejal puol tam zran ko sn jih gledal
Na zahtevo – zvok:
Na zahtevo – knjižni zapis: [Cm-star-02106:]
samo ko je videl da so profesorji hodili takole je samo tisti volec takole sukal [smehna] in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele
mize pol kvadratnega metra oba [[Am-soro-02104 ][1] + [Cm-star-02106] [2]:]
[1] ja saj to je zdaj vidiš tisto[2] samo takole sta [smehgo] kaj si nor jaz sem se tako smejal pol tam zraven ko sem jih gledal
A4 Urejanje rezultatov
Filtriranje rezultatov: po atributih diskurzov (tip, kanal, regija …) po atributih govorcev (spol, starost, izobrazba …)
Statistika in druga opravila iz pisnega korpusa
Zasnova konkordančnika GOS
1 ISKALNI TIPI
2 ISKALNE OPERACIJE
3 PRIKAZ REZULTATOV
4 UREJANJE REZULTATOV
A OSNOVNO ISKANJE
Iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini …
Konkordančni niz, po izbiri še:-Zvok-Razširjeni odstavek-Vir-Opis govorca-Opis diskurza…
Statistika, urejanje, sito, vzorec …
B RAZŠIRJENO/PODKORPUSNO ISKANJE
enako enako enako
C IZBOR IN SHRANJEVANJE TRANSKRIPCIJ
- Txt datoteke za shranjevanje
Po želji na svojem računalniku
B1 Podkorpusno iskanje
Možnost izbire znotraj gradiva glede na: Nivo zapisa:
pogovorni zapis (in v tisti pal uri v trej četart uri puol sn še vejdal de sta celo dvo nejsta poštrejhala za pav tutele …)
knjižni zapis (in v tisti pol uri v tri četrt uri pol sem še videl da sta celo dva nista poštrihala za pol totele)
Oznake diskurza: tip diskurza: JI, JR, NN, NZ kanal: radio, tv, telefon, osebni stik vrsta situacije: OŠ, SŠ, predavanje, družina, prijatelji… regija: MB, LJ, MS, CE, SG, KK, PO, NM, KP, GO, Italija,
Avstrija… število udeležencev tudi kraj (ob registraciji)
B1 Podkorpusno iskanje
Možnost izbire znotraj gradiva glede na: Oznake govorcev:
Spol Starost: do 10, 10 do 14, 15 do 18, 19 do 24, 25 do 34, 35 do 59,
nad 60, nedolocno Izobrazba: OS ali manj, srednja sola,visja ali visoka sola,
fakulteta ali vec, nedolocno Regija:
Regija 1: MB, MS, SG, CE, LJ, KR, NM, KK, GO, PO, KP, Italija, Avstrija, Madzarska, tujina, nedolocno
Regija 2: enako Regija 3: enako
Prvi jezik: slovenscina, anglescina, nemscina, italijanscina itd.
B2, B3, B4 Podkorpusno iskanje
1. B2 Iskalne operacije: enako kot osnovno iskanje2. B3 Prikaz rezultatov: enako kot osnovno iskanje3. B4 Urejanje rezultatov: enako kot osnovno iskanje
Zasnova konkordančnika GOS
1 ISKALNI TIPI
2 ISKALNE OPERACIJE
3 PRIKAZ REZULTATOV
4 UREJANJE REZULTATOV
A OSNOVNO ISKANJE
Iskanje besede, z nadomestnimi znaki, po kanalih (lema), po frazah, po bližini …
Konkordančni niz, po izbiri še:-Zvok-Razširjeni odstavek-Vir-Opis govorca-Opis diskurza…
Statistika, urejanje, sito, vzorec …
B RAZŠIRJENO/PODKORPUSNO ISKANJE
enako enako enako
C IZBOR IN SHRANJEVAN. TRANSKRIPCIJ
- Txt datoteke za shranjevanje
Po želji na svojem računalniku
C Izbor in shranjevanje transkripcij
C1 Možnost izbire znotraj gradiva enako kot pri podkorpusnem iskanju
C3 Uporabnik lahko shrani izbrane transkripcije kot txt datoteke na svoj računalnik
Govorec 1: Cf-star-06564Govorec 2: If-otro-06565 [Cf-star-06564:]
kakšn film s gledala? [If-otro-06565:]
čak eee čak da se spomnem [Cf-star-06564:]
kdaj pa? [If-otro-06565:]
eem ja včer sva drgač gle() aja [smehgo] ko je [ime] naštimvov [smehgo] | ja ta je dora ja [[If-otro-06565][1] + [If-otro-06565][2]:]
[1] [smehgo] sva se odločla dava film a ne g() dava gleala film[2] ja
[If-otro-06565:] sem uzela v knjižnc a ne devedeje | [neraz] [smehgo] ful smešn eem k je on ma zej a veš un ta nov eem ekran a ne za računalnik k kao loh un devede pl() plejer direkt ušteka
Predlogi, roki
Morebitne predloge za konkordančnik pošljite na: [email protected], [email protected]
Rok: konkordančnik bo na spletu do 30. septembra 2010
Prihodnost GOS-a?
Želeli bi si, da bi se spletni konkordančnik za govorni korpus, in seveda tudi gradivo – korpus, v prihodnosti dodatno razvijal, nadgrajeval z novimi funkcijami in novim gradivom ter nenehno posodabljal.
ČE se bodo odprle možnosti nadaljnjega financiranja, je vizija o prihodnjih posodobitvah korpusa: oblikoslovno označevanje in vključitev možnosti iskanja po
oblikoslovnih oznakah v konkordančnik skladenjsko označevanje in vključitev možnosti iskanja po
skladenjskih oznakah v konkordančnik širjenje gradiva na 2 mio. besed ali več …
Zahvala
Številnim ustvarjalcem GOS-a (študenti FF UL, FDV, FF MB, FERI MB in sodelavci korpusa)
Govorcem, ki so dobrohotno dovolili vstop v svojo zasebnost (sorodniki, govorci, znanci … snemalcev in sodelavcev korpusa, učitelji idr.).
Institucijam, ki so odstopile posnetke ali dovolile snemanje pod svojim okriljem: mediji: Pop TV, RTV Slo, Radio Maribor, Radio City, Radio Center,
Radio Maxi, Koroški radio, Radio Fantasy, Štajerski val, Radio Krka, Radio Alfa, Radio Kranj, Radio Belvi, Radio Slovenija, Val 202, Radio Capris)
osnovne in srednje šole idr.
… in vam za pozornost!