abstrakty - ucnk.korpus.czucnk.korpus.cz/kl2014/files/kl2014_abstrakty.pdf · předpokladu, že...

230
korpusová lingvistika Praha 2014 IV. pražská konference korpusové lingvistiky pořádaná u příležitosti 20. výročí založení Českého národního korpusu 17.–19. září 2014 Abstrakty 20 let mapování češtiny

Upload: vandiep

Post on 27-Jun-2019

235 views

Category:

Documents


1 download

TRANSCRIPT

korpusoválingvistika

Praha 2014

IV. pražská konference korpusové lingvistikypořádaná u příležitosti 20. výročí založeníČeského národního korpusu

17.–19. září 2014

Abstrakty

20 let mapování češtiny

Tato publikace vznikla v rámci Programu rozvoje vědních oblastí na Univer-zitě Karlově č. P11 Český národní korpus, podprogram Český národní korpus.

3

Obsah

Plenární přednáškyPaul BakerCounting all the cherries: using corpora to analyse discourses .................... 12

Cyril BelicaKookurenčná analýza a jazykové štruktúry ....................................................... 13

Neil BermelMapování jazykové variability ve světle korpusové frekvencea odpovědí rodilých mluvčích................................................................................ 14

Karel KučeraDvacet let poté .......................................................................................................... 15

Konferenční příspěvkyLucie Benešová, Michal Křen, Martina WaclawičováKorpus spontánní mluvené češtiny ORAL2013 ................................................. 18

Vladimír BenkoJe webový korpus „horší“? ..................................................................................... 21

Tilman Berger, Stefan HeckPerformativní užívání dokonavého prézentu v češtiněve srovnání s jinými slovanskými jazyky ........................................................... 24

Aleš BičanFonologický lexikální korpus češtiny a jeho analýza ....................................... 27

František Cvrček, Karel Pala, Pavel RychlýChování slov a jejich kolokací v jazyce právních subdomén ......................... 29

Václav Cvrček, Jiří VáclavíkKvantitativní pohled na kontextovou desambiguaci ........................................ 32

4

Tomáš Čapka, Michal Křen, Petr TrunečekSynKorp: prostředí pro správu a zpracování textů ........................................... 35

Radek Čech, Emmerich Kelih, Ján MačutekVliv sémantiky na vlastnosti pádové distribuce podstatnýchjmen v češtině ............................................................................................................ 39

František ČermákKolokace a kolokabilita synsémantik: Substituty a interjekce ....................... 41

Alena M. ČernáStaročeské lexémy „nemoc“, „neduh“, „nedostatek“ – jejichsémantická a gramatická charakteristika ............................................................ 43

Lenka FárováUvozovací slovesa v překladech typologicky rozdílných jazyků .................. 45

Jarmila Fictumová, Jiří RambousekJak se mění zrádná slova? ....................................................................................... 48

Masako Fidler, Václav CvrčekPrezidentské projevy: Analýza tematické výstavby a řečovýchstrategií pomocí KWords ....................................................................................... 51

Markus GigerSubjektová rezultativa v češtině ve srovnání s ruštinou ................................. 53

Hana Goláňová, Marie KopřivováKartografické a geografické zpracování dat z mluvených korpusů .............. 55

Zbigniew GreńFormální variabilita nejnovějších anglicismů v češtině, polštiněa slovenštině (na korpusovém materiálu) ........................................................... 57

Milena Hebal-JezierskaObraz(y) Američana a Angličana v korpusech českého,slovenského a polského jazyka.............................................................................. 60

Jiří HedánekGLOSSA, metajazyk pro popis zvukové stránky textu .................................... 62

5

Zdeňka HladkáUžití korpusu korespondenčních textů KSK111 k sledovánídynamiky české slovní zásoby ve 20. století ...................................................... 64

Jaroslava HlaváčováVyjádření intenzity slovesného děje pomocí předpon ..................................... 66

Milena HnátkováAutomatická identifikace ustálených kolokací v diachronních textech. ..... 68

Jana Hoffmannová, Olga RichterováSi představ, se nediv, ti to ukážu… Jednoslabičné začátkysyntaktických segmentů v mluvené češtině ....................................................... 71

Andrzej CharciarekNárodní korpusy a velké překladové polsko-českéa česko-polské slovníky .......................................................................................... 73

Pavla ChejnováVyužití korpusu dětské řeči k popisu akvizicemorfologických kategorií ........................................................................................ 77

Lucie ChlumskáJe čeština v překladech jiná? ................................................................................. 78

Lucie JílkováVy jste mi z té otázky utekl! (analýza jednoho způsobu vymáháníodpovědi, s využitím korpusových dokladů) ..................................................... 81

Karel JirásekIdentifikace typologických rozdílů mezi češtinou a chorvatštinouza pomoci paralelního korpusu InterCorp .......................................................... 84

Elżbieta Kaczmarska, Alexandr Rosen, Jirka HanaJak najít optimální překlad polysémních sloves – porovnánímetod automatické analýzy paralelních textů ................................................... 86

Tomáš KáňaČeská nesubstantivní deminutiva a jejich protějškyv němčině a angličtině ............................................................................................. 89

6

Adam Kilgarriff, Pavel Rychlý, Miloš Jakubíček, Vojtěch Kovář,Vít Suchomel, Jan Bušta, Vít Baisa, Jan MichelfeitMultilingual data processing in Sketch Engine ................................................. 92

Petra Klimešová, Zuzana Komrsková,Marie Kopřivová, David LukešCo že to je? K tvaru to v mluvených korpusech ČNK ....................................... 95

Ivana KolářováSlovesa odvozená od adverbií jako periferie slovotvornéhosystému (na materiále Českého národního korpusu)....................................... 99

Veronika KolářováPreference v souvýskytu aktantů u českých substantiv mluvení ............... 102

Pavel KosekVývoj slovosledu kondicionálového auxiliáru v češtině ................................ 106

Dominika KováříkováSlovní druhy v mluvené a psané češtině ........................................................... 110

Boris LehečkaObsah a značkování diachronního korpusu češtiny ....................................... 112

Eva LehečkováKonstrukční specifika dvou sémantických typů obouvidovýchsloves v češtině ........................................................................................................ 114

Martina LevVoľné datívy a DcI-konštrukcie. Distribučná štúdia na materiálipodkorpusu českého synchrónneho korpusu SYN2010a podkorpusu ruského osnovného korpusu ..................................................... 118

Michaela Lišková, Helena PernicováPojmenování barev a jejich odstínů v Akademickém slovníkusoučasné češtiny ..................................................................................................... 122

David LukešPerspektivy fonetické anotace v korpusech mluveného jazyka .................. 125

7

Jiří MáchaKe kategorizaci plurálií a singulárií tantum – kvantitativníanalýza sufixů .......................................................................................................... 128

Markéta MaláPřekladové protějšky jako ukazatele významu: češtinaa angličtina v paralelním korpusu InterCorp ................................................... 130

Michaela Martinková, Martin ŠimonEnklitická partikule pak: korpusová studie ...................................................... 133

Tereza Mašková, Vojtěch RipkaKorpus jazyka StB ................................................................................................... 135

Vít Michalec, Vojtěch VeselýK souborovému a kolektivně-látkovému významusubstantiv s převahou plurálových tvarů.......................................................... 138

Aksana MikalayenkaHomonymní příslovce a předložky a problematikajejich disambiguace v Českém národním korpusu ......................................... 141

Květoslava MusilováSlovakismy v současné češtině ............................................................................ 144

Petr NádeníčekRůzná pojetí slovotvorné konverze ve světle národníchkorpusů slovanských a germánských jazyků ................................................... 147

Olga NavrátilováSlovosled nominální fráze ve staré češtině ....................................................... 150

Renata NovotnáAntropomorfický princip u konkrétních neživotnýchsubstantiv: názvy nebeských těles ...................................................................... 152

Klára OsolsoběKorpusy jako zdroje dat pro úpravy nástrojů automatickémorfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cía jejich morfologické značkování) ...................................................................... 155

8

Hana PelouškováO nepříjemných pocitech. Specifické konstrukce s několikaněmeckými slovesy a jejich protějšky v češtině .............................................. 158

Vladimír PetkevičSlovnědruhová a morfologická homonymie, homografiea homofonie v současné češtině .......................................................................... 160

Žaneta PixováČeština soudních rozhodnutí ve světle korpusu ............................................. 164

Petr PlecháčKorpus českého verše a možnosti jeho využití ................................................ 166

Alena PolickáK možnostem zkoumání (identitární) neologie v ČNK a IC ......................... 167

Alena PoncarováSestavování korpusu pro syntaktickou anotaci – práce na celý život? ..... 169

Petr PořízkaOlomoucký mluvený korpus – pilotní verze.................................................... 171

Olga Richterová, Anna ČermákováJak malá je malá místnůstka? Korpusová studie deminutivnostise zaměřením na sémantické aspekty. ............................................................... 175

Alexandr Rosen, Michala Adamová, Martin VavřínExtrakce lexikálních ekvivalentů z paralelního korpusu .............................. 177

Hana Skoumalová, Jiří Znamenáček, Vladimír PetkevičVyužití valenčních slovníků při tvorbě českého treebanku .......................... 179

Tess SlavíčkováInvestigating nepřizpůsobivý (inadaptable) as a keyword incritical analysis of Czech press reports on Roma ............................................ 182

Jindra SvětláUvádění stupňovaných tvarů u adjektiv a adverbií v novémvšeobecném výkladovém slovníku češtiny....................................................... 184

9

Karel ŠebestaVyužití speciálních korpusů Českého národního korpusu provýzkum jazykového vývoje žáků ........................................................................ 187

Magda ŠevčíkováPřípona -ství/-ctví v současné češtině (korpus jako zdroj datpro zkoumání slovotvorby) .................................................................................. 189

Mária ŠimkováPredložky s časovým významom v slovenčine a v češtine ........................... 193

Jana ŠindlerováAlternace aktoru a instrumentu v paralelnímčesko-anglickém korpusu ..................................................................................... 195

Svatava Škodová, Michaela Kuchařová, Václav Lábus,Jasňa PacovskáReflexe proměn užívání češtiny na základě mluveného korpusuzpravodajského vysílání Českého rozhlasu v letech 1969–2005 ................ 199

Michal Škrabal, Lubomír ĎuroškaCizojazyčné protějšky slov druh a soudruh: situace v lotyštiněa slovinštině ............................................................................................................. 201

Jitka ŠonkováRozdíly v rozsahu slovní zásoby v Pražském mluveném korpusu:Kdo má bohatší slovník – junioři, senioři, muži nebo ženy? ...................... 204

Jovanka Šotolová, Olga NádvorníkováZa hranice věty ....................................................................................................... 205

Barbora Štindlová, Veronika Čurdová, David BenešMerlin: Multilingvální platforma pro evropské referenční úrovně ............. 208

Tamás TölgyesiNěmecké přejímky v běžně mluvené češtině na základěkorpusu ORAL2013 ................................................................................................ 211

Marie VachkováParadigmatika a syntagmatika v překladovém slovníku ............................... 215

10

Kateřina VeselovskáSestry manžel byl kamaráda bratr – ke slovoslednému postaveníneshodného atributu vyjádřeného substantivem v genitivu ........................ 217

Pavel VondřičkaInterText: upečte si vlastní paralelní korpus .................................................... 219

Uliana YazhinovaSyntactic reduplication in Czech and Slovak (corpus-based approach) .... 222

Anna Zitová, Martin StlukaK některým morfologickým zvláštnostem starších českých textů(především 19. století) ............................................................................................ 224

Richard ZmělíkMožnosti jazykového korpusu pro literárněvědnou analýzuna příkladu autorského slovníku Jana Čepa..................................................... 227

Plenární přednášky

12

Paul BakerDapartment of Linguistics and English Language, Lancaster University [email protected]

Counting all the cherries: using corpora to analyse discoursesCorpora are (usually) very large collections of electronically stored, natu-rally occurring texts that are aimed to be representative of a particular lan-guage variety. They are analysed with the help of computer software which use a combination of statistical tests and ways of presenting data that enable salient patterns of language to be identified. Partington et al (2013: 11) argue that corpus approaches can thus help to uncover “non-obvious meaning”.

In this talk I examine how corpus techniques can be used to analyse dis-courses or “ways of making sense of the world”. As Fairclough (1989: 54) points out “A single text on its own is quite insignificant: the effects of media power are cumulative, working through the repetition of particular ways of handling causality and agency, particular ways of positioning the reader, and so forth”, so it is through the repetition of language that we are able to obtain evidence for stable discourses in societies.

Using examples from my own research, I discuss techniques based around comparing frequencies, collocation, keywords, concordances and dispersion data in order to demonstrate how this method of analysis can be implemen-ted. I employ data from tabloid news, parliamentary debates, personal adver-tisements and spoken conversations in order to ask – what can corpora tell us about discourse that we wouldn’t necessarily have gained from introspe-ction or qualitative analysis of a small number of texts? The talk ends with a discussion of some of the potential pitfalls of this approach.

ReferencesFairclough, N. (1989). Language and Power. London: Longman.Partington, A., Dugiud, A. & Taylor, Ch. (2013). Patterns and Meanings in

Discourse. Theory and practice in corpus-assisted discourse studies (CADS). Amsterdam: John Benjamins.

13

Cyril BelicaInstitut für Deutsche Sprache, [email protected]

Kookurenčná analýza a jazykové štruktúryKookurenčná analýza má svoje pevné miesto v korpusovej lingvistike už niekoľko desťročí. Vo svojom klasickom variante, keď voliteľnými veličinami sú len veľkosť kontextu, konkrétna funkcia miery asociácie a cieľová lexikál-na jednotka, slúži predovšetkým ako prostriedok na kvantifikovanie asoci-ačných vzťahov medzi dvojicami slov v korpuse.

Nad rámec tejto v podstate deskriptívnej funkcie však kookurenčnú ana-lýzu možno chápať aj ako metodické východisko pri abdukcii hypotéz in-terpretujúcich rozmanité druhy pravidelností pozorovaných v ľubovoľnej jazykovej produkcii. Prednáška je venovaná predovšetkým tomuto pohľadu na možnosti kookurenčnej analýzy, s dôrazom na význam viacčlenných ko-okurencií a syntagmatických vzorcov najmä pre výskum jazykov s relatívne voľným slovosledom.

Na pozadí metód vyvinutých začiatkom deväťdesiatych rokov v Ústave nemeckého jazyka (IDS) v Mannheime ukazuje, ako sa pomocou kombinácie kookurenčnej a zhlukovej analýzy dajú v korpusoch izolovať komplexné, mnohovrstevné štruktúry stimulujúce abduktívny prístup k výskumu ja-zyka. Explanatívny potenciál týchto štruktúr, osobitne z pohľadu lexikálnej sémantiky, je v prednáške načrtnutý na niekoľkých príkladoch interpretácie zhlukovej analýzy kookurenčných profilov lexikálnych jednotiek pomocou neurónových sietí.

14

Neil BermelRussian and Slavonic Studies, The University of [email protected]

Mapování jazykové variability ve světle korpusové frekvence a odpovědí rodilých mluvčíchTvrzení, že nám korpus umožní nahlédnout do lingvistických vlastností tex-tů, které v nich najdeme, není kontroverzní. Pokud ale chceme vyvodit, že díky korpusu získáme náhled do jazyka (nebo jazykové variety), ve kterém jsou jeho texty psány, názory nejsou jednotné. K čemu jsou tedy korpusy v mapování struktury jazyka?

Pokud by se měla korpusová data jako doklady Saussurovského parole vztahovat k jazykové produkci, počet a proporce tvarů v korpusu by měly hrát významnou roli ve volbách rodilých mluvčích. Pokud ale vycházíme z předpokladu, že korpus odráží jazykové prostředí, které uživatele obklopuje a není přímou ukázkou jeho jazykových dovedností, měli bychom vztahovat korpusová data spíše k hodnocením a posudkům uživatele.

Výsledky našich sond do některých „konkurujících si“ morfů v českém deklinačním systému ukazují, že korpusová data mají předpovědní hodno-tu jak pro posudky rodilých mluvčích, tak pro užití jednotlivých jevů, a to v daných případech více než jakýkoliv další činitel. Vysokou předpovědní schopnost vzhledem k volbě a hodnocení tvarů má proporcionální frekvence jevů v korpusu; absolutní frekvence se zdá hrát jen vedlejší roli. Nejjasněji a nejmarkantněji se to odráží na volbě mezi tvary, ale co se týče posudků, zjevná neochota mluvčích označovat méně užívané tvary za „nepřijatelné“ nabízí možné vysvětlení, proč se tato variabilita v češtině po staletí udržuje.

15

Karel KučeraÚstav Českého národního korpusu FF [email protected]

Dvacet let potéDvacátého výročí založení Ústavu Českého národního korpusu bude v pří-spěvku využito jednak ke krátkému přehledu nejvýznamnějších výstupů série pěti- až sedmiletých projektů zaměřených na budování korpusového komplexu Českého národního korpusu (ČNK), jednak – především – ke shr-nutí hlavních zásad, které se v tomto komplexu uplatňují, a k naznačení představ a plánů týkajících se jeho dalšího rozvoje v budoucnosti. V rozsa-hu omezeném formou konferenčního příspěvku bude pozornost věnována základním problémům spojeným s obecnými principy (zejména koncepci reprezentativnosti), s možnostmi lingvistické interpretace a značkování kor-pusových dat, s předpokládanými směry rozvoje korpusového softwaru a se získáváním jazykových dat.

Jádro příspěvku je koncipováno jako zamyšlení nad výhodami i nevýho-dami přístupů, které byly v minulosti zvoleny v jednotlivých složkách ČNK (synchronní psané a mluvené korpusy, diachronní korpusy, paralelní korpu-sy, specializované korpusy), nad současnými problémy i nad problémy, které bude třeba řešit v budoucnu, mimo jiné v souvislosti se snahou, aby ČNK v co největší šíři reflektoval komunikační spektrum současného českého ja-zyka (aktuální potřeba adekvátně zachytit jazyk SMS, různých druhů inter-netové komunikace ap.) a souvisleji a hlouběji mapoval diachronii češtiny.

Konferenční příspěvky

18

Lucie BenešováÚstav Českého národního korpusu FF UK [email protected]

Michal KřenÚstav Českého národního korpusu FF UK [email protected]

Martina WaclawičováÚstav Českého národního korpusu FF UK [email protected]

Korpus spontánní mluvené češtiny ORAL2013Příspěvek představí nedávno zveřejněný korpus spontánní mluvené češtiny ORAL2013 (Válková et al. 2012), který je výsledkem projektu realizovaného v ÚČNK FF UK v Praze. Korpus je přístupný všem registrovaným uživatelům na adrese <http://korpus.cz> a zachycuje reprezentativní materiál předsta-vující autentický mluvený jazyk v neformálních komunikačních situacích.

V příspěvku se zaměříme především na představení základní koncepce korpusu ORAL2013, popíšeme způsob transkripce i řešení praktických otá-zek při sběru dat. Součástí prezentace bude také ukázka práce s korpusem v novém webovém rozhraní KonText.

Korpus ORAL2013 se skládá z 835 nahrávek z let 2008–2011 a obsahuje více než 2,7 milionu textových slov (3 285 508 tokenů včetně interpunkce) v přepisech celkem 2 544 mluvčích (z toho 1 297 unikátních). Celková délka nahrávek je 17 471 minut, tj. téměř 300 hodin.

ORAL2013 je v pořadí již třetím korpusem řady ORAL, která vzniká jako součást ČNK. Je tedy přirozené, že v mnohém navazuje na své předchůdce, korpusy neformální mluvené češtiny ORAL2006 (Kopřivová & Waclawičová 2006) a ORAL2008 (Waclawičová et al. 2009). Důležitým rysem celé řady je především zachycení prototypicky mluveného jazyka (Čermák 2009); nahrá-vány byly proto pouze situace splňující následující kritéria:

• fyzická přítomnost mluvčích;• dialogičnost promluv (rozhovor dvou nebo více mluvčích);• vzájemný blízký vztah mluvčích;• nepřipravenost, spontánnost;• neveřejná a neoficiální komunikační situace.

19

Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skon-čení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK.

Korpus ORAL2013 se zároveň od svých předchůdců odlišuje v následují-cích bodech.

• Pokrytí celého území ČR, tj. Čech, Moravy a Slezska.• Propojení přepisu se zvukovou stopou v  transkripčním programu

Transcriber (Geoffrois et al. 2000); uživatel si tak může ve webových rozhraních ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (segment), a poslechnout si tak jeho realizaci.

• Použití pauzové interpunkce, která nahradila původní syntaktickou.• Označení překryvů replik více mluvčích.• Označení shodných mluvčích, kteří vystupují ve více nahrávkách; toto

označení je přístupné pomocí náhodně vygenerované „přezdívky“, kte-rá je pro daného mluvčího v celém korpusu stejná.

• Uvádění informace o typu komunikační situace.• Odlišné pojetí vyváženosti dat. Při sběru dat jsme usilovali o maximální

regionální pokrytí a různorodost mluvčích, materiál byl proto průběžně vyvažován v  těchto hlavních sociolingvistických kategoriích: pohlaví, věková skupina (mladší/starší mluvčí), vzdělání a oblast pobytu mluvčí-ho v dětství (podle tradičního Běličova dialektologického členění použí-vaného v Českém jazykovém atlase, Balhar et al. 1992–2011). Na rozdíl od korpusu ORAL2008 jsme však nepřistoupili k závěrečnému výběru, jehož výsledkem by bylo plné vyvážení korpusu. Znamenalo by to totiž zbavování se cenného materiálu v situaci, kdy je korpus už dostatečně reprezentativní, zatímco jeho hypotetická „ideální“ vyváženost by byla jednak sporná (zvláště její regionální faktor), a  jednak by nebyla ani potřebná, protože nové webové rozhraní umožňuje práci s relativními (a tedy srovnatelnými) frekvencemi. Složení korpusu v základních socio-lingvistických kategoriích uvádíme v následujících tabulkách:

Pohlaví ženy muži  1 359 761 1 425 428Věková skupina mladší (18–34 let) starší (35 let a výš)  1 458 386 1 326 803Vzdělání nižší vyšší  1 515 732 1 269 457

Tabulka 1: Počet slov v hlavních kategoriích.

20

Oblast pobytu v dětství počet slovstředočeská 570 283severovýchodočeská 353 486jihozápadočeská 315 716české pohraničí 191 553česko-moravská 83 478středomoravská 503 391východomoravská 359 249slezská 317 087moravské pohraničí 90 946

Tabulka 2: Počet slov podle převažující oblasti pobytu v dětství.

LiteraturaBalhar, J. (Ed.) (1992–2011). Český jazykový atlas, 1–6. Praha: Academia.Čermák, F. (2009). Spoken corpora design. Their constitutive parameters. In-

ternational Journal of Corpus Linguistics, 14 (1), 113–123.Geoffrois, E., Barras, C., Bird, S. & Wu, Z. (2000). Transcribing with annota-

tion graphs. In: Proceedings from The Second International Conference on Language Resources and Evaluation (LREC), 1517–1521.

Kopřivová, M. & Waclawičová, M. (2006). Representativeness of spoken cor-pora on the example of the new spoken corpora of the Czech language. In: Труды международной конференции „Корпусная лингвистика – 2006“. Санкт-Петербург: Издательство СПбГУ, 174–181.

Válková, L., Waclawičová, M. & Křen, M. (2012). Balanced data repository of spontaneous spoken Czech. In Proceedings of the Eighth Internati-onal Conference on Language Resources and Evaluation (LREC), 3345–3349. Accessed January 30, 2014. http://www.lrec-conf.org/proceedings/lrec2012/pdf/179_Paper.pdf.

Waclawičová, M., Křen, M. & Válková, L. (2009). Balanced corpus of informal spoken Czech: compilation, design and findings. In Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009, 1819–1822.

21

Vladimír BenkoJazykovedný ústav Ľ. Štúra SAV [email protected]

Je webový korpus „horší“?V  súvislosti s  takmer exponenciálnym rastom množstva textových dát na internete stúpa zároveň záujem o ich lingvistické využitie. Okrem „na-ivného“ používania vyhľadávacích služieb na zisťovanie základných údajov o  frekvencii výskytu slov a  slovných spojení, trochu pejoratívne označo-vaného ako „Google linguistics“ (porov. Kilgarriff 2007), sme aj svedkami snáh o využitie dát z webu systematickejším a z hľadiska potrieb lingvistov plnohodnotnejším spôsobom.  Jedným z vývojových smerov v tejto oblasti je tvorba webových korpusov, v rámci ktorej sa dáta vo veľkom objeme sťa-hujú z webu pomocou automatizovaných procedúr využívajúcich sofistiko-vané stratégie hodnotenia obsahu jednotlivých webových lokalít z hľadiska využiteľnosti v korpuse (Suchomel & Pomikálek 2012),  následne sa filtrujú a deduplikujú, takže výstup v textovej podobe možno ďalej spracovať štan-dardnými metódami a  technológiami korpusovej lingvistiky (tokenizácia, morfologická anotácia a spracovanie korpusovým manažérom).

Za posledné desaťročie sa tvorba webových korpusov etablovala ako sa-mostatná oblasť korpusovej lingvistiky, má svoju sekciu v Asociácii pre po-čítačovú lingvistiku (ACL SIGWC), pravidelné konferencie (WAC) a dočkala sa už aj prvej monografie (Schäfer & Bildhauer, 2013).

Okrem zjavných výhod webových korpusov oproti „tradičným“ (dajú sa vytvoriť omnoho rýchlejšie a s neporovnateľne väčším rozsahom, obsahujú aj žánre, registre a  domény typicky absentujúce v  tradičných korpusoch, dáta sú k dispozícii prakticky pre ľubovoľný jazyk, nové tendencie v jazyku sa v nich odrazia prakticky okamžite) majú samozrejme a veľa nedostatkov, ktoré spôsobujú problémy nielen pri ich tvorbe a anotácii, ale aj pri lingvis-tických analýzach (len v nepatrnom rozsahu vieme ovplyvniť a dokonca aj zistiť, aké texty vlastne obsahujú, a značná časť textov je „zašumená“, napr. používa neštandardnú ortografiu prípadne jazykovú varietu, alebo obsahu-je čiastočne nezmyselné slová v dôsledku chýb pri znakových konverziách, filtrácii či identifikácii jazyka dokumentov. Pre jednotlivé dokumenty v kor-puse je k dispozícii len minimálna bibliografická anotácia, väčšinou obmed-zená len na adresu webovej stránky a dátum jej stiahnutia z webu. Vzhľa-

22

dom na technické obmedzenia procesu sťahovania dát z webu je principi-álne nemožné určiť (socio)lingvisticky dôležitý parameter – dátum vzniku dokumentu. Problémy sú aj s nejasnou situáciou ohľadne autorských práv jednotlivých textov – pri počtoch dokumentov rádovo v miliónoch nie je v silách žiadneho korpusového pracoviska riešiť túto otázku pre každý text individuálne.

V súčasnosti už existuje veľa jazykov, pre ktoré okrem tradičných korpu-sov bol vytvorený aj webový korpus porovnateľného, či dokonca ešte väč-šieho rozsahu. Každému (korpusovému) lingvistovi sa v takejto situácii pri-rodzene núkajú otázky: Aké dôsledky má pre môj výskum existencia dvoch „vzoriek jazyka“ vytvorených odlišnou metodológiou a technológiou? Ktorá z nich poskytuje vhodnejší podklad na zovšeobecnenie výsledkov?  Je niek-torý z korpusov „horší“?

Aj slovenčina patrí medzi jazyky, kde sa na takéto otázky môžeme pokú-šať hľadať odpoveď. Je to dané projektom Slovenského národného korpu-su, v rámci ktorého sa systematicky buduje tradičný korpus na báze textov pokrytými autorskými právami (beletria, odborné publikácie a publicistika) a tiež tým, že sa paralelne budujú aj webové korpusy. Hlavný korpus SNK (6.1) má v súčasnosti rozsah okolo 830 miliónov tokenov a tri existujúce we-bové korpusy (vytvorené v rozličnom čase, rozličnými autormi a rozličnými procedúrami) majú rozsahy (po  deduplikácii na  úrovni dokumentov) 195, 875 a 2 980 miliónov tokenov.

V príspevku opisujeme práve prebiehajúci experiment, v ktorom sa po-kúšame potvrdiť alebo vyvrátiť tvrdenie, podporené našimi skúsenosťami s prácou s webovými aj tradičnými korpusmi: „Webový korpus nie je „horší“ ako tradičný korpus rovnakého rozsahu. V  prípade, že webový korpus je väčší (čo je veľmi častý prípad), môže byť dokonca „lepší“, než korpus tra-dičný.“ Naše tvrdenie sa však obmedzuje len na použitie korpusu ohraničené našou skúsenosťou, t. j. v lexikografii.

Experiment pozostáva z rekonfigurácie pôvodných korpusových dát tak, aby vzniklo niekoľko webových korpusov s  rovnakým rozsahom, ako má referenčný tradičný korpus. Pre všetky korpusy vykonávame porovnanie stupňa deduplikácie na úrovni odsekov a viet, štatistických parametrov pre homogénnosť a vzájomnú podobnosť korpusov (Kilgarriff 2001), frekvenč-nú distribúciu lexikálnych jednotiek a slovných druhov, formálnu úspešnosť morfologickej anotácie (počty nerozpoznaných slovných tvarov), proporciu úspešne detegovaného „šumu“, a na malých vzorkách aj jej reálnu chybovosť

23

morfologickej anotácie. Vlastným jadrom experimentu je porovnanie kolo-kačných profilov vybraných lexikálnych jednotiek z rôznych frekvenčných pásiem vytvorených pomocou nástroja Sketch Engine (Kilgarriff et al. 2004).

Chceme ešte poznamenať, že v  štádiu rozpracovania máme aj webový korpus pre češtinu. Po jeho dokončení bude analogické porovnanie možné aj medzi korpusmi budovanými v ÚČNK a týmto webovým korpusom.

LiteratúraKilgarriff, A. (2001). Comparing Corpora. International Journal of Corpus

Linguistics, 6 (1), 97–133.Kilgarriff, A. (2007). Googleology is Bad Science. Computational Linguistics

33 (1), 147–151.Kilgarriff, A. et al. (2004). The Sketch Engine. In G. Williams & S. Vessier

(Eds.), Proceedings of the eleventh EURALEX International Congress EURALEX 2004 Lorient, France, July 6-10, 2004. Lorient: Université de Bretagne-Sud, 105–116.

Schäfer, R. & Bildhauer, F. (2013). Web Corpus Construction. Synthesis Lectu-res on Human Language Technologies. Morgan & Claypool Publishers.

Suchomel, V. & Pomikálek, J. (2012). Efficient Web Crawling for Large Text Corpora. 7th Web as Corpus Workshop (WAC-7), Lyon, 2012.

24

Tilman BergerSlavisches Seminar, Universität Tübingen [email protected]

Stefan HeckSFB 833, Universität Tübingen [email protected]

Performativní užívání dokonavého prézentu v češtině ve srovnání s jinými slovanskými jazykyNáš příspěvek se zabývá užíváním dokonavého prézentu bez významu futura v performativních kontextech, jako např. ve větě: Přiznám se, že tomu vůbec nerozumím (SYN2010). Na tento fenomén jako první upozornil Koschmieder (1930) a vysvětlil ho takzvanou „koincidencí“, tj. tím, že realiza cí výpovědi je také realizován děj popsaný slovesem. Uvedl polské příklady jako A teraz poproszę o odprowadzenie do powozu nebo Tylko na baronową … ośmielę się zwrócić uwagę. Performativní výpovědi, jak je později v rámci teorie řečo-vých aktů popsali Austin (1962) a  Searle (1969), jsou zvláštním případem „koincidence“, která sama o sobě představuje širší koncept a obsahuje také pří pady s neperformativními slovesy.

O užívání dokonavého prézentu v performativním kontextu se psalo ně-kolikrát v rusistických pracích (srov. Forsyth 1970: 150; Bondarko 1971: 222; Apresjan 1986: 215). O jiných slovanských jazycích se zmínil už Koschmieder a potom krátce Galton (1976: 92–95). V rámci své velké studie o slovanském vidu Dickey (2000: 175–202) předložil podrobnější rozbor tohoto fenoménu ve  všech slovanských jazycích. Podle jeho názoru se uží vání dokonavých sloves v  performativní funkci různí v  jednotlivých slovanských jazycích. Zatímco v  ruštině je daný fenomén omezen na  podskupinu verb dicen-di a na  slovesa odkazující na okamžik výpovědi („mentální performativa“ v pojetí Rjabcevové (1992)), v  polštině funguje u mnohem více verb dicendi a také u „sociálních“ neboli „rituálních“ performativ podle Rjabcevové.

Ohledně češtiny můžeme pozorovat rozporuplnou situaci: Dickey a po něm také Wiemer (v tisku) a Łaziński (rukopis) se domnívají, že je tam situace podobná jako v polštině a dokonce naznačují, že by dokonavá per-formativa v češtině by mohla být ještě častější. Bohemistická aspek tologická literatura zase o tomto užívání dokonavého prézentu mlčí nebo jeho existen-

25

ci vysloveně popírá. Kopečný (1962: 35–36) sice diskutuje sporné příklady z Seidelova článku z roku 1939 o užívání dokonavého prézentu, ale neříká nic o jediném dokladu performativního slovesa, který je tam uveden (Nu jo, já dovolím, Seidel 1939: 17). V mluvnicích češtiny jsme nic nenašli, kromě Pří ruční mluvnice češtiny (1996: 592), která tvrdí, že performativní výpovědi jsou užívána „vždy v  ne dokonavém vidu“. Totéž tvrdí i  Hirschová (2011), která sice zná a cituje Apresjana, ale zastává ná zor, že „je to spíše věc idio-matického charakteru takové výpovědi se smyslem důrazné žádosti, nikoli specifického ‚typu performativnosti‘“ (Hirschová 2011: 155).

Pro naši studii jsme vybrali celkem 15 sloves ze studií Dickeyho, Wiemera a Łazińského. Pro zkoumali jsme, jak často se české, ruské a polské ekvivalen-ty vyskytují v korpusech (SYN2010, NKJP, NKRJa). Užívali jsme jen doklady z přímé řeči a bez časové posloupnosti (která vylučuje performativnost). Do-šli jsme k několika prozatimním výsledkům, z nichž je nejdůležitější ten, že dokonavá slovesa jsou užívána v češtině v podobném rozsahu jako v jiných slovanských jazycích, ale nikoliv výrazně častěji. Jinak můžeme konstatovat následující:

1. U  řídkých nebo průměrně frekventovaných sloves (např. upřesním, utočnju, uściślę) užívání ve všech třech jazycích je poměrně podobné.

2. U  vysoce frekventovaných sloves může dojít k  značným výkyvům: např. je performativní užívání ruského poprošu značně častější než uží-vání českého poprosím nebo polského po proszę, což se asi dá vysvětlit tím, že prosím a proszę mají více významů a  funkcí než ruské prošu (konkurující s požalujsta).

3. V případech, kde podle Dickeyho a Wiemera dokonavé sloveso údajně nevystupuje v rušti ně, ale jen v češtině a polštině, dotyčná slovesa jsou poměrně řídká také v češtině. To se týká např. sloves navrhnu a zapro-ponuję.

LiteraturaApresjan, Ju. D. (1986). Performativy v grammatike i v slovare. Izvestija Aka-

demii nauk SSSR, 45, 208–223.Austin, J. L. (1962). How to Do Things with Words. Oxford.Bondarko, A. V. (1971). Vid i vremja russkogo glagola (značenie i upotreble-

nie). Moskva.Dickey, S. (2000). Parameters of Slavic Aspect: A Cognitive Approach. Stan-

ford.

26

Forsyth, J. (1970). A Grammar of Aspect: Usage and Meaning in the Russian Verb. Cambridge.

Galton, H. (1976). The Main Functions of the Slavic Aspect. Skopje.Hirschová, M. (2011). Slovesný vid a  tzv. performativnost. In M. Ološtiak

et al. (Eds.), Vidy jazyka a jazykovedy. Na počesť Miloslavy Sokolovej. Prešov, 151–161.

Kopečný, F. (1962). Slovesný vid v češtině. Praha.Koschmieder, E. (1930). Durchkreuzungen von Aspekt- und Tempussystem

im Präsens. Zeitschrift für slavische Philologie, 7, 341–358.Łaziński, M. (2012). The aspect of Polish performatives with regard to poli-

teness rules. Rukopis.Příruční mluvnice češtiny. (1996). Praha.Rjabceva, N. K. (1992). Mental’nye performativy v naučnom diskurse. Vopro-

sy Jazykoznanija 1992, 4, 12–28.Searle, J. (1969). Speech Acts: An Essay in the Philosophy of Language. Cam-

bridge.Seidel, E. (1939). Zur Futurbedeutung des Praesens perfectivum im Slavis-

chen. Slavia, 17, 1–32.Wiemer, B. (v tisku). Upotreblenie soveršennogo vida v performativnom na-

stojaščem. Vyjde ve sborníku na počest V. S. Chrakovského.

27

Aleš BičanÚstav pro jazyk český AV ČR [email protected]

Fonologický lexikální korpus češtiny a jeho analýzaKorpusová lingvistika se soustředí především na tvorbu korpusů určených pro gramatickou analýzu češtiny. Korpusy však lze využít pro analýzu fono-logické struktury jazyka, avšak tento aspekt zůstával doposud mimo zájem lingvistů popisujících češtinu. Příspěvek představí fonologický korpus české slovní zásoby a nabídne analýzu dat, které z něj lze získat.

Fonologický lexikální korpus češtiny je primárně korpusem fonologic-kým. Jeho zdrojem je seznam lexémů zahrnutých v Databázi heslářů (http://lexiko.ujc.cas.cz/), jež obsahuje 855 329 hesel. V současné době je do našeho korpusu zahrnuto přes 270 tisíc lexémů ze Slovníku spisovné češtiny, Slovníku spisovného jazyka českého, Výslovnosti spisovné češtiny, Příručního slovníku jazyka českého a dalších zdrojů.

Všechny lexémy jsou opatřeny fonologickou reprezentací, která vychází z ortoepické výslovnosti. Fonologická reprezentace byla nejdříve získána au-tomatickým převodem z ortografické podoby, následně však byl každý lexém manuálně zkontrolován a případně opraven. Jelikož ze samotného českého pravopisu nelze stoprocentně odvodit výslovnost (především v případě slov cizího původu), byla kontrola nutná, aby se předešlo zkreslení a nepřesnos-tem způsobeným automatickou transkripcí. Tím jsme předešli problémům, které jsou patrné u fonologické analýzy ČNK Bartoně et al. (2009), kteří též použili automatickou transkripci, avšak bez následné kontroly. (Ačkoliv si autoři zmíněné analýzy jsou zkreslení výsledků vědomi, pokládají je za za-nedbatelné, s čímž lze polemizovat: např. slova struktury konsonant–konso-nant (CC) mohou jen těžko patřit mezi sto nejčastějších typů slov (viz op. cit. 109), jelikož čeština taková slova nemá, uvedenou strukturu mají pouze zkratky.)

Data ve fonologickém lexikálním korpusu jsou uložena v formátu tabul-ky. Příklad záhlaví a jednoho hesla v korpusu je v následující tabulce. 

28

Ort

ho

PhRe

p

Leng

th

Phta

gms

CVSt

r

Plac

e

Man

ner

Voic

ing

Hor

iz

Vert

ic

Quan

t

SSČ

SSJČ

VSČ

stín Sťīn 4 1 CCVC APvA FOvN XUvX ccQc ccHc ccGc 1 1 0 

Sloupec Ortho udává pravopisnou podobu lexému a sloupec PhRep jeho fonologickou reprezentaci. Sloupce Length až Quality udávají fonologické vlastnosti lexémů a fonémů, které obsahují. Zbývající sloupce zaznamená-vají, do kterého slovníku je lexém zařazen.

Fonologické vlastnosti fonémů, kterých se lexém skládá, jsou odvoditelné z fonologické reprezentace a lze je chápat jako analogie gramatické anotace v nefonologických korpusech. Sloupce Length, Phtagms udávají počet foné-mů a počet slabik, sloupec CVStr pak strukturu lexému na základě členství jeho fonémů ve třídě konsonantů či vokálů. Další sloupce vyjadřují distink-tivní rysy konsonantů podle místa a  způsobu artikulace a  znělosti (Place, Manner, Voicing) a distinktivní rysy vokálů podle horizontální a vertikální polohy a kvantity (Horiz, Vertic, Quant). Písmena v uvedených sloupcích jsou zkratky fonologických vlastností; např. APvA ve sloupci Place lze chá-pat takto: A = alveolární (odpovídající /S/), P = palatální (= odpovídající /ť/), v  = vokál (odpovídající /ī/), N = nazální (odpovídající /n/). Další sloupce, např. s vyjádřením hranic slabik, budou do korpusu postupně přidávány.

Na základě uvedených sloupců, resp. fonologických vlastností celého le-xému nebo jednotlivých fonémů je možné v korpusu vyhledávat a třídit data podle definovatelných kritérií (např. jednoslabičné lexémy o šesti fonémech obsahujících okluzívu a dlouhý vokál). Korpus je k dispozici na webové ad-rese http://www.ujc.cas.cz/phword/. Prozatím je volně přístupná jen jeho ukázková část o počtu cca 50 000 hesel ze Slovníku spisovné češtiny, jež je též doplněna o informaci o slovních druzích, podle které lze např. zkoumat i fonologickou strukturu podstatných jmen oproti slovesům.

Data z lexikálního fonologického korpusu slouží, obdobně jako u grama-tických korpusů, k lingvistické analýze. Příspěvek kromě představení tohoto korpusu nabídne i fonologickou analýzu lexikální zásoby češtiny. Z korpusu lze např. získat informace o frekvenci výskytu jednotlivých fonémů a jejich tříd nebo frekvenci různých kombinací fonémů a vůbec informace o kombi-novatelnosti fonémů. Rovněž můžeme získat informace o výskytu a frekven-ci lexémů určité délky nebo struktury.

29

LiteraturaBartoň, T. et al. (2009). Statistiky čestiny. Praha.

František CvrčekÚstav státu a práva AV ČR [email protected]

Karel PalaFakulta informatiky Masarykovy univerzity [email protected]

Pavel RychlýFakulta informatiky Masarykovy univerzity [email protected]

Chování slov a jejich kolokací v jazyce právních subdoménV článku věnujeme pozornost chování kolokací v právních subdoménách, jako jsou texty zákonů, vyhlášek a  nařízení. Porovnání slov samostatně i slovních kolokací z jednotlivých typů právních textů poskytuje kvantifiko-vatelné údaje, které vypovídají o terminologické povaze pozorovaných ko-lokací. Z provedených měření a pozorování jasně plyne, že jazyk primárních předpisů se značně liší od jazyka sekundárních předpisů.

Jako materiál posloužily korpusy: CzLaw čítající 20,6 mil. tokenů, který se dále člení na subkorpus Primarni predpisy (Ústava a platné zákony ČR) s 12,2 mil. tokeny a Sekundarni predpisy (vyhlášky a nařízení) s 8,4 mil. to-keny. Uvedené korpusy nejsou velké, ale základní kolokační tendence, o kte-ré nám jde, lze na nich dobře demonstrovat. Pro kontrastní analýzu jsme též využili korpus CzechParl čítající 51,4 mil. tokenů, který obsahuje záznamy projevů poslanců v Parlamentu ČR a má právní povahu. Jeho velikost lze pro naše účely pokládat za více než dostačující.

30

V  článku navazujeme na  projekt PES (viz  http://deb.fi.muni.cz/pes), v němž se úspěšně kombinují korpusově lingvistické přístupy s právnický-mi. Jde o analýzu užití právnické terminologie v doktrinálním jazyce (zá-kladní učebnice práva z jednotlivých odvětví), v jazyce zákonů (korpus plat-ných zákonů ČR včetně Ústavy ČR), v jazyce sekundárních předpisů (korpus platných nařízení a vyhlášek ČR na centrální úrovni), v  jazyce judikatury (korpus judikatury soudních rozhodnutí nejvyšších soudů od  roku 1990) a v  tzv. obecném základu jazyka (korpus Czes). Systém PES (soubor bází, korpusů a programů) umožňuje studium právního jazyka a jeho změn. Vzhledem k rozsahu, který prakticky pokrývá celý právní řád i obecný zá-klad jazyka, získáváme vlastně poprvé představu o složitosti práva jako cel-ku na jazykové úrovni. Programový systém PES je pravidelně aktualizován a  je pro potřeby výuky a výzkumu přístupný všem uživatelům, kteří o  to mohou požádat u JUDr. F. Cvrčka z ÚSP AV ČR.

Jednotlivé uvedené korpusy jsou v elektronické podobě a lze s nimi pra-covat v korpusovém manažeru Manatee/Bonito (Rychlý 2007) s vestavěným modulem pro práci se slovními profily (Word Sketches, Kilgarriff et al. 2004). Manažer Manatee/Bonito umožňuje prohledávat zmíněné korpusy, získávat z nich konkordance, sledovat frekvence jednotlivých výrazů (právních ter-mínů) a zejména pozorovat jejich kolokační chování, získávat klíčová slova a porovnávat jednotlivé korpusy či subkorpusy na různých úrovních.

První důkaz rozdílnosti jazyků primárních a sekundárních předpisů při-náší porovnání klíčových slov obou subkorpusů. Pro oba subkorpusy jsme vytvořili seznamy klíčových slov porovnáním frekvencí slov s referenčním korpusem. Při výpočtech byla používána tzv. redukovaná četnost (Avera-ge Reduce Frequency), která automaticky filtruje slova, která se vyskytují v jednom či několika málo dokumentech. Vytvořeno bylo několik seznamů různé délky obsahující vždy statisticky nejvýznamnější klíčová slova z da-ného subkorpusu. Z porovnáním příslušných seznamů plyne, že pouze 60 % slov je v odpovídajících seznamech společných.

Podobně jsme postupovali při porovnání kolokací jednotlivých klíčových slov (společných oběma subkorpusům). Seznamy kolokací byly vytvořeny pomocí systému Sketch Engine (Kilgarriff et al. 2004) jako statisticky vý-znamné kolokace v příslušných gramatických relacích.

Opětovné porovnání seznamů mezi oběma subkorpusy ukazuje, že u ně-kterých slov je podíl společných kolokací menší než 30 %. Jako příklad může-me uvést slovo „území“, u kterého z 37 gramatických relací má pouze 18 re-

31

lací alespoň jednu kolokaci společnou oběma subkorpusům a pouze 6 relací má více než 3 společné kolokace. Podrobnějším studiem konkrétních vazeb jednotlivých slov zjišťujeme, že společné kolokace  v primárních a sekundár-ních předpisech jsou z velké části pouze obecné fráze, které nejsou specifické pro právnické texty. Odborné vazby jsou v obou subdoménách značně roz-dílné. V článku budou uvedeny příslušné seznamy a tabulky.

Celkově můžeme konstatovat, že ač se na první pohled může zdát, že zá-kony na jedné straně a vyhlášky a nařízení na druhé straně spadají do stej-ného jazyka, exaktní statistická analýza ukazuje, že se jedná o dvě značně rozdílné domény, které hovoří různými podjazyky.

I když to nebývá v odborné literatuře zvykem, pokládáme zde za nutné konstatovat, že analýza korpusů právních textů  upozorňuje na  některé celospolečenské problémy, jež mají bezprostřední politické důsled-ky. Jestliže nejfrekventovanější slovo v korpusu právních textů je slovo „zá-kon“ a jeho prostý slovní profil (Word Sketch) ukazuje, že nejfrekventova-nější kolokace s genitivem jsou „znění“, „změna“, „návrh“, „doplnění“ (záko-na) a je subjektem sloves „měnit“, předchází před slovesy „měnit“, „stanovit“, „doplňovat“ atd., svědčí to o  nenormálním a  nadměrném novelizování zákonů, které fakticky ohrožuje právní řád v ČR. Další podrobná kvanti-tativní analýza stavu českého právního řádu ukazuje, že jazyková analýza na základě poměrně jednoduchých prostředků naznačené situace potvrzuje. Lingvistická analýza v daném případě dokládá existenci nebezpečí spočíva-jícího v nepřehlednosti a nesrozumitelnosti vazeb mezi právními předpisy, jež obojí narušuje standardní využívání práva v ČR.

LiteraturaCvrček, F. et al. (2012). PES (Právní elektronický slovník – Electronic Legal

Dictionary), http://deb.fi.muni.cz/pes, webová stránka (Web page).Kilgarriff, A., Rychlý, P., Smrž, P. & Tugwell, D. (2004). The Sketch Engine

Proc. Euralex. Lorient, France, July, 105–116.Mráková, E. & Pala, K. (2010). Legal Terms and Word Sketches: a Case Study,

Proceedings of the RASLAN Workshop, Karlova Studánka, 31–40.Pala, K., Rychlý, P. & Šmerk, P. (2012). Automatic Identication of Legal Terms

in Czech Law Texts, Semantic Processing of Legal Texts, Springer, LNAI 6036, 83-94.

Rychlý, P.  (2007). Manatee/Bonito – A  Modular Corpus Manager, Procee-dings of the RASLAN Workshop, Karlova Studánka, 65–70.

32

Václav CvrčekFilozofická fakulta Univerzity Karlovy [email protected]

Jiří VáclavíkFilozofická fakulta Univerzity Karlovy [email protected]

Kvantitativní pohled na kontextovou desambiguaciMyšlenkovým východiskem tohoto příspěvku je tvrzení, že izolované (de-kontextualizované) jazykové jednotky jsou ze své podstatě vždy víceznačné či alespoň polyfunkční (Cvrček 2013). Až zapojením do  kontextu dochází k  jejich desambiguaci, čehož využívají jak nástroje na pravidlovou či sto-chastickou morfologickou analýzu (Hajič 2004, Petkevič 2006), tak lingvis-té v popisu; např. zkoumání kolokací je ve světle tohoto pohledu hledáním typických kontextů, které zjednoznačňují inherentně víceznačné lexémy. Výzkum kvantitativních charakteristik kontextu by i proto měl být v centru zájmu komputačních i korpusových lingvistů. Příspěvek se pokusí kvantita-tivně uchopit vztah mezi délkou n-gramu, která aproximuje rozsah kontex-tové informace, a mírou jeho jednoznačnosti.

U izolované jednotky najdeme příklady víceznačnosti vcelku snadno: řada lemmat má kupř. mnoho různých flektivních tvarů, skloňovaná i nesklonná lemmata pak nabývají v různých kontextech různých významů nebo stylo-vých odstínů. Problematika víceznačnosti (a její desambiguace) se tedy týká všech jazykových rovin; prakticky je však v současnosti kvantitativní vý-zkum tohoto fenoménu možný pouze na  rovinách přidržujících se formy, o což se pokusí i tento příspěvek.

Na jednotky, jejichž rozsah překračuje hranici jednoho slova (n-gramy), je možné nahlížet jako na spojení zkoumaného slova a části jeho kontextu. Tím, že slovo vstupuje do sousedství s jiným, se víceznačnost celého spojení ve  srovnání s  izolovaným slovem snižuje. Např. bigram tvořený posloup-ností verba a substantiva odpovídá v rozsáhlém korpusu mnoha lexikálním realizacím (sekvencím lemmat) a stejnému nebo většímu počtu realizací le-xikálně gramatických (sekvencím slovních tvarů). Přidáváním dalších jed-notek k tomuto bigramu (např. vytvořením trigramu adverbium – verbum – substantivum nebo tetragramu adverbium – sloveso – substantivum – pre-

33

pozice) omezujeme formální i lexikální variabilitu celé sekvence, až v urči-tém kroku dospějeme k takové délce zkoumané jednotky, že její realizace bude jednoznačná, tj. sekvenci značek slovních druhů bude odpovídat právě jedna posloupnost lemmat nebo tvarů (což svědčí o tom, že došlo k úplné desambiguaci). Otázkou samozřejmě zůstává, jak dlouhá musí taková po-sloupnost být, aby byla zcela zjednoznačněná. Pro každou délku n-gramu platí, že některé n-gramy budou zcela jednoznačné (budou mít právě jednu realizaci na zvolené rovině), jiné budou víceznačné. Předpokládáme přitom, že nejednoznačných n-gramů bude proporčně méně v  seznamu n-gramů rozsáhlejších než v seznamu n-gramů kratších.

Výzkum bude prováděn na  korpusech ČNK řady SYN, a  to konkrétně na seznamech n-gramů (konsekutivních n-tic slov) různé délky. Pro každý n-gram tvořený lemmaty bude v korpusu zjištěn počet jejich různých re-alizací na  úrovni slovních tvarů, pro n-gramy tvořené značkami slovních druhů bude zjišťován počet různých realizací na úrovni posloupností lem-mat i slovních tvarů atp. Analýza tak simuluje zablokování flektivního a le-xikálního faktoru (ve  smyslu článku Nebeský & Novák 1996). Lze přitom předpokládat, že výsledky zjištěné při těchto pokusech na formách a lexé-mech budou analogicky platit i pro desambiguaci sémantiky (ačkoli v oblasti významů je situace nesporně složitější).

Abychom výsledky měření mohli zobecnit a úspěšně kvantifikovat vztah délky a  ambiguity v  závislosti na  použitém typu desambiguace a  celkové frekvenci sekvence v korpusu, je třeba přistoupit ke korekci, která zohled-ňuje omezený rozsah korpusu (jakkoli je dnes obrovský). O jistotě desam-biguace kontextem můžeme mluvit pouze v případě, kdy víme, že jednot-ky v n-gramu obsažené, skutečně můžou různých formálních podob nabýt. Má-li zkoumaný n-gram (tvořený kupř. lemmaty) celkovou frekvenci 200 výskytů a víme-li, že všechna slova v něm obsažená jsou nesklonná, nelze takový příklad za desambiguaci (na rovině slovních tvarů) prohlásit. N-gram je za takových okolností formálně jednoznačný vždy (bez ohledu na délku). Pouze v případě, že jednotky v n-gramu mohou při své realizaci nabývat alespoň dvou různých variant (např. jedno lemma alespoň dvou různých tvarů) a to s pravděpodobností, která naznačuje, že při celkové frekvenci 200 výskytů bychom mohli očekávat alespoň dvě odlišné realizace, pak – pokud je taková sekvence realizována jednoznačně – můžeme skutečně hovořit o desambiguaci.

34

Výsledky takto zjištěné by mohly sloužit nejen k určení optimálního roz-sahu kontextu nutného pro formální desambiguaci anotačních nástrojů, ale s  určitou mírou tolerance by měly být zobecnitelné i  na  analýzu jakékoli polysémie/polyfunkčnosti, jíž se zabývá deskriptivní lingvistika na  všech rovinách popisu.

LiteraturaCvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Li-

dové noviny.Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morpho-

logy of Czech). Vol. 1. Praha: Karolinum Charles University Press.Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Ru-

le-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.

Nebeský, L. & Novák, P. (1996). Větné faktory a jejich podíl na analýze věty. Slovo a slovesnost, 57, 249–263.

35

Tomáš ČapkaÚstav Českého národního korpusu FF UK [email protected]

Michal KřenÚstav Českého národního korpusu FF UK [email protected]

Petr TrunečekÚstav Českého národního korpusu FF UK [email protected]

SynKorp: prostředí pro správu a zpracování textůZveřejnění korpusu předchází často velké množství pro uživatele „neviditel-né“ práce, jejíž cíl můžeme charakterizovat jako kvalitně zpracované texty bez duplicit či jiných zjevných chyb. Zpracování textů do synchronních psa-ných korpusů řady SYN zahrnuje v zásadě tři hlavní kroky: akvizici (získání textu), jeho (víceméně automatickou) technickou konverzi do  potřebného formátu a  (převážně manuální) anotaci. Anotací je v  tomto textu míněno pouze doplňování bibliografické informace spolu s evaluativním určováním typu textu a  žánru; lemmatizace a  morfologické značkování probíhají až v další fázi, jejíž popis není cílem příspěvku.

Dosud se v ČNK pro konverzi a anotaci korpusů řady SYN používaly ná-stroje, které začaly vznikat už v polovině 90. let; tyto nástroje byly v dalších letech průběžně vylepšovány a doplňovány. Postupně tak vznikla sada ná-strojů, jimiž byly zpracovány všechny dosud zveřejněné korpusy řady SYN (Hnátková et al. 2014). Jednotlivé nástroje však byly příliš specifické a málo flexibilní a především používaly dnes již překonané standardy (SGML, 8-bi-tové kódování češtiny). Průběžné modernizaci bránila komplexnost celé sady nástrojů a jejich vzájemná provázanost, stejně jako (možná paradoxně) jejich spolehlivost: jednotlivé komponenty byly odladěné a vhodně parame-trizované, což zvyšovalo nároky na nový systém, stejně jako čas potřebný k jeho implementaci.

Protože šlo o nástroje v mnoha ohledech zastaralé, začaly práce na kom-pletním přepracování celého procesu včetně adaptace či výměny všech vý-konných skriptů. Kromě potřeby radikálních změn bylo zřejmé, že je nutné zachovat to, co se osvědčilo, a  tím je především základní princip používat

36

cílené procedury aplikované v závislosti na zdroji dat spolu s průběžnými kontrolami jejich výstupů. Hlavní cíle vývoje nového prostředí SynKorp tedy byly:

1. integrace správy textů, anotace a konverze pro synchronní psané kor-pusy do jednotného systému;

2. přechod na nové standardy (XML, UTF-8);3. preference etablovaných nástrojů (jsou-li pro daný účel dostupné);4. modularita, tj. možnost snadné výměny komponent;5. revize architektury databáze používané pro správu textů spojená

s obohacením o další údaje;6. anotace s externě definovatelnými závislostmi jednotlivých položek;7. spouštění konverzí přes webové rozhraní zahrnující snadnou konfi-

gurovatelnost (zapojování/vyřazování konkrétních nástrojů a  jejich parametrizaci) a kvalitativní kontroly;

8. zrychlení celého procesu;9. zachování kvality a spolehlivosti původních nástrojů;

10. využitelnost nové sady nástrojů také pro další účely.Postup zpracování textů implementovaný v SynKorpu je principiálně ve-

lice podobný původnímu, pouze je celý (od jednotlivých nástrojů až po uži-vatelské rozhraní) realizován jinými programy. Typický proces zpracování textu v SynKorpu probíhá v následujících čtyřech krocích.

1. Získaný text je spolu s dostupnými metadaty evidován v databázi.2. Text je spolu s dalšími texty stejného formátu a/nebo ze stejného zdroje

převeden z původního formátu (.txt, .doc, .pdf, .epub apod.) do jednot-ného XML meziformátu. Tento meziformát je založen na doporučeních TEI, umožňuje zachování řady dosud opomíjených jevů (řezy písma, nadpisy, poznámky pod čarou, verše, repliky v dramatech, přímá řeč) a  zároveň je navržen tak, aby vyhovoval potřebám zpracování textů také v dalších sekcích ČNK.

3. Meziformát je anotován v komfortním webovém prostředí s možnos-tí volby mezi anotací manuální (typicky pro neperiodika) a dávkovou (periodika).

4. Nakonec probíhá čištění, které je možné provádět podle potřeby pouze částečně nebo vůbec: detekce a odstraňování cizojazyčných částí textu (Cavnar & Trenkle 1994), duplicit (Onion & Pomikálek 2011; jeho po-užití viz Benko 2013) a odstavců obsahujících velké množství čísel, ta-bulek nebo seznamů; obecně jde o části textu, jejichž přítomnost v kor-

37

pusu by byla z uživatelského hlediska spíše kontraproduktivní. Všech-ny zmíněné procedury jsou aplikovány na  úrovni dokumentů nebo odstavců, mohou však být dále doplněny úpravami i uvnitř odstavce. Tyto úpravy jsou navrženy tak, aby nijak nenarušovaly původnost tex-tu, a proto k nim dochází pouze tehdy, pokud jde o napravení chyby, která s největší pravděpodobností nebyla záměrem autora a která jím většinou ani nebyla způsobena; typicky jde o chyby technické, vzniklé sazbou nebo dalším zpracováním textu.

Všechny uvedené kroky jsou integrovány do prostředí SynKorp, které je možné si představit jako „ovládací pult“, za nímž sedí operátor, který celý proces sleduje a  řídí. Výsledkem zpracování je strukturovaný text v XML s kompletními metadaty uloženými v databázi, který je připraven k dalšímu zpracování, např. lemmatizaci a morfologickému značkování (Hajič 2004; Je-línek 2008; Petkevič 2006; Spoustová et al. 2007).

Základ SynKorpu je v  tuto chvíli hotov a v hlavních ohledech funkční, celý systém však ještě není připraven k plnému nasazení; jeho dokončení předpokládáme do konce roku 2014.

Závěrem bychom chtěli zdůraznit několik dalších aspektů budoucího po-užití SynKorpu. Především plánujeme vyčlenění výkonného jádra SynKorpu v podobě sady konverzních nástrojů a jejich samostatné využití pro zpraco-vání textů nejenom v ostatních sekcích projektu ČNK (zejména pro histo-rické a paralelní texty), ale také v rámci automatizovaného zpracování textů při vytváření korpusů samotnými uživateli, což je služba, o  jejíž realizaci ČNK v dlouhodobější perspektivě uvažuje. V neposlední řadě SynKorp díky zrychlení zpracování dat umožní vznik monitorovacích korpusů, jejichž cí-lem bude aktuálnější mapování češtiny a usnadnění výzkumu jazykových změn.

LiteraturaBenko, V. (2013). Data deduplication in Slovak Corpora. In Natural Language

Processing, Corpus Linguistics, E-learning. RAM Verlag, Lüdenscheid, 27–39.

Cavnar, W. B. & Trenkle, J. M. (1994). N-Gram-Based Text Categorization. In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, USA. Dostupné z http://www.info.uni-caen.fr/~giguet/sigdat95/cavnar_trenkle_ngram.ps.

38

Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morpho-logy of Czech). Vol. 1. Praha: Karolinum Charles University Press.

Hnátková, M., Křen, M., Procházka, P. & Skoumalová, H. (2014). The SYN-se-ries Corpora of Written Czech. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC‘14). ELRA, Reykjavík, 160–164. Dostupné z http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf.

Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč, 91 (1), 13–20.

Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Ru-le-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.

Pomikálek, J. (2011). Removing Boilerplate and Duplicate Content from Web Corpora. Disertační práce, FI MU Brno. Dostupné z http://code.google.com/p/onion/.

Spoustová, D., Hajič, J., Votrubec, J., Krbec, P. & Květoň, P. (2007). The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In Proceedings of the Workshop on Balto-Slavonic Natural Lan-guage Processing. ACL 2007, Praha, 67–74.

39

Radek ČechOstravská univerzita [email protected]

Emmerich KelihUniversität Wien [email protected]

Ján MačutekUniverzita Komenského, Bratislava [email protected]

Vliv sémantiky na vlastnosti pádové distribuce podstatných jmen v češtiněVliv sémantiky na frekvenční distribuce pádů substantiv u jazyků s bohatou flexí je dobře znám (srov. Greenberg 1990); například substantivum denotu-jící osobu má tendenci se vyskytovat nejčastěji v nominativu (vlivem séman-tické roli agentu), zatímco substantivum označující místo v  lokálu. V naší analýze se ovšem pokusíme interpretovat vztah mezi sémantikou substan-tiva a frekvencí pádů z širší perspektivy. Teoretickými východisky našeho přístupu jsou jak Wimmerova-Altmannova teorie (2005), tak idea diverzifi-kačního procesu v jazyce (Altmann 2005): tato východiska, stručně řečeno, předpokládají, že rankové frekvenční distribuce jazykových jednotek (tj. distribuce jednotek uspořádaných podle klesající frekvence těchto jednotek) či kategorií jsou řízeny mechanismy, které lze chápat jako projevy vzájem-ných vztahů mezi jazykovými jednotkami a kategoriemi. Rozhodující vliv na charakter těchto vztahů pak mají tzv. komunikační požadavky účastníků komunikace; viz synergetická lingvistika (Köhler 1986, 2005).

Ranková frekvenční distribuce je tedy jedním z pozorovatelných projevů diverzifikace. Její důležitou vlastností je to, že se dá dobře matematicky mo-delovat, přičemž parametry daného modelu lze interpretovat lingvisticky. Konkrétně v naší analýze předpokládáme, že

1. ranková frekvenční distribuce pádů u jednotlivých substantiv bude od-povídat modelům, které lze odvodit z Wimmerovy-Altmannovy teorie;

40

např. v nejjednodušším případě bude možné tyto distribuce modelovat prostřednictvím mocninné funkce

y = axb 

kde y odpovídá pořadí daného pádu v  rankové frekvenční distribu-ci sledovaného substantiva, x odpovídá frekvenci daného pádu, a  je parametr odpovídající nejvyšší frekvenci a b je parametr určující cha-rakter diverzifikace (konkrétně sklon křivky v grafu vyjadřujícím tuto funkci);

2. sémantické vlastnosti substantiv budou mít vliv na charakter ranko-vé frekvenční distribuce pádů; např. rozdíly rankových frekvenčních distribucí pádů u  jednotlivých životných a neživotných maskulin by se měly projevit v rozdílných hodnotách parametrů (např. parametr b ve výše uvedené mocninné funkci); zdůrazněme, že rozdíly mezi hod-notami parametrů budeme statisticky testovat.

Pro analýzu budou použita jazyková data z Českého národního korpusu (synchronní lemmatizované a morfologicky značkované korpusy). Budeme sledovat rozdíly rankových frekvenčních distribucí pádů u různých séman-tických kategorií substantiv: např. životná vs. neživotná maskulina, kon-krétní vs. abstraktní substantiva. Dále porovnáme rozdíly mezi skupinami substantiv rozdělenými do  specifických sémantických kategorií, jako jsou „zvířata“, „části těla“, „místa“ atd. Výsledky budou interpretovány ve vztahu k synergetické teorii jazyka.

LiteraturaAltmann, G. (2005). Diversification processes. In R. Köhler, G. Altmann & R.

G. Piotrowski (Eds.), Handbook of Quantitative Linguistics. Berlin: de Gruyter, 649-659.

Greenberg, J. H. (1990). The Relation of Frequency to Semantic Feature in a Case Language (Russian). In K. Denning & S. Kemmer (Eds.), On lan-guage: selected writings of Joseph H. Greenberg. Stanford: Stanford Uni-versity Press, 207–226.

Köhler, R. (1986). Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer.

41

Köhler, R. (2005). Synergetic Linguistics. In R. Köhler, G. Altmann & R. G. Pi-otrowski (Eds.), Handbook of Quantitative Linguistics. Berlin: de Gruy-ter, 760–775.

Wimmer, G. & Altmann, G. (2005). Unified derivation of some linguistic laws. In R. Köhler, G. Altmann, R. G. Piotrowski (Eds.), Handbook of Quantitative Linguistics. Berlin: de Gruyter, 791–807.

František ČermákÚstav Českého národního korpusu FF UK [email protected]

Kolokace a kolokabilita synsémantik: Substituty a interjekceMluví-li se o kombinatorice slovních druhů, mluví se obvykle o velkých au-tosémantických slovních druzích. V následujícím příspěvku půjde ale o pře-hled zcela zanedbávané oblasti synsémantik v širokém smyslu a o to zjistit, nakolik se tyto slovní druhy kombinují nezávisle na autosémantikách, tj. především mezi sebou, uvnitř své třídy; role synsémantik vázaných na auto-sémantika je většinou dobře známá.

Do záběru se takto dostane šest slovních druhů, funkčně zcela hetero-genních, které spojuje právě to, že jednak nejsou autosémantiky, a jednak to, že mají vůči nim v různém smyslu většinou služebnou úlohu, i když ne vždycky. Konkrétně tedy půjde o prepozice, konjunkce, partikule, pronomi-na, numerále i interjekce, u nichž se až dosud o syntagmatických aspektech příliš neuvažovalo (pokud vůbec).

První část stručně vymezí široké a hrubé pojetí synsémantik, jejich typy (jednoslovné i víceslovné) a kombinatoriku a především funkční aspekty, popř. i pragmatiku. Necháme-li stranou vlastně definitoricky bokem stojící interjekce, pak lze oblast synsémantik dělit na dvě velké skupiny, na substi-

42

tuty (pronomina a numerale) a relátory (prepozice, konjunkce, včetně odliš-ných relátorů pragmatických, tj. partikulí).

Protože autor pozornost některým z nich už věnoval dříve (tj. prepozi-cím, konjunkcím a partikulím) a protože je tato oblast velmi široká, bude se příspěvek věnovat především substitutům, tj. pronominům a numeraliím, v závěru však i oblastem dalším, především znovu interjekcím.

Druhá část, založená na korpusovém rozboru, si postupně všimne jed-notlivých takto vymezených synsémantik. Základním půdorysem k pohledu na ně bude jejich obecná syntagmatická funkce, komentovaná stručně i z hlediska jejich sémantiky a pro ně specifické funkce. Důraz se bude klást, v souladu s mým opakovaným zjištěním, na potřebu lišit vedle tradičně for-málně povědomých synsémantik jednoslovných i synsémantika víceslovná, v řadě případů tedy o synsémantické kolokace (často frazeologické) ustá-lené. Jedním z cílů bude naznačit kombinatorické možnosti, ale i omezení, především vůči sobě navzájem. Tato specifická otázka nebyla dosud v zásadě systematicky studovaná.

V části věnované zájmenům a číslovkám se prezentují možnosti a hranice jejich kombinatoriky a komentují některé nápadné zvláštnosti. Obdobně se nabídne pohled na, běžně nečekanou, kombinatoriku číslovek, které nejsou vždy jen textové; najdou se tu i případy ustálené.

43

Alena M. ČernáÚstav pro jazyk český AV ČR [email protected]

Staročeské lexémy „nemoc“, „neduh“, „nedostatek“ – jejich sémantická a gramatická charakteristikaČtrnácté a zejména patnácté století je obdobím, z něhož se nám v rukopisech dochovalo velké množství česky psaných lékařských textů. Tyto texty se vyznačují charakteristickými rysy, z nichž jazykově nejvýraznějším je spe-cifická slovní zásoba, která tvoří základ budoucí lékařské terminologie. Tato specifická slovní zásoba nese rysy formujícího se lékařského názvosloví – je neustálená, variabilní a rozkolísaná; rukopisné texty navíc obsahují řadu chyb způsobených neznalostí laických opisovačů. Tato rodící se lékařská terminologie je složena z několika sémantických okruhů, např. z názvů částí lidského těla (budoucí anatomické názvosloví), z názvů nemocí, zdravotních obtíží, příp. estetických nedostatků (budoucí nosologické názvosloví), z ná-zvů léčiv (budoucí farmaceutické názvosloví) atd. Do široce pojaté lékařské terminologie navíc ve středověku patří i názvosloví blízkých oborů – ast-ronomie a astrologie, botaniky, mineralogie, magie atd. Specifické lékařské pojmy jsou na jazykové rovině vyjadřovány zvláštními postupy. Neexistence jednoslovných pojmenování se specifickou funkcí je suplována mj. různými typy spojování slov.

Pro obecný význam ,nezdraví‘ se ve staré češtině užívalo několik léxémů s různou sémantickou, formální a frekvenční charakteristikou, mj. neduže-nie, neduha, nesdravie, bezsdravie, vada/váda, bolest, škoda atd. Nejfrekvento-vanější jsou však lexikální jednotky nemoc, neduh a nedostatek, jejichž obec-ný význam je determinován mj. kolokacemi, v nichž se lexémy vyskytují. Samotné lexémy nemají charakter termínu, mj. nejsou vázány jen na lékař-ský kontext, ale vyskytují se i v textech neodborných.V příspěvku se věnuje-me jak lexikálnímu významu jednotek nemoc, neduh a nedostatek, tak jejich slovotvorné i gramatické charakteristice, i s přihlédnutím k jejich dalšímu vývoji až k moderní češtině. Zvláštní důraz bude kladen právě na koloka-ce těchto staročeských lexémů (např. nemoc súchotiny, nemoc hluchá, nemoc hlavy; neduh veliký; nedostatek mozku, nedostatek od příčin vnitřních atd.). Pokusíme se o klasifikaci doložených lexikálních spojení z hlediska jejich

44

formy, funkce, frekvence atd. Některé z kolokací již ve staré češtině postup-ně získávají charakter terminologických kolokací (termínů), srov. např. ne-moc svatého Valentina, nemoc padúcie, neduh volový. Zajímavou otázkou je stanovení časové posloupnosti vzniku terminologických kolokací a  jedno-slovných termínů (např. žlutá nemoc × žlútenicě), neboť nelze jednoznačně tvrdit, že jednoslovný název vznikl univerbizací víceslovného pojmenování. Poměrně častý je i společný výskyt uvedených tří lexikálních jednotek, při-čemž je nutné správně definovat jejich vzájemný vztah, tj. jedná-li se o sy-nonymní výrazy, či nikoliv (proti neduhóm a nemocem plicným; lékařstvie postavil proti mnohým a rozličným nemocem, neduhuom a nedostatkóm).

Materiálovou bází pro výzkum bude zejména staročeský korpus, který je součástí internetové databáze Vokabulář webový, webové hnízdo pramenů k poznání historické češtiny (http://vokabular.ujc.cas.cz) a který obsahuje té-měř 3 mil. slovních tvarů. Podpůrnou bází je pak diachronní korpus Českého národního korpusu (http://www.korpus.cz). Ze získaného materiálu budou vytříděny pouze doklady z odborné lékařské literatury, příp. z literatury pro středověké léčení pravidelně využívané (herbáře, lapidáře, astrologické spisy atd.). Jazykový materiál získaný v korpusech bude navíc doplněn o cílovou excerpci mimokorpusových zdrojů (staročeských textů, lexikálních karto-ték, lexikografických děl). Příspěvek přinese další pohled na zrod staročeské lékařské terminologie a na vývoj českého jazyka. Pro tento výzkum máme k dispozici mimořádně hojné množství zdrojových textů, z nichž je již znač-ná část k dispozici v korpusových bázích.

LiteraturaBečka, J. V. (1992). Česká stylistika. Praha: Academia.Čermák, F. (1982). Syntagmatika a paradigmatika českého slova I: Valence

a kolokabilita. Praha: SPN.Čermák, F. & Šulc, M. (Eds.) (2006). Kolokace. Praha: Nakladatelství Lidové

noviny.Černá, A. M. (2009). Staročeské názvy chorob. Praha: Nakladatelství Karo-

linum.Filipec, J. (1961). Česká synonyma z hlediska stylistiky a lexikografie. Praha:

Nakladatelství ČSAV.Michálek, E. (1971). Pojmová diferenciace – ústřední problém terminologie

viděné historicky, Slovo a slovesnost, 32, 312–317.Mluvnice češtiny III (1987). Praha: Academia.

45

Vokabulář webový, webové hnízdo pramenů k poznání historické češtiny, [on-line], <http://vokabular.ujc.cas.cz>

Lenka FárováÚstav obecné lingvistiky FF UK [email protected]

Uvozovací slovesa v překladech typologicky rozdílných jazykůPři zkoumání jazyka překladu se v posledních zhruba dvaceti letech objevuje snaha o hledání překladových univerzálií, tedy jevů typických pro překlado-vé texty. Mezi často uváděné univerzálie ve vztahu překladu k originálu (tzv. S-univerzálie) patří (viz např. Chesterman 2010: 41-42):

• prodlužování (překlad delší než originál)• interference (jeden ze „zákonů“ podle Toury 1995)• standardizace (další ze „zákonů“ podle Toury 1995)• normalizace dialektů• redukce složitých vypravěčských hlasů• explicitace• retranslační hypotéza (pozdější překlady se více blíží originálu)• redukce opakováníMezi potenciální univerzálie vlastní překladům ve vztahu ke srovnatel-

ným původním dílům téhož jazyka (tzv. T-univerzálie) Chesterman (2010:42) počítá následující:

• simplifikace (generalizaci je možné chápat jako projev simplifikace)• konvencionalizace• netypické lexikální vzorce• nižší zastoupení prvků specifických pro jazyk překladuJakkoliv je pojem překladových univerzálií sporný (řada kritiků tohoto

termínu jej cítí jako příliš absolutní a navrhuje spíše označení „pravidelnost“,

46

„zákon“ či „tendence“ – např. Toury 1995, Bernardini & Zanettin 2004), nadá-le se jako (možná i provizorní) nástroj využívá.

V tomto příspěvku se problematičnost některých těchto univerzálií poku-sím ukázat na příkladu sloves uvozujících přímou řeč ve třech typologicky rozdílných jazycích: češtině, finštině a angličtině.  Zdrojem materiálu jsou subkorpusy vytvořené na základě beletristických textů z paralelních korpu-sů zvolených jazyků v rámci projektu InterCorp, jako srovnávací materiál posloužila data ze srovnatelného překladového korpusu Jerome (vše dostup-né na http://www.korpus.cz).

V  jazyce překladu se podle výše uvedených T-univerzálií objevují dvě protichůdné tendence: na jedné straně nadměrné využívání nejtypičtějších slov a větných struktur cílového jazyka (srov. simplifikace), na druhé straně fakt, že překlad vykazuje znaky netypického užití lexikálních vzorců.

V  rámci S-univerzálií se mluví také o  redukci opakování, ale překlady uvozovacích sloves z angličtiny i finštiny do češtiny naznačují, že tento prin-cip zde není dodržován (což ostatně naznačuje už Levý 1998: 144).

V první fázi se výzkum zaměřil na trojici nejfrekventovanějších uvozo-vacích sloves ve zkoumaných jazycích. V angličtině i ve finštině je zdale-ka nejčastěji (byť vůbec ne bezvýhradně – k použití said a jeho překladům do češtiny srov. např. Corness 2010) jako uvozovací sloveso používáno said, resp. jeho finský ekvivalent sanoi, v češtině se jedná o uvozovací slovesa řekl/řekla. Ve světle překladových univerzálií a na základě materiálu paralelních subkorpusů, kdy se při analýze vychází pokaždé z jiného originálu, jsou pro-to zajímavé následující otázky:

• Jak s opakováním nejfrekventovanějšího uvozovacího slovesa naložily překlady: je opakování zachováno nebo dochází k jeho redukci? A liší se výsledky v závislosti na typu jazyka?

V druhé fázi se pak výzkum zaměřil na použití dalších uvozovacích sloves (zejména v češtině a finštině) a pokusil se najít odpověď na otázky:

• Jakým způsobem se pestrá škála uvozovacích sloves v českém originá-lu překládá do finštiny a do angličtiny?

• Dochází k jevům zjištěným u sloves typu „said“ i v případě méně frek-ventovaných uvozovacích sloves?  

• Vyskytují se ekvivalenty uvozovacích sloves použité v  překladech i v originálních beletristických textech nebo zde dochází k netypické-mu použití lexikálních vzorců?

47

Získané výsledky budou v  závěru konfrontovány s  obecnými principy označovanými jako překladové univerzálie.

LiteraturaBernardini, S. & Zanettin, F. (2004). When is a universal not a universal?

In A. Mauranen & P. Kujamäki (Eds.), Translation Universals: Do they exist? Amsterdam; Philadelphia: Benjamins, 51–62.

Chesterman, A. (2010). Why study translation universals? In R. Hartama-Heinonen & P. Kukkonen (Eds.), Kiasm. Acta Translatologica Helsingi-ensia. Helsingfors: Helsingfors universitet, 38–48.

Corness, P. (2010). Shifts in Czech translations of the reporting verb said in English fiction. In F. Čermák, P. Corness & A. Klégr (Eds.), InterCorp: Exploring a Multilingual Corpus. Praha: Nakladatelství Lidové noviny/Ústav Českého národního korpusu, 159–176.

Levý, J. (1998). Umění překladu. Praha: Ivo Železný.Mauranen, A. & Kujamäki, P. (Eds.) (2004). Translation Universals: Do they

exist? Amsterdam / Philadelphia: John Benjamins.Toury, G. (1995). Descriptive Translation Studies and Beyond. Amsterdam/

Philadelphia: John Benjamins.Fárová, L. & Vavřín, M., Korpus intercorp_fi, verze 6 z 8. 4. 2013. Ústav Čes-

kého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz

Rosen, A. & Vavřín, M., Korpus intercorp_cs, verze 6 z 8. 4. 2013. Ústav Čes-kého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz

Klégr, A., Malá, M., Rohrauer, L., Šaldová, P.  & Vavřín, M.: Korpus inter-corp_en, verze 6 z 8. 4. 2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz

Chlumská, L., JEROME: srovnatelný překladový korpus. Ústav Českého ná-rodního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz

48

Jarmila FictumováFilozofická fakulta Masarykovy univerzity [email protected]

Jiří RambousekFilozofická fakulta Masarykovy univerzity [email protected]

Jak se mění zrádná slova?Myšlenka vytvořit novou verzi známé příručky Josefa Hladkého Zrádná slo-va v angličtině je již několik let stará. Příručka vyšla poprvé již v roce 1990 a inspirací pro její vznik byly podobné příručky pro francouzštinu a němči-nu (Kudrnáčová 1991). V příspěvku se pokusíme v hlavních rysech popsat uspořádání přepracované příručky a  její zamýšlené online verze. Zatímco doposud byla cílena zejména na české studenty angličtiny jako cizího jazy-ka, v nové verzi předpokládáme jako cílovou skupinu také začínající pře-kladatele z  angličtiny. To vyžaduje zahrnutí jevů opačného směru než ty, na něž se zaměřoval Hladký, tj. takových, kde k chybě vede sledování anglic-ké významové struktury při produkci českého textu. (Dodejme, že jsou proto relevantní nejen pro překladatele, ale současně i  pro anglofonní studenty češtiny.) Při jejich identifikaci je užíván nově budovaný paralelní korpus studentských překladů, který bude stručně představen spolu s příslušným software.

Například ve větě „Personal space […] is both measurable and atmosphe-ric, fixed and elastic“ použilo 7 ze 17 studentů jako ekvivalent anglického atmospheric české atmosférický (místo zde správného významu „vyvolávající určité pocity, jsoucí věcí pocitu“; jeden překlad zněl navíc vzdušný, což vy-chází ze stejného neporozumění). Původní Hladkého verze příručky slovo at-mospheric neobsahuje, protože nepředstavuje nebezpečí, jestliže český rodilý mluvčí hovoří anglicky (české atmosférický lze vždy přeložit atmospheric).

Použitý korpus studentských překladů není určen jen k identifikaci zrád-ných slov. Je budován jako víceúčelový a  je součástí většího korpusu stu-dentských textů (druhou část budou tvořit jejich eseje a  jiné texty v ang-ličtině). Byl pro něj vyvinut speciální software pro správu většího počtu paralelních verzí. Korpus umožňuje různé typy akvizice: buď studenti přímo vkládají svou práci pomocí rozhraní, v němž je jim zadána, nebo se do kor-

49

pusu vkládají elektronické texty již předem sebrané e-learningovým systé-mem. V obou případech lze pak texty tagovat z hlediska překladatelských (či jiných) chyb – při vložení textu lze tedy použít také opravy, které již vyučující k  danému textu pořídil v  minulosti. To umožňuje zpětně vložit i překlady ze starších běhů kurzů, které jsou v e-learningovém systému stále k dispozici. Na doladění softwaru a zejména systému tagů se průběžně pra-cuje, takže doposud použité výsledky jsou zčásti dosud zpracovávány ručně. Rutinní nasazení korpusu umožní výsledky ověřovat na větším vzorku stu-dentů a na více textech.

Zmíníme se též o některých současných vývojových jazykových tenden-cích, které pozorujeme v médiích, na internetu i u studentů překladatelství. Zdá se, že některá slova již nejsou „zrádná“: jejich úzus se u některých vý-znamů posunul směrem k angličtině, jedná se o jistý druh neosémantizmů (Mravinacová 2005) jako důsledek používání angličtiny v mezinárodní ko-munikaci. Nelze se domnívat, že se jedná pouze o  jazykovou neobratnost překladatelů či dalších uživatelů jazyka. Je zřejmé, že v  odborném jazyce dochází k procesu přebírání nových významů i  „bývalých zrádných slov“ častěji. Uvedeme několik příkladů z různých oblastí.

Naší snahou je ověřovat výskyty těchto neosémantizmů v korpusech. Pro tento účel jsou vhodné jiné korpusy než studentské, tedy paralelní (překla-dové) korpusy, zejména anglicko-české (InterCorp, Opus2 Czech, případně Kacenka). Výrazy ověřujeme nejen v nich, ale také v českých synchronních korpusech ČNK i v korpusech vytvořených z webu na FI MU (czTenTen12 a  czes). Nalezené výskyty srovnáváme a  snažíme se vysledovat, v  jakých kontextech jsou tyto výrazy používány nejčastěji. Otázkou zůstává, zda jsou to pouze nevýznamné jevy, anebo výrazy, které se v budoucnu v jazyce ustá-lí. Zejména z hlediska tvorby příručky zrádných slov pak tyto významové posuny vyvolávají otázky týkající se vztahu deskripce a preskripce. Pokusí-me se stanovit pracovní kritérium pro to, které výskyty ještě mezi „zrádná slova“ zahrnovat a které již zcela vynechat jakožto v češtině plně přípustné. Přechodovou kategorií by pak zřejmě mohly tvořit případy, kdy přípustnost závisí na stylové rovině.

Zrádná slova neexistují pouze na  úrovni jednotlivých slov. Zamyslíme se nad možnostmi rozšíření příručky o tzv. zrádné kolokace neboli kolokač-ní faux-amis (Klégr & Šaldová 2006). Zrádné kolokace představují skutečný překladatelský problém, který dosud není soustavně řešen v žádném z do-stupných slovníků či příruček. Jejich velmi volné vymezení, které použili

50

Klégr a  Šaldová, bude ale pro potřebu praktické příručky nutno upřesnit a pravděpodobně značně zúžit.

LiteraturaCvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Li-

dové noviny.Gabrovšek, D . (1998). Dimensions of falseness in false friends: implications

for bilingual lexicography. In A. Zettersten, V. Hjornager Pedersen & J. E. Mogensen (Eds), Symposium on Lexicography VIII. Proceedings of the Eighth International Symposium on Lexicography May 2-4, 1996, at the University of Copenhagen. Niemeyer.

Hladký, J. (1990). Zrádná slova v angličtině. Praha: SPN.Klégr, A. & Šaldová, P. (2006). Kolokační faux amis. In F. Čermák, K. Kučera

& M. Šuld, (Eds.), Kolokace. Studie z korpusové lingvistiky, Praha: Na-kladatelství Lidové noviny.

Křen, M. (2013). Odraz jazykových změn v synchronních korpusech. Praha: Nakladatelství Lidové noviny.

Kudrnáčová, N. (1991). Josef Hladký, Zrádná slova v angličtině [False friends in English]. Brno Studies in English, 19, 186-187.

Mravinacová, J. (2005). Neosémantizmy vzniklé pod vlivem cizího jazyka. In O. Martincová et al., Neologizmy v dnešní češtině. Praha: ÚJČ AV ČR.

51

Masako FidlerBrown University [email protected]

Václav CvrčekÚstav Českého národního korpusu FF UK [email protected]

Prezidentské projevy: Analýza tematické výstavby a řečových strategií pomocí KWords Prezidentské novoroční projevy poskytují jedinečnou možnost pro testování limitů korpusově založeného diskurzivního výzkumu. Většina ze stěžejních proměnných ovlivňujících jejich podobu (autor, komunikační situace, čas, téma) zůstává konstantní nebo se mění poměrně prediktabilním způsobem. Srovnání novoročních projevů různých prezidentů tak může ukázat na roz-dílné priority jednotlivých politiků i na odlišný přístup k žánru novoročního projevu.

Tento příspěvek je součástí rozsáhlejší spolupráce mezi Univerzitou Karlovou v Praze a Brownovou Univerzitou v USA (Cvrček & Fidler 2012, 2013ab; Fidler & Cvrček 2012, 2013), která je zaměřena na testování limitů korpusově založené analýzy klíčových slov. V příspěvku budeme analyzovat novoroční projevy čtyř prezidentů – Gustáva Husáka (z let 1976–1989), Vác-lava Havla (z období 1990-2003), Václava Klause (z roků 2004–2013) a Miloše Zemana (2013)* – pomocí nedávno zveřejněné aplikace KWords (viz https://kwords.korpus.cz/) a kvalitativní textové analýzy.

Nástroj KWords identifikuje nejprve klíčová slova („keywords“ podle de-finice Scott (1996) a Baker & Ellece (2011)). Ta jsou úzce spojena s hlavními tématy textu a s jeho žánrem. Kromě seznamu klíčových slov (KS) aplikace vytvoří pořadí jejich významnosti pomocí modifikovaného Diceova koefici-entu, analyzuje vzájemné vazby KS a jejich počty, to vše doplněné přehled-nou grafickou reprezentací, která ulehčuje interpretaci textu a jeho porovná-ní s ostatními (hledání tematických a motivických odlišností). Cílem je kor-pusovými metodami charakterizovat některé řečnické strategie jednotlivých politiků a poukázat na jejich odlišnosti.

* Jelikož není k dispozici novoroční projev M. Zemana z roku 2014, bude místo toho použito jeho vánoční poselství z roku 2013

52

Z pilotního průzkumu analyzovaných textů vyplývá, že KS, jejich pořa-dí a jejich vzájemné vazby u každého prezidenta reflektují odlišné záměry a  cíle jejich projevů. V  Husákových textech se odráží prominentní zájem o stabilitu Československa v rámci socialistického bloku (ukazují na to např. následující KS: upevňování, mírového, vlastenectví, vlast, československého/československá); v Havlových projevech převládají koncepce spoluodpověd-nosti, občanské společnosti a demokracie, zatímco v Zemanových projevech je dominantní osobní záměr (viz KS: slib/slibů, zavázal, splnit, milost). Pokud jde o Klausovy novoroční projevy, silně se v nich projevuje zájem o výraz-ně rozmanitá témata, jako jsou ekonomika (např. zadlužování), vnitropoli-tické dění (např. mandát, parlamentu) a vztah k Evropě (např. evropského). Ve srovnání s ostatními je zde mnohem cílevědomější snaha vybudovat vaz-bu s posluchačem na bázi „my = já“. Naproti tomu stojí za povšimnutí, že v Zemanově vánočním poselství – na rozdíl od ostatních prezidentů – chybí mezi KS tvary posesivního a osobního zájmena 1. os. pl. i slovesné tvary 1. os. pl.

LiteraturaBaker, P. & Ellece, S. (2011). Key Terms in Discourse Analysis. London: Con-

tinuum.Cvrček, V. & M. Fidler. (2012). Analysis of keywords in Czech political texts:

A Needle in a Haystack Model. International conference of Corpus-As-sisted Discourse Study. Bologna, Italy, September 2012.

Cvrček, V. & M. Fidler. (2013a). Keyword analysis with a usage-based perspe-ctive: A preliminary study in Czech. American Association of Teachers of Slavic and East European Languages annual national convention. Bos-ton, January, 2013. (http://www.aatseel.org/100111/pdf/4a8_3_cvrek.pdf)

Cvrček, V. & M. Fidler. (2013b). Not all keywords are created equal: How can we measure keyness? Corpus Linguistics 2013, July, Lancaster, 2013 (http://ucrel.lancs.ac.uk/cl2013/doc/CL2013-ABSTRACT-BOOK.pdf)

Cvrček, V. & Vondřička, P. (2012). KWords (https://kwords.korpus.cz/)Czech National Corpus – SYN2010. Institute of the Czech National Corpus,

Praha 2010. Accessible at WWW: <http://www.korpus.cz>.Fidler, M. & V. Cvrček. (2012). Keyword analysis of totalitarian texts: A case

study. (http://www2.ku.edu/~slavic/conference/SLS_2012_Abstracts.pdf)Fidler, M. & V. Cvrček. (2013). Usage-based approach to discourse through

keyword analysis. International Conference of the Cognitive Linguistics

53

Association, Alberta, Canada, June, 2013. (http://www.ualberta.ca/~ic-lc2013/ABSTRACTS/Fidler_et_al.pdf)

Scott, M. & C. Tribble. (2006). Textual patterns: Keyword and corpus analysis in language education. Amsterdam: John Benjamins.

Markus GigerÚstav východoevropských studií FF UK [email protected]

Subjektová rezultativa v češtině ve srovnání s ruštinouV dosavadní literatuře o rezultativních konstrukcích (tedy o slovesných tva-rech vyjadřujících stav nutně implikující předcházející děj, jehož uskutečně-ním daný stav nastal) zajímají subjektová rezultativa (konstrukce, u nichž je koreference mezi subjektem rezultativní konstrukce a subjektem předcho-zího děje) poměrně okrajové místo (srov. oproti tomu pozornost věnovanou objektovým a posesivním rezultativům).

Primární důvody jsou patrně omezená produktivita subjektových re-zultativ a  chybějící perspektiva jejich gramatikalizace. K  tomu přicházejí však další faktory: deverbální tvary schopné vyjádřit rezultativní význam v predikativu jsou často považovány za adjektiva a tím z analýzy vyloučeny, resp. jejich schopnost stát v predikativu není zohledněna. Situace v češtině a v ruštině, která se na první pohled zdá velmi odlišná, vykazuje zajímavé paralely: zatímco se v češtině l-ový tvar typu odkvetlý, který je zodpovědný za velkou část českých subjektových rezultativ, obyčejně považuje za adjek-tivum a  tím stojí v  bohemistických opisech mimo paradigmatiku slovesa, ohledně ruštiny se konstatuje, že produktivnost subjektového rezultativa je minimální, protože ruština tvoří jen velmi omezeně n-/t-ové příčestí od in-tranzitivních sloves. Přitom se ztrácí z pohledu schopnost ruského s-ového příčestí stát v predikativu a vyjádřit rezultativní sémantiku. Sémantické pa-ralely mezi odpovídajícími konstrukcemi v obou jazycích jsou přitom očivid-

54

né; vedle sebe tedy stojí např. č. Její tvář byla zčervenalá a r. Её щёчки были слегка покрасневшими, č. Jezero bylo zamrzlé a r. Озеро было замерзшим, č. Stromy byly zažloutlé a r. Хвоя была пожелтевшей.

V příspěvku budou subjektová rezultativa v češtině a ruštině diskutová-na v celé šířce: produktivnost, restrikce, konkurence se stavovými prediká-ty (Její tvář byla červená, Ее щеки были красными), speciálně zdůrazněna bude však úloha českého  l-ového tvaru a  jeho výskyt v  textech a  výskyt ruského  s-ového příčestí v  predikativní pozici s  rezultativním významem a  také analogie mezi nimi. K  tomu přicházejí některé úvahy o diachronii, zejm. ohledně prosazení s-ového příčestí v ruštině na začátku 19. stol. a jeho konkurence s l-ovým tvarem. Analýza bude využívat paralelní korpusy, ved-le toho však – vzhledem k poměrně nízké fekvenci subjektových rezultativ v  textu – převážně neparalelní národní korpusy obou jazyků včetně dia-chronních a také internet. 

LiteraturaDamborský, J. (1967). Participium l-ové ve  slovanštině. Warszawa: PWN.

(Rozprawy Uniwersytetu Warszawskiego 15)Giger, M. (2010). Příčestí minulé činné na -(v)ší v dnešních českých publicis-

tických textech. Korpus – Gramatika – Axiologie, 1 (2), 3–23.Knjazev, Ju. P. (1989). Akcional’nost’ i statal’nost’. Ich otnošenie v russkich

konstrukcijach s pričastijami na -n, -t. München: Sagner.Nedjalkov, V. P. & Jachontov, S. E. (1983). Tipologija rezul’tativnych kon-

strukcii. In: V. P. Nedjalkov (Ed.), Tipologija rezul’tativnych konstrukcii. Leningrad: Nauka, 5–41.

Wiemer, B. & Giger, M. (2005). Resultativa in den nordslavischen und bal-tischen Sprachen. Bestandsaufnahme unter arealen und grammatikali-sierungstheoretischen Gesichtspunkten. München: Lincom. (LINCOM Studies in Language Typology 10)

55

Hana GoláňováÚstav Českého národního korpusu FF UK [email protected]

Marie KopřivováÚstav Českého národního korpusu FF UK [email protected]

Kartografické a geografické zpracování dat z mluvených korpusůV současné době jsou budovány v ÚČNK dva nové korpusy mluveného jazy-ka, a to korpus ORTOFON a nářeční korpus DIALEKT. Oba korpusy mluve-ného jazyka mají douvúrovňovou transkripci a obsahují nahrávky pořízené na území celé České republiky.

První úroveň přepisu dat v  korpusu ORTOFON je přepis převážně or-tografický. Navazuje na  transkripci korpusů řady ORAL a  bude sloužit k  snadnému vyhledávání. Druhou úroveň tvoří zjednodušená transkripce fonetická, která se snaží podrobněji zachytit některá specifika výslovnosti mluveného jazyka, např. asimilace a další jevy. K segmentaci a přepisu ja-zykových dat pro korpus ORTOFON i DIALEKT je používán transkripční program ELAN (http://tla.mpi.nl/tools/tla-tools/elan/).

Nahrávky tvořící korpus ORTOFON jsou nepřipravené rozhovory mluv-čích, takže promluvy mají většinou dialogický ráz. Rozhovory probíhají v autentickém prostředí a mezi mluvčími, kteří se vzájemně znají. Mluvčími bývají dospělí od  18 let. Nahraný jazykový materiál pochází z městských i venkovských lokalit.  Pro vyvažování korpusu je určující nářeční oblast, kde mluvčí strávil dětství.

Korpus DIALEKT prezentuje tradiční teritoriální dialekty na území ČR a vychází z nahrávek, které byly pořízeny v období 60. až 80. let 20. století dialektologickým oddělením ÚJČ AV ČR, v. v. i. Jde o  jazykový materiál, v němž jsou uchovány archaické nářeční prvky mluveného jazyka z českých nářečních oblastí, jež se dnes již v běžném úzu z velké části nevyskytují. Aby bylo možno doložit původní, ještě nenarušený, stav českých dialektů, byl terénní nářeční výzkum zaměřen na příslušníky nejstarší generace. Mluv-čími jsou místní rodáci většinou z venkovských lokalit, kteří patřili ke sta-rousedlé vrstvě obyvatelstva, spjaté se zemědělským způsobem života nebo

56

s řemeslem. Většinou se narodili ke konci 19. století a na počátku 20. století. Promluvy mívají spíše monologický ráz. Korpus je taktéž dvouúrovňový, s přepisem dialektologickým a ortografickým.

Pro zpracování jazykového materiálu z obou mluvených korpusů hraje velkou roli zařazení mluvčích ze sond do systému územního hierarchického členění. Tento systém zeměpisného členění českého jazykového území byl po  desetiletí dialektology korigován a  vznikl na  základě stanovení hranic rozšíření diferenčních nářečních jevů. Rozděluje Českou republiku na vět-ší a menší nářeční oblasti a  celky. Tyto oblasti jsou stanoveny především na základě Českého jazykového atlasu a dalších jazykových příruček. Po-kud chceme zpracovávat data z obou mluvených korpusů, potřebujeme tyto mapy zpřesnit a do budoucna počítáme i s mapovým zobrazením nahrávek podle místa původu mluvčích.

V současnosti je možné využít moderních kartografických metod nejen pro zobrazení nářečních oblastí a menších územních celků, ale i pro popis jednotlivých zkoumaných lokalit a  jazykových jevů. Lze např. použít pro-gram ArcGis (je přístupná i  webová verze, http://www.arcgis.com/explo-rer/), v němž si můžeme na základě databáze vytvářet vrstvy podkladových map pro geografické členění. Zároveň bychom těchto podkladových map rádi použili k  modelování rozšíření jazykových jevů, které bude možné v mluvených a nářečních korpusech sledovat, jako např. rozšíření protetic-kého /v/, úžení, určité typy asimilace. Počítáme i  s didaktickým využitím, kdy je možné k mapovému podkladu a ke sledované lokalitě přidat nahrávku a krátký přepis příslušného dialektu. (srov. např. německá databáze http://www.dialektkarte.de/, anglická databáze http://sounds.bl.uk/Sound-Maps/Accents-and-dialects, nebo americká http://aschmann.net/AmEng/).

Výhledově bychom rádi získali současné nahrávky mluvčích, kteří pochá-zejí ze stejných nebo blízkých lokalit jako mluvčí z nářečního korpusu DIA-LEKT. Uživatel by pak měl možnost sledovat, které nářeční prvky se v mluvě zachovaly dodnes a jak se jazyk v určité lokalitě nebo nářeční oblasti vyvíjí.

LiteraturaBalhar, J. et al. (1992, 1997). Český jazykový atlas 1, 2. Praha: Academia.Balhar, J. et al. (1999, 2002, 2005). Český jazykový atlas 3, 4, 5. Praha: Aca-

demia.Balhar, J. et al. (2011). Český jazykový atlas Dodatky. Praha: Academia.

57

Bělič, J. (1972). Nástin české dialektologie. Praha: Státní pedagogické nakla-datelství.

Karlík, P., Nekula, M., & Pleskalová, J. (Eds.) (2002). Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny.

Wittenburg, P., Brugman, H., Russel, A., Klassmann, A. & Sloetjes, H. (2006). ELAN: a Professional Framework for Multimodality Research. In Procee-dings of LREC 2006, Fifth International Conference on Language Resou-rces and Evaluation, 1556–1559.

http://tla.mpi.nl/tools/tla-tools/elan/http://www.arcgis.com/explorer/http://www.dialektkarte.dehttp://sounds.bl.uk/Sound-Maps/Accents-and-dialectshttp://aschmann.net/AmEng/

Zbigniew GreńVaršavská univerzita [email protected]

Formální variabilita nejnovějších anglicismů v češtině, polštině a slovenštině (na korpusovém materiálu)Současné slovanské jazyky podléhají stejnému procesu v  rámci globaliza-ce, to znamená vlivu angličtiny, jenž se odráží predevším v lexikální rovině jazyka. Jak je známo, každý kulturní jazyk si vypracoval způsob postupu s  cizími vlivy, a  způsob jejich inkorporace. Zde uvedené západoslovanské jazyky do jisté míry mají stejný způsob adaptace, v jistém měřítku přece jen zavádějí tyto elementy do mateřštiny rozdílným způsobem. Jedná se přede-vším o rozdíly v tempu přizpůsobení k domácímu lexiku. Kromě toho, tyto jazyky, ačkoliv z téže jazykové skupiny a poměrně si podobné, zvlášt čeština a slovenština, se přece jen v podrobnostech liší, co znamená, že postup adap-

58

tace může být rozdílný. Stejné u těchto jazyků je to, že cizí slova podléhají zdomácnění ve všech jazykových rovinách.

Tyto adaptační procesy trvají nějakou dobu a změny v použití výpůjček mají dynamický charakter. A  proto slovníky, dokonce také slovníky neo-logismů, nejsou s to zachytit samotnou podstatu tohoto procesu. Slovníky totiž zaznamenávají již ustálenou, vžitou podobu přejatého slova, kdežto před zaznamenáním této podoby ve slovnících, přejímaná slova se vyskytují v jednotlivých textech v nejrozmanitějších tvarech. Tuto dobu kolísání tvarů výpůjček a celou mozaiku používaných forem  zaznamenávají z textů jenom jazykové korpusy. Korpusový materiál je totiž nejblíže jazykové praxi, to znamená jazykovým pramenům. A proto, abychom zjistili podstatu procesu adaptace a celé bohatství jazykových forem, použitých v textech, obracíme se na korpusový materiál. K  analýze použijeme korpusy tří jazyků: češti-ny, polštiny a slovenštiny, samozřejmě se zřetelem na rozdíly mezi těmito korpusy, jak po stránce obsahové, tak případně metodologické. Proto taky výsledky srovnání budou uvedeny v podobě nepřímé (procenta) a budou mít především orientační hodnotu.

Jednotlivá slova, zaváděná do výše jmenovaných jazyků, působí ovšem rozdílné adaptační problémy. Závisí to na míře jejích složitosti a rozdílnosti ve srovnání s domácím lexikem. Nejméně problémů je se slovy, jež se moc neliší ve výslovnosti v jazyku původním a přijímajícím, jako jsou např. dvo-jité souhlásky, jež se také vyskytují v domácím jazyce. Následkem toho je dvojí možnost tvarů uváděných, jednak totožnost s původním tvarem, jed-nak zjednodušení pravopisného tvaru v  této poloze (v češtině a slovenšti-ně ve shodě s výslovností), srovnejme slovenské, české a polské assembler : asembler, boss : bos.

Čím více původní tvar je složitější a vzdalenější svou podobou od  tva-rů domácích, tím větší je jeho formální variabilita v textech. Ve zmíněných textech se vyskytují tvary od vůbec nezměněných, fungujících podle pravi-del citování cizího tvaru a textu, až po tvary plně adaptované, tak v rovině ortografické, fonetické, morfologické, případně také sémantické. Týká se to všech zkoumaných jazyků. Mezi těmito jazyky, a také mezi procesy adapta-ce cizích slov v těchto jazycích, existují jisté rozdíly, nejsou to však rozdíly nějak zásadní. Týkají se především podrobností, dokonce jednotlivých pře-jímaných slov. Zásadnější rozdíl by mohl být výsledkem rozdílů v jazykové politice vůči výpůjčkám, a toho, jak rychle se výpůjčky podrobují pravidlům jazyka domácího. Dalo by se říct, že ze tří zmíněných jazyků nejrychlejší

59

v tomto adaptačním postupu je slovenština, nejpomalejší je polština. Jedná se přece jen o oficiální pravidla, kdežto jednotliví uživatelé jazyka se těchto pravidel nedrží, a  proto také vzniká v  textech (v  jazykových korpusech), poměrně bohatá variabilita tvarů, a to ve všech třech zmíněných jazycích.

Zajímavé v těchto pokusech o zavedení anglicismů do zmíněných jazyků je také  to, že tato variabilita se týká nejen nových slov (z oblasti tak říkajíc moderního života, popsaných už několikrát ve  vědecké literatuře), ale také slov už v těchto jazycích ustálených, a dokonce kodifikovaných v pravidlech pravopisu, jako je např. slovo (česky a  slovensky) kovboj / (polsky) kowboj. Vystupuje totiž v těchto textech, různého rázu, výpůjčka v původní podobě cowboy (adaptována morfologicky, např. slovenské cowboyom, cowboyi, cow-boyov, cowboymi, české cowboye, cowboyem, cowboyové, cowboyů,polské cow-boya, cowboyów, cowboyami ) a ve tvarech částečně adaptovaných, jako jsou např. slovenské kowboy, kowboj, kawboj, české kowboj, polské kowboy, kawboj.

Původní podoby jsou posilovány jednak používáním v  domácích tex-tech celých citací z  angličtiny (jako tomu bylo dříve s  latinou, francouz-štinou apod.), jednak velikou frekvencí propriální slovní zásoby, jako jsou např. cizí názvy firem (dokonce domácích). Variabilita zase je výsledkem toho, že dnešní uživatelé jazyka, také ve  veřejné psané sféře, nepoužívají jazykové pomůcky nebo vůbec jazykové pomůcky neobsahují požadovaná slova  a k tomu neexistuje už mechanismus jazykové a redakční úpravy tex-tu. Tímto způsobem ve veřejné jazykové komunikaci, také psané, můžeme zaznamenat občas jazykový zmatek v  oblasti přejímaných slov. V  našem příspěvku tento jev doprovázíme materiálem z jazykových korpusů srovná-vaných jazyků, jak v jeho společných rysech, tak v jednotlivých rozdílech. Uplatnění diachronického hlediska, v časovém rozpětí využitých korpusů, umožňuje dokonce ukázat dynamiku tohoto procesu.

LiteraturaDobrík, Z. (2007). Jazyky v  kontaktoch. (Anglicizmy a  iné slová cudzieho

pôvodu v nemčine a slovenčine). Banska Bystrica.Görlach, M. (Ed.) (2001). A Dictionary of European Anglicisms. New York.Madecki R. (2009). Anglicismy v současné češtině a polštině. In I. Pospíšil

(Ed.), Klíčové problémy slovanských areálů, Brno.Rejzek J. (1993). K formální adaptaci anglicismů, Naše řeč, 76, 1.Český národní korpus. Ústav ČNK, FF UK, Praha. Dostupný z www <http://

www.korpus.cz>

60

Slovenský národný korpus. Bratislava: Jazykovedný ústav Ľ. Štúra, SAV. Do-stupný z www: http://korpus.juls.savba.sk

Narodowy Korpus Języka Polskiego

Milena Hebal-JezierskaVaršavská univerzita [email protected]

Obraz(y) Američana a Angličana v korpusech českého, slovenského a polského jazykaCílem článku je rekonstrukce obrazů vybraných lexémů denotujících Ame-ričana a  Angličana dostupných v  různých korpusech Českého národního korpusu, Slovenského národního korpusu a  Polského národního korpusu. Analyzujeme neutrální a expresivní jména (a jejich odvozeniny) označující zmíněné národnosti.

K  analýze používáme různé přístupy korpusové lingvistiky, vycháze-jící z  metodologie corpus-based a  corpus-driven. „Korpusově řízený pří-stup (corpus-driven approach) je takový, který své výsledky zakládá pouze na něm a stojí proti korpusově založenému přístupu (corpus-based appro-ach), který z korpusu vychází, ale podle potřeby ho doplňuje z jiných zdrojů, popř. vlastní retrospekce“ (Čermák 2006: 15). V našem příspěvku používáme např. kolokační profily, pattern grammar, klíčová slova, seznam slov, analýzu konkordance apod.

V článku chceme prezentovat, jak se mění obrazy Američana a Angličana v závislosti na druhu zkoumaného lexému, typu použitého korpusu (jeho druhu, velikosti, doby vzniku textu), druhu kontextů a témat, typu nástrojů i manažeru, a také na jazyce. Zajímavé rozdíly najdeme v obrazech zjiště-ných v korpusech SYN2010, SYN2009PUB, prim -6.0 -public -all of prim. - 6.0. -public- inf, NKJP. Srovnání obrazů Američana a Angličana, které jsme

61

tvořili na základě řady SYN2005, SYN2010 a SYN2000 a jejich slovenských ekvivalentů, přináší další zajímavé závěry.

Analýza zahrnující tři jazyky a tři korpusy nám pomůže dospět k objek-tivním závěrům.

V  příspěvku se také zmíníme o  faktorech umožňujících aplikaci dané metody. Použité přístupy se snažíme vzájemně ověřovat a najít ten nejlepší způsob reprezentace obrazu.

LiteraturaBaker, P. (2010). Sociolinguistics and Corpus Linguistics. Edinburgh.Baker, P., Gabrielatos, C. & McEnery. T. (2013). Discourse Analysis and Media

Attitudes: The representation of Islam in the British press. Cambridge: Cambridge University Press.

Baker, P., Gabrielatos C., Khosravinik, M., Krzyzanowski, M., McEnery, T. & Wodak, R. (2008). A useful methodological synergy? Combining critical discourse analysis and corpus linguistics to examine discourses of refuge-es and asylum seekers in the UK press. Discourse & Society, 19(3), 273–305.

Bańko, M., Doliński, I., Duda, J., Hebal-Jezierska, M. (2012). Collocation Ima-ges of Hungarians in Slavonic Languages. In A. Obrębska (Ed.), Practical Applications of Linguistic Research, Łódź.

Bartmiński, J. (Ed.). (1999). Językowy obraz świata, Lublin.Błuszkowski, J. (2003). Stereotypy narodowe w świadomości Polaków, Wars-

zawa.Čermák, F. & Blatná, R. (2006). Korpusová lingvistika: stav a modelové pří-

stupy. Praha: Lidové noviny.Čermák, F. & Šulc, M. (2006). Kolokace. Praha: Lidové noviny.Český národní korpus – SYN2000, SYN 2005, SYN2010. Ústav Českého národního

korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.Hebal-Jezierska, M. (2011). Kolokační obrazy některých lexémů patřících

do sémantického pole cizinec v českém tisku (s metodologickými úvaha-mi). In. F. Čermák (Ed.), Korpusová lingvistika InterCorp. Praha: Lidové noviny, 109–123.

Hunston S. & Francis G. (2000). Pattern Grammar. Amsterdam/Philadephia: John Benjamins.

Tognini-Bonelli, E. (2001). Corpus Linguistics at Work, Amsterdam: John Benjamins.

62

Jiří HedánekFilozofická fakulta Univerzity Karlovy [email protected]

GLOSSA, metajazyk pro popis zvukové stránky textuPro vícefázový projekt korpusové fonologie středověké podoby starověkého jazyka jsem vytvořil obecný formální deskriptivní metajazyk Glossa (Gene-ral Language of Speech Sound Analysis) jako skript fonologický, analyticko-fonetický i akustický. Není to transkripce (bývají syntetické), naopak může do  své syntaxe integrovat libovolnou transkripci. Může být užíván nefor-málně (až natolik, že se vmísí do běžné grafiky). Formální užití je určeno strojovému zpracování. Výstupem mohou být statistiky zvukových prvků včetně prozodie, sestavení syntetických transkripcí, akustický převodník do systémů TTS (text-to-speech) anebo bytecode zvukové struktury.

Neformální užití spoléhá na implicitní definice prvků, intuitivní syntax, případně grafiku transkripce; toleruje neúplnost, nejistotu, variantnost či značnou ležérnost popisu. Formální úzus transkripci téměř nepotřebuje (ta je komentářem, v lepším případě pojmenováním či nejvýš datovým typem) a kromě implicitních definic může prvky a operátory definovat explicitně. Vedle změny implicitních hodnot může redefinovat nejen významy prvků, ale i některých syntaktických konstrukcí (což v důsledku znamená, že Glossa není jeden jazyk, ale svazek podobných jazyků). Tak lze Glossu přizpůsobit různým praktickým potřebám bez omezení formální explicitnosti. Možnost více rovin abstrakce využije nejenom fonologie.

K výzkumu fonologie slouží sběr dat do mimotextových datových struk-tur. Pro fonetický zápis (u jazyka bez dochovaného znění jen hypotetický) lze nad rámec těchto definic rozvinout kvalifikace u transkriptorů v textu, kde to skutečné znění vyžaduje. Jinou kombinaci externích definic a intra-textových kvalifikací potřebuje akustický popis zvukové stránky (další fáze projektu). Z technických i kapacitních důvodů může být úspornější zkompi-lovat kompletní zdrojový popis z Glossy do tzv. bytecodu.

Důvodem zkompilování do binárního bytecodu může být buďto možnost spouštět syntetické znění na  různých platformách TTS efektivněji (jeden bytecode pro více instrukčních sad), rychleji (pevný formát) anebo zakó-

63

dovat znění v idealizované kompaktní formě (nikoli jako zvuková data, ni-koli jako metajazykový záznam), např. když přesná transkripce má jakožto okrajová, málo využívaná součást textu zabírat co nejméně místa (nastavuje jednotlivé bity). Formát bytecodu jsem vytvořil jako svou diplomní práci (BFK, binární fonetické kódování jako součást BLK (v3.2), FÚ 1995). Není pří-mo čitelné, ale je úsporné a přímočaré. Glossa není úsporná, zato přístupná a pružná. Převod do různých datových formátů je tedy jednodušší z BFK než z Glossy. V tom se Glossa podobá problémově orientovaným programova-cím jazykům.

Glossa striktně užívá ASCII. Jiná kódování toleruje v  transkripci a  za-pouzdřeních cizího kódu (např. grafiky). Byť je schopna omezené algoritmi-zace (BFK také), jde primárně o datový, nikoli procedurální kód. Je tedy bez-pečná. Formát segmentu sestává z prefixu, transkriptoru, sufixu, deskriptorů a  kategorizátorů. Jediný povinný je prefix. Konkatenuje na  pozici úzkým rejstříkem znaků, aby parsing segmentů byl jednoduchý. Transkriptor, nepo-vinný libovolně dlouhý řetězec (i nulový), značí jeden segment. Nepovinný sufix, zpřesňující fonetický význam, je ústupek impresionistické transkripci. Ač neurčen strojovému zpracování, lze parsovat. Pro formálnější analýzu jsou vhodnější nepovinné deskriptory. Může jich být libovolný počet, mají různou sémantiku. Výjimečně se uplatní nepovinný kategorizátor. Vzorec rozvinutějšího segmentu je ..[x](y)(z), kde x je transkriptor, y a z deskripto-ry. Často stačí jen ..x nebo ..x(y). Segmentaci se lze i vyhnout. Suprasegment a extrasegmentální neřečové prvky využívají kombinací svislic a  závorek. Pro každé složitější členění textu a komplikovanější datové bloky se užívá <štítek[konstituent]štítek>, kde konstituent (interpretační kontext) může být <…[textový]…>,

<…{supratextový}…>, <…(technický)…> nebo <…<grafický>…>. Jedno-

dušeji lze členit rozhraními, ač nemusí být tak jednoznačná. Své značení mají deklarace, operace a  folding. Bloky deklarací i  deskriptory disponují pro popis deskripčními rysy: kromě prozodie 118 základních, které lze zpřes-nit nebo definovat další. Popisovat prozodii lze intuitivně (několika úrov-němi výšky a důrazu), anebo akusticky přesně. Časový rozměr umožňuje značit dva druhy délek současně.

Před začleněním do  druhé disertace, Phonology of Masoretic Hebrew: A Corpus Approach, připravuji revizi aktuální verze Glossy b14.20 na b15.0. Ta by se po nasazení ve třetí fázi projektu už neměla podstatně měnit.

64

Zdeňka HladkáÚstav českého jazyka FF MU [email protected]

Užití korpusu korespondenčních textů KSK111 k sledování dynamiky české slovní zásoby ve 20. stoletíVzhledem k jubilejnímu charakteru  konference bude úvodní část příspěvku věnována krátkému ohlédnutí za dvacetiletým zapojením bohemistů brněn-ské filozofické fakulty do  tvorby korpusových zdrojů češtiny a etablování korpusové lingvistiky v  českém prostředí.  Brněnští lingvisté K. Pala, K. Osolsobě a později  Z. Hladká  se od samého počátku podíleli na aktivitách směřujících k  vytvoření Českého národního korpusu (už v  r. 1988 účastí v Iniciativní skupině pro přípravu počítačových korpusů a slovníků, která dala impuls k vybudování Počítačového fondu češtiny a v r. 1994 stála u za-ložení Ústavu Českého národního korpusu), na  metodice tvorby korpusů a jejich značkování (v úzké spolupráci s brněnskými informatiky P. Rych-lým, R. Sedláčkem a  řadou dalších) i  na  zapojování korpusových zdrojů do lingvistického výzkumu. Na Masarykově univerzitě vznikly též dva men-ší specializované korpusy, které se staly součástí ČNK (Brněnský mluvený korpus, BMK, v ČNK od r. 2002; Korpus soukromé korespondence, KSKdopi-sy, v ČNK od r. 2006). Příspěvek připomene přípravu těchto korpusů, jejich pozitiva i limity a směry využití pro mapování češtiny a pro vysokoškolskou výuku. Upozorní na rozvoj korpusové lingvistiky  v pracích mladší generace lingvistů FF MU i studentů oboru Český jazyk se specializací počítačová lin-gvistika, který byl v Brně otevřen v r. 2010.

V  hlavní části příspěvku budou dva korpusy korespondenčních textů vytvořené na FF MU (KSKdopisy a KSK111) prezentovány jako cenný ma-teriálový zdroj pro lexikologicko-lexikografický výzkum. Zmíněny budou některé výsledky analýz korpusu KSKdopisy mapujícího korespondenci pře-lomu 20. a 21. století (Hladká 2013, Hladká & Martincová 2012, Machalová & Osolsobě, 2013), pozornost však bude věnována především nedávno vznik-lému korpusu KSK111 zahrnujícímu soukromou korespondenci z  let 1902 až 2012 (Hladká et al. 2013). Na příkladech z jeho materiálu bude sledován pohyb v slovní zásobě češtiny v průběhu 20. století. Půjde pochopitelně o dy-

65

namiku vázanou na charakter soukromého dopisu, proměny epistolárního stylu a epistolární etikety, nicméně dosavadní sondy naznačují využitelnost získaných poznatků i pro obecněji platné úvahy o vývojových  procesech v lexikonu. Analýza se zaměří na slovní zásobu typickou pro osobní dopi-sy: na hypokoristika z propriální i apelativní sféry, kvalitativní deminutiva, lexikum s příznakem knižnosti a  okazionalismy. Při hodnocení excerpova-ných dat bude akcentována relace archaičnost – knižnost (na pozadí  údajů základních výkladových slovníků češtiny PSJČ, SSJČ, SSČ).

LiteraturaHladká, Z. (2013). Corpora of Private Correspondence as a Source of Mate-

rial Focused on a Research of Diminutives. In K. Gajdošová & A. Žáko-vá (Eds.), Natural Language Processing, Corpus Linguistics, E-learning: SLOVKO 2013. Lüdenscheid: RAM-Verlag, 81–91.

Hladká, Z. et al. (2013). 111 let českého dopisu v korpusovém zpracování. Brno: Masarykova univerzita.

Hladká, Z. & Martincová, O. (2012). Slova v soukromých dopisech. Lexiko-grafická sonda. Brno: Masarykova univerzita.

Hlaváčková, D. (2013). Korpusové zpracování korespondenčních textů: mor-fologické značkování. In Z. Hladká et al., Soukromá korespondence jako lingvistický pramen. Brno: Masarykova univerzita, 19–31.

Machalová, J. & Osolsobě, K. (2013). Hypokoristika z rodných jmen v Kor-pusu soukromé korespondence. In Z. Hladká et al., Soukromá korespon-dence jako lingvistický pramen. Brno: Masarykova univerzita, 33–59.

66

Jaroslava HlaváčováÚstav formální a aplikované lingvistiky MFF UK [email protected]

Vyjádření intenzity slovesného děje pomocí předponV práci (Hlaváčová 2009) je uvedena množina šesti českých slovesných před-pon, které spolu s reflexivním morfémem způsobí modifikaci původního slo-vesa. Nemodifikuje se však hlavní význam slovesa, ale intenzita děje, který je slovesem vyjádřen. Jedná se o předpony roz-, po-, za-, na-, vy- a u- s refle-xivním morfémem se nebo si (u předpon po- a za-). Uvedené pořadí současně zavádí uspořádání předpon podle intenzity slovesného děje. Předpona roz- tedy znamená začátek, malou intenzitu, předpona u- potom intenzitu nej-vyšší. Intenzity vyjádřené pomocí ostatních předpon se mohou překrývat, jejich stupeň není ostře vyhraněný.

Tento typ slovesné modifikace je velmi produktivní, lze ho aplikovat na většinu nedokonavých sloves. V dalších pracích (Hlaváčová & Nedolužko 2012, 2013) se ukázalo, že podobné vlastnosti mají tyto předpony i ve slo-venštině a v ruštině; z nepublikovaných konzultací se potom lze domnívat, že i polština a chorvatština má podobnou posloupnost intenzifikujících slo-vesných předpon. Nabízí se tedy hypotéza, že uvedený způsob modifikace slovesa je vlastností více (všech?) slovanských jazyků. V našem příspěvku se však chceme zabývat jen češtinou.

V uvedených pracích je předloženo ke každé předponě několik příkladů – vymyšlených i převzatých z korpusů a z internetu. Není tam však předve-deno, zda je možné uvedené typy sloves v běžném textu správně rozpoznat. Některá slovesa s příslušnou předponou a výše popsaným významem jsou běžnou součástí jazyka, v  jiných případech však jde o  slova příležitostná, která přirozeně nejsou zahrnuta v žádném slovníku. Jedním z důsledků je to, že zůstávají v jazykových korpusech většinou nerozpoznána. Při automatic-kém zpracování jazyka je však výhodné i takové slovní formy umět rozpo-znat a přiřadit jim správné morfologické, případně i jiné vlastnosti. Rozšířit slovníky o všechny možné tvary takových sloves však není příliš užitečné, zvláště vezmeme-li v úvahu jejich poměrně nízkou frekvenci. Přitom je po-měrně snadné je v textu rozpoznat.

67

V tomto příspěvku bychom tedy chtěli ukázat, jak taková slovesa v tex-tech vyhledávat, a  stanovit kritéria, která umožní jejich správné určení. Pomocí klasických měr pro vyjádření přesnosti ukážeme, jak jsou takové vyhledávky úspěšné. Vše bude prezentováno na datech Českého národního korpusu.

Konkrétně jsme tedy navrhli vyhledávací podmínky, které v anotovaném korpusu řady SYN označí slova, jejichž zápis začíná jednou z  uvedených předpon a v  jejichž rozumném okolí se nachází reflexivní morfém se (pří-padně si). Ve výsledné množině se samozřejmě objevila i jiná slova, včetně překlepů, kterými se zabývat nechceme. Proto jsme výslednou množinu dále zúžili. Odtrhli jsme předponu a spustili morfologickou analýzu na zbylý ře-tězec. Vycházíme z předpokladu, že základní sloveso, ke kterému je připoje-na předpona, je běžnou součástí jazyka, a tudíž obsaženo v morfologickém slovníku. Jestliže tedy analýza určila, že zbytek je nedokonavé sloveso, za-řadili jsme tento výskyt do výsledné množiny. Abychom mohli udělat ruční evaluaci, zúžili jsme seznamy vět pro každou předponu na maximálně 200 vět. Ty jsme poté podrobili ručnímu zkoumání a u každého výskytu rozhod-li, zda se jedná o sloveso s daným významem, či nikoli. Z výsledných počtů jsme potom pro všechny předpony spočítali hodnotu tzv. precision, která určuje, jaký poměr z vybraných kandidátů je skutečně hledaným slovesem.

Největší precision, vychází pro předponu roz- (0,81), nejmenší pro před-ponu vy- (0,17). Vysoká hodnota precision znamená, že určení, zda jde o stupňované sloveso, je poměrně spolehlivé.

U sloves s předponami, jejichž hodnota precision je nízká, není jejich in-tenzifikační význam tak jednoduše rozpoznatelný. U některých předpon je však možné využít i jiná kritéria, vycházející především z kontextu. Objeví-li se například v okolí reflexivního slovesa s předponou u- výraz „k smrti“, bude jeho určení zřejmě mnohem jistější (např. uhonil se k smrti).

LiteraturaČeský národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,

Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.Hlaváčová, J. (2009) Formalizace systému české morfologie s ohledem na au-

tomatické zpracování českých textů. Ph.D. thesis, FF UK, Praha. Hlaváčová J. & Nedolužko A. (2012). Příklad pravidelných slovotvorných

vzorců v automatickém zpracování češtiny a ruštiny. In Zborník príspev-

68

kov prezentovaných na konferencii Informačné technológie – Aplikácie a Teória, ITAT 2012, Hotel Magura, 17–21. septembra 2012. 53–56.

Hlaváčová J. & Nedoluzhko A. (2013). Intensifying Verb Prefix Patterns in Czech and Russian. In Lecture Notes in Computer Science, Vol. 8082, Text, Speech and Dialogue: 16th International Conference, TSD 2013. Berlin / Heidelberg: Springer Verlag, 303–310.

Hlaváčová J. & Nedoluzhko A. (2014). Productive verb prefixation patterns. The Prague Bulletin of Mathematical Linguistics, No. 101, Univerzita Karlova v Praze, Praha, 111–122.

Khoroshkina, A. & Nedoluzhko, A. (2014). “Vchera nasochinyalsya voroh strok”: Productive circumfixal intensifying patterns in Russian. In Pa-pers from the Annual International Conference Dialogue 2014, 13 (20) of Computational Linguistics and Intellectual Technologies, Moscow.

Milena HnátkováÚstav teoretické a komputační lingvistiky FF UK [email protected]

Automatická identifikace ustálených kolokací v diachronních textechPříspěvek se zabývá automatickým vyhledáváním frazémů a  ustálených slovních spojení v diachronních korpusových textech a porovnáním výsled-ků automatického označení přísloví s výsledky v textech synchronních kor-pusů.

Pro účely tohoto výzkumu byl vytvořen vzorek elektronických textů 19. století z textové základny diachronní části Českého národního korpusu a vyhledávácí program pro automatickou identifikaci frazémů byl doplněn o další ustálená slovní spojení 19. století. Texty připravované pro zařazení do diachronního korpusu Diakorp o rozsahu cca 2 miliónu slov obsahují díla autorů 19. století, například F. Palackého (Dějiny národu českého v Čechách

69

a na Moravě), J. Arbesa, B. Němcové, A. Jiráska, převážnou část tvoří básně, například J. Vrchlického, J. Zeyera, J. V. Sládka, F. Rubeše, je zde zařazen i slovník Příruční slovník jazyka českého (PSJČ) a vydání časopisu Český lid.

Vyhledávací procedura ustálených slovních spojení FRANTA (FRazémová ANotace a Textová Analýza) je program automatického vyhledávání koloka-cí v korpusových datech, pracuje na jednoznačném morfologicky označko-vaném textu, proto pro účely této studie byly diachronní texty automaticky morfologicky označkovány pracovně pomocí programu pro desambiguaci současného psaného jazyka. Seznamy frazémů jsou uvedeny v tabulce, kte-rou program vyhledávání využívá. Tento počítačový program automatické-ho vyhledávání ustálených slovních spojení FRANTA je založen na Slovníku české frazeologie a  idiomatiky (SČFI) a doplněn o ustálená slovní spojení vyskytující se v korpusových datech. Automaticky nalezená slovní spojení jsou označena a lze je vyhledávat v korpusovém vyhledávači.

Při rozšíření tabulek pro automatické vyhledávání ustálených kolokací byla aktuálně zařazena pouze ta větná spojení ze SČFI (část Výrazy větné - SČFI4), která se vyskytují v korpusech SYN. Pro zpracování diachronních textů byla do  programu automatické identifikace frazémů zařazena další slovní spojení z  SČFI4, zejména přísloví, která se v  diachronních textech vyskytují. Dále do vyhledávání byla zařazena přísloví, která byla identifiko-vána v textech 19. století (pomocí korpusového vyhledávače) na základě klí-čových slov – přísloví, rčení, úsloví, pranostika, „říká se“ apod. Dalším způ-sob nalezení přísloví vyskytujících se v textech bylo zobecnění tabulky pro vyhledávání přísloví (lemmata byla zaměněna proměnnou) a pomocí takto vzniklých základních slovnědruhových vzorců přísloví (Kdo se …; Komu se …, tomu se …) byla automaticky označena některá slovní spojení jako poten-cionální přísloví. Ve výsledku tohoto vyhledávání byly potom ručně identifi-kována přísloví, která byla zařazena do tabulky pro automatické označování frazémů.  

Při automatickém zpracování diachronních dat (automatická morfologic-ká desambiguace) bylo nalezeno několik pro automatickou morfologickou analýzu neznámých slov, jejichž výskyt jsme porovnávali v  synchronních korpusech. Tímto způsobem bylo například doplněno do stávajícího morfo-logického slovníku slovo „prk“ (a sloveso prkat), uvedené v PSJČ jako kozí, kozlovitý pach a vyskytující se i v synchronním korpusu: „Jasně jsme cítili jeho prk.“ (SYN2009).

70

Autor příspěvku se zaměří především na  porovnání výsledků automa-tického vyhledávání větných výrazů v diachronním textu s texty současné publistiky – s výsledky automatického označení ustálených kolokací v kor-pusech současného psaného jazyka řady SYN z Českého národního korpusu. Příspěvek si hlavně všímá rozdílu v používání a frekvenci českých přísloví. Například přísloví: „Nežeň se očima, ale ušima.“, „Kdo se žení pro statek, při-chází na zmatek“ se vyskytují pouze v diachronních textech, k přísloví „Kdo se míchá mezi plevy, toho prasata snědí“ z 19. století se v korpusu syn2010 vyskytuje varianta: „Kdo se míchá  mezi otruby, svině ho zežerú“. Pro si-tuaci, že je špatné počasí, se stále používá označení „všichni čerti se žení“, ve vzorku diachronních textů byla nalezena varianta: „všichni kominíci se tam žení“.

LiteraturaČermák, F. et al. (2009). Slovník české frazeologie a  idiomatiky 4. Výrazy

větné. Praha: Leda. Hnátková, M. (2005). Identifikace přísloví v korpusu. In R. Blatná, V. Petkevič

(Eds.), Jazyky a jazykověda. Ústav Českého národního korpusu Filozofic-ké fakulty Univerzity Karlovy, Praha, 89–97.

Hnátková, M. (2011): Výsledky automatického vyhledávání frazémů v autor-ských korpusech. In Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny, 171–185.

Hnátková, M. & Kopřivová, M. (2012). From a Dictionary to a Corpus, Konfe-rence EUROPHRAS 2012 – Phraseology and Culture. Maribor.

71

Jana HoffmannováÚstav pro jazyk český AV ČR [email protected]

Olga RichterováÚstav Českého národního korpusu FF UK [email protected]

Si představ, se nediv, ti to ukážu… Jednoslabičné začátky syntaktických segmentů v mluvené češtiněJednoslabičné výrazy se, si, seš, sem, sme, ste, mě, mi, mu, tě, ti, bych, by (z hlediska slovnědruhového tedy výrazy povahy zájmenné nebo jednotlivé tvary slovesa být, resp. komponenty složených slovesných tvarů) stojí často na počátku syntaktických segmentů – v mluvené češtině, v její beletristické stylizaci (dialogy postav v próze, dramatu), ale např. i v komunikaci mladých lidí na chatu, tedy v textech silně ovlivněných projevy mluvenými.

Analýza tohoto frekventovaného jevu vede k úvahám o tom, jak vůbec tento typ počátkových výrazů hodnotit, hodnocení musí být nutně rozrůz-něné. Např. Sgall a  Hronek (1992) je označují jako příklonky, resp. před-klonky; podle J. Tomana (2001) či A. Svobody (2000) nejde o klitika, všichni zmínění autoři tu však uvažují o výsledcích slovosledné inverze (Se mu to nepovedlo = „Nepovedlo se mu to“) nebo procesů eliptických (Bych si taky myslel = „To bych si taky myslel“).

Kromě hodnocení a kategorizace jednotlivých typů jednoslabičných za-čátků představuje další zajímavý problém metodika korpusového vyhledá-vání zaměřeného na tento jev: co je vlastně „začátek“, jak se dobrat počátko-vé pozice (velká otázka, k níž existuje především zahraniční literatura, srov. Brazil 1995: 47nn.). Při výzkumu mluvené syntaxe – a tedy i zde – neustále narážíme na problém „jednotky“ mluveného projevu. Ostře ohraničené jed-notky typu vět v psaném projevu zde nepřicházejí v úvahu. Neurčité, roz-plývavé hranice „jednotek“, útržkovitost mluvené syntaxe, časté dodávání a nastavování, juxtapoziční přiřazování, množství oprav a „falešných startů“, ztrácení větné perspektivy – to vše komplikuje práci se segmenty, na jejichž počátku sledované výrazy stojí. Důležitým, ale v korpusových datech rovněž jen obezřetně využitelným signálem začátku segmentu je střídání mluvčích v dialogu; na hranicích replik ve spontánním živém rozhovoru dochází ne-

72

zřídka k  jejich překrývání, jeden mluvčí skáče druhému do řeči, „přebírá“ od něj nedokončenou konstrukci, v tomto poněkud chaoticky strukturova-ném prostoru právě vznikají slovosledné nepravidelnosti, eliptická vyjádře-ní apod. Je tedy na místě přistupovat k analýze tohoto a dalších podobných jevů z hlediska „dialogické syntaxe“, z pohledu interaktivního, brát v úvahu i zvuková specifika a speciální techniky mluveného projevu – což právě sou-časné korpusy, propojující transkripty s nahrávkami, ve vysoké míře umož-ňují. Příprava příspěvku bude spojena i se zkoušením různých dotazů, které by umožnily dobrat se k co nejvíce homogennímu souboru dat.

Příspěvek přirozeně naváže na text J. Hoffmannové a I. Kolářové, před-nesený rovněž na korpusové konferenci (Gramatika a korpus 4, 2012) a poté publikovaný v  časopise Korpus – gramatika – axiologie. Pro tento před-chozí příspěvek byla využita především data z korpusů SYN2000, SYN2005, SYN2010, ORAL2006, ORAL2008; nyní se nabízí soubor analyzovaných dat rozšířit (kvantitativně i typově) a využít jednak korpus ORAL2013, jednak doplňkově i data z korpusů DIALOG (v ÚJČ AV ČR), Schola 2010, a z ČNK rovněž Korpus soukromé korespondence. Neformální privátní dopisy, maily a zprávy SMS – tedy texty, které vykazují mediální psanost, ale konceptuální mluvenost (srov. Koch & Oesterreicher 1986) – totiž jednoslabičné začátky rovněž obsahují (viz k tomu Hoffmannová 2011) a jsou specifickým, ale roz-hodně využitelným zdrojem poznatků o syntaxi mluvené češtiny.

Tato sonda je určitou anticipací metod a  přístupů, které by obě autor-ky rády dále rozvinuly v chystaném grantovém projektu, zaměřeném právě na lepší poznání syntaxe mluvené češtiny. Projekt by měl navazovat na syn-taktické poznatky českých dialektologů (např. Šipková 1993) i na výzkumy O. Müllerové (1994) a aspoň poněkud splatit bohemistický dluh vůči stále málo zpracovanému tématu.

LiteraturaBrazil, D. (1995). A Grammar of Speech. Oxford: Oxford University Press.Hoffmannová, J. (2011). Mluvená čeština v  zrcadle „psané konverzace“

na  chatu. In S. Čmejrková & J. Hoffmannová (Eds.), Mluvená čeština: hledání funkčního rozpětí. Praha: Academia, 393–407.

Hoffmannová, J. & Kolářová, I. (2013). Se vám to nelíbí? Jednoslabičné za-čátky českých výpovědí / dialogických replik: v běžně mluvené češtině a beletristické stylizaci. Korpus – gramatika – axiologie, 07, 36–47.

73

Koch, P. & Oesterreicher, W. (1986). Sprache der Nähe – Sprache der Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte. In Romanistisches Jahrbuch, 36, Berlin / New York: Walter de Gruyter, 15–43.

Müllerová, O. (1994). Mluvený text a jeho syntaktická výstavba. Praha: Aca-demia.

Sgall, P. & Hronek, J. (1992). Čeština bez příkras. Praha: H+H.Šipková, M. (1993). Skladba věty v mluvených projevech (Syntax hanáckých

nářečí). Jinočany: H+H.Svoboda, A. (2000). Klitika z hlediska funkční větné perspektivy. In Z. Hladká

& P. Karlík (Eds.), Čeština – univerzália a specifika 2. Brno: MU, 149–159.Toman, J. (2001). Ertlova diskuse českých klitik. In Z. Hladká & P. Karlík

(Eds.), Čeština – univerzália a specifika 3. Brno: MU, 73–79.

Andrzej CharciarekUniwersytet Śląski w Katowicach [email protected]

Národní korpusy a velké překladové polsko-české a česko-polské slovníkyJe zajímavé, že v  překladové polsko-české lexikografii se dosud používají ve větší míře slovníky v papírové podobě, které byly vytvořeny bez vyu-žití narodních polských a českých korpusů. Dokonce i autoři nejnovějšího elektronického velkého polsko-českého a česko-polského slovníku (LINGEA Lexicon 5) neinformují o využití korpusů. Potěšující však je alespoň skuteč-nost, že první takový elektronický slovník už existuje a dá se předpokládat, že se bude početně stále rozšiřovat a jeho kvalita zvyšovat. Je přece samo-zřejmé, že přišel čas převést slovníky z papírové podoby do podoby elektro-nické. Tato operace je přirozená, protože korpusy jako takové mají datovou podobu. Kromě toho je práce se slovníky v papírové podobě zdlouhavá a ne-

74

praktická. Navíc současný odborný uživatel slovníků potřebuje co nejbohat-ší zdroj jazykových dat a příslušné nástroje k jejich využívání. Elektronická podoba slovníků umožňuje rychlé a  operativní prohledávání jednotlivých hesel, které mohou mít netradiční podobu. Používání elektronického slov-níku přináší v porovnání s tradiční papírovou formou slovníku celou řadu výhod, poskytuje například bohaté možnosti rozšíření hesla o multimediální prvky, animace apod. Využití hypertextu umožňuje také přechod na další text a získat tak podrobnější informace. Neexistuje již žádná omezení rozsa-hu, které u slovníků v papírové podobě byly limitujícím faktorem.V 21. století by se národní korpusy jako významný zdroj lingvistických dat měly stát základními zdroji při sestavování velkých překladových slovníků. Jedná se o všechny druhy národních korpusů, nejen o jednojazyčné syn-chronní korpusy psané.

Velkou budoucnost mají současné paralelní korpusy, z  nichž je možné získávat překladové ekvivalenty. Na rozdíl od tradičních překladových slov-níků obsahují paralelní korpusy textové ekvivalenty, které tvoří základní jednotky v procesu translace. Je však třeba konstatovat, že tyto korpusy ob-sahují převážně beletristické texty. Zásadním problémem je také vyřešení otázky ochrany autorských práv při používaní současných beletrických tex-tů v korpusu.

Zároveň zde vznikají pochybnosti týkající se kvality překladu. Nezřídka se stává, že překlad je neprofesionální a nepřesný. Nejčastějším důvodem tohoto faktu je překladatelova nedostatečná znalost zdrojového nebo cílo-vého jazyka, a proto některé přeložené fragmenty neodpovídají originálu, nebo úplně absentují. Navíc si je třeba uvědomit, že jazyk v beletristických textech se může významně lišit od jazyka průměrného uživatele jazyka. Au-torský jazyk může být zcela odlišný od jazyka většiny populace, může být nekonvenční, plný netypických kolokací, neobvyklých idiomatických spo-jení a autorských metafor. Slovník by však měl uvádět jazyk příznačný pro celonárodní komunitu, jazyk standardní. Slabinou paralelních korpusů také stále zůstává přenos mluveného jazyka, neboť mluvené texty se převážně nepřekládají.

Nicméně nelze pochybovat o tom, že paralelní korpusy mohou být do bu-doucna užitečným zdrojem pro tvorbu překladového slovníku. Metody au-tomatického získávání překladových slovníků z  paralelních korpusů jsou již známé a použitelné v praxi. Problémem je ale malý rozsah paralelních korpusů, které jsou nesrovnatelné s  velkými jednojazyčnými korpusy. Ty

75

poslední zřejmě zůstanou největší z  tohoto důvodu, že ne všechny možné kategorie textů budou přeloženy do cizího jazyka.

V případě velkých korpusů (českého a polského) je důležitým momen-tem jejich reprezentativnost. Je samozřejmostí, že podmínkou dostatečné reprezentativnosti korpusů je velký rozsah dat, který eliminuje do jisté míry jednostrannost malého korpusu. Reprezentativnost korpusu by měla být za-ložena na tom, že korpus reflektuje a popisuje jazykovou realitu. Problém ale tkví v samotné definici zmíněného pojmu, který se používá nejednoznačně. Podle našeho názoru by jazyková realita měla odrážet dvě variety jazyka: mluvenou a psanou. Většina národních korpusů (včetně českého a polského) je založena pouze na textech psaných. Bude tedy nutné získat zápisy mluve-ných projevů. Realizace tohoto záměru však je nepochybně náročná a zdlou-havá. Sběr mluvených textů provází mnoho problémů a  omezení. Svědčí o tom alespoň různý vývoj jednotlivých korpusů, například českého (ČNK) a polského (NKJP). Zatímco český se neustále rozšiřuje a patří k  jednomu z největších korpusů v Evropě, práce na polském korpusu jsou v současné době prakticky zastaveny.

Je třeba konstatovat, že velké korpusy jsou neocenitelnými zdroji infor-mací pro lingvisty a lexikografy při budování velkých překladových slovní-ků v elektronické podobě.

Otevřenou otázkou zůstává, kdo bude tvořit a pro koho ony nové, kvalita-tivně lepší velké elektronické slovníky. Lze předpokládat, že slovníky budouc-nosti budou sestavovány lingvisty-lexikografy-informatiky (což se neobejde bez nezbytného interdisciplinárního vzdělání) pro všechny uživatele – lin-gvisty, překladatele a studenty jazyka.

LiteraturaČermák, F. (2010). Mnohojazyčný korpus InterCorp: Možnosti studia. Praha:

Nakladatelství Lidové noviny.Čermák, F. & Blatná, R. (2005). Jak využívat český národní korpus. Praha:

Nakladatelství Lidové noviny.Čermák, F. & Blatná R. (2006). Korpusová lingvistika: Stav a modelové pří-

stupy. Praha: Nakladatelství Lidové noviny.Čermák, F., Králík, J. & Kučera, K. (1997). Recepce současné češtiny a repre-

zentativnost korpusu. SaS, 58, 117–124.Charciarek, A. (2012). Ostrzeżenia i zakazy jako napisy miejskie w słowniku

dwujęzycznym polsko-czeskim, „Bohemistyka” Nr 1, Poznań, 5–34.

76

Chlebda, W. (Ed.) (2009). Podręczny idiomatykon polsko-rosyjski, z. 4., Opole.Grabowski, Ł. (2011). Korpusy dwu- i  wielojęzyczne w służbie tłumacza,

leksykografa i badacza: poszukiwanie ekwiwalentów przekładowych w świetle hipotez dotyczących istnienia uniwersaliów tłumaczeniowych. In W. Chlebda (Ed.), Na tropach translatów. W poszukiwaniu odpowied-ników przekładowych. Opole, 89–112.

Kopřivová, M., (2001). Využití korpusu při zpracování frazeologie ve výkla-dovém slovníku. In M. Balowski & Chlebda W. (Eds.), Frazeografie slovi-anska, Opole, 335–339.

Kopřivová, M. & Waclawičová, M. (2008). Čeština v mluveném korpusu. Pra-ha: Nakladatelství Lidové noviny.

Lewandowska-Tomaszczyk, B. (2005). Podstawy językoznawstwa korpu-sowego. Łódź.

Lewicki, R. (2011) Translaty w słowniku przekładowym – poszukiwanie i ustalanie, In W. Chlebda (Ed.), Na tropach translatów. W poszukiwaniu odpowiedników przekładowych. Opole, 159–166.

Piotrowski, T. (2011). Ekwiwalencja w słownikach dwujęzycznych, In W. Chlebda (Ed.) Na tropach translatów. W poszukiwaniu odpowiedników przekładowych. Opole, 45–70.

Šulc, M. (1999). Korpusová lingvistika. První vstup. Praha.Żmigrodzki, P. (2003). Teraźniejszość i przyszłość polskiej leksykografii języ-

koznawczej. Poradnik Językowy, z. 1, 20–33.Żmigrodzki, P. (2005). Słownik jako korpus tekstów – korpus tekstów jako

słownik. Perspektywy polskiej leksykografii naukowej. Poradnik Języ-kowy, z. 6, 3–14.

Żmigrodzki, P. (2008). Słowo – słownik – rzeczywistość. Z problemów leksy-kografii i metaleksykografii. Kraków.

Żmigrodzki, P. (2009). Wprowadzenie do leksykografii polskiej. Katowice.

77

Pavla ChejnováPedagogická fakulta Univerzity Karlovy [email protected]

Využití korpusu dětské řeči k popisu akvizice morfologických kategoriíPříspěvek představuje výzkum osvojování gramatických kategorií češti-ny u  českého monolingvního chlapce, mapován je vývoj od  nástupu řeči cca do čtyř let věku dítěte. Výzkum je založen na korpusu, který autorka pořizovala od  nástupu prvních jednoslovných výpovědí, sběr dat probíhá i v  současnosti. Korpus tvoří autentické rozhovory dítěte s matkou a dal-šími dospělými, které byly transkribovány dle zásad užívaných v korpusu CHILDES. Autorka představí vlastní korpus a metody používané při analýze dat. Prezentovaná část výzkumu se soustřeďuje na  nabývání morfologic-kých kategorií flektivního jazyka, autorka se zaměřuje na vývoj gramatic-kých kategorií substantiv, adjektiv, pronomin a verb. Teoretický rámec tvoří koncepty založené na  vývojových fázích pre-morfologie, protomorfologie a modulární morfologie (Dressler 1997, Voeikova & Dressler 2002, Bittner et al. 2003, Voeikova & Stephany 2009). Vývoj je chápán jako kontinuální. Ačkoliv existence jistých vrozených predispozic není vyloučena, autorka se zaměřuje spíše na situační proměnné, např. povahu inputu, se kterým je dítě konfrontováno. Zaznamenávána jsou tzv. miniparadigmata, tj. výskyt de-klinačních a konjugačních minimálně tříčlenných paradigmat v řeči dítěte a  dále frekvence výskytu jednotlivých jevů: lemma – tvar (type) – počet výskytů (token frequency). Dílčí výsledky naznačují, že vývoj gramatických kategorií postupuje ve sledu, který je popisován autory studií věnovaným příbuzným flektivním jazykům (viz uvedená literatura). Z laického pohledu byl vývoj sledovaného dítěte skokový – po nástupu řeči ve dvou a půl letech se během půl roku vyvinula schopnost mluvit ve složitých souvětích. De-tailní analýza korpusu ovšem naznačuje, že nástup řeči byl sice pozdní a ná-sledný vývoj probíhal velmi rychle, nicméně základní fáze a přechody mezi nimi byly zachovány a korespondují s fázemi sledu akvizice gramatických kategorií popsaných v  jiných slovanských jazycích. Autorka při své práci používá i metodu deníkových zápisů, neboť samotný transkript demonstruje pouze výseč produkce dítěte ve sledovaném období, a další sledované jevy

78

by tak mohly být opomenuty. Pro detailní objektivní analýzu je tedy třeba korpusová data doplnit o další záznamy. Rovněž je výhodou, pokud řečovou produkci dítěte analyzuje lingvista, který má s  dítětem osobní zkušenost, protože zná kontext jeho vývoje a při včasné analýze každého pořízeného transkriptu dokáže správně přiřazovat referenty k situacím.

LiteraturaBittner, D., Dressler, W. U. & Kilani-Schoch, M. (Eds.) (2003). Development of

verb inflection in first language acquisition. A cross-linguistic perspecti-ve. Berlin: Mouton-de Gruyter.

Dressler, W. (Ed.) (1997). Studies in Pre- and Protomorphology. Wien: Verlag der Österreichischen Akademie der Wissenschaften.

Stephany, U. & Voeikova, M. D. (Eds.) (2009). Development of nominal infle-ction in first language acquisition. A cross-linguistic perspective. Berlin /New York: Mouton de Gruyter.

Voeikova, M. D. & Dressler, W. U. (Eds). (2002). Pre- and Protomorphology. Early Phases of Morphological Development in Nouns and Verbs. Mün-chen: Lincom Europa.

Lucie ChlumskáÚstav Českého národního korpusu FF UK [email protected]

Je čeština v překladech jiná? Překladové literatuře se u nás daří rok od roku lépe. Podíváme-li se na situ-aci v posledních pěti letech podle statistik Národní knihovny (od roku 2008 do roku 2012)*, počet překladů neperiodických publikací – kam patří belet-rie, populární i odborná literatura – stále narůstá. V roce 2012 bylo vydáno téměř o 98 % překladových knih více než v  roce 2008. Šlo celkem o 5 871

* Statistiky NKP dostupné např. zde: http://text.nkp.cz/soubory/ostatni/vykaz_dd2012.pdf

79

titulů překladové literatury, což je více než 34 % z celkového objemu knižní produkce. Nejvíce překládanými jazyky jsou po mnoho let s velkým násko-kem angličtina, dále pak němčina a francouzština. 

Uvážíme-li, že  překladová literatura  dnes tvoří více než třetinu vydaných publikací, musí nás nutně zajímat, zda se překladový jazyk nějak neodlišuje, zdali není svébytným kódem, který má své vlastní zákonitosti a svá pravi-dla. Je překladová čeština jiná než čeština původních, česky psaných děl? Vykazuje jazyk překladů nějaké specifické rysy, jež jsou pro něj typické bez ohledu na jazyk, z něhož byl překlad pořízen? A konečně, jak můžeme tyto otázky vůbec zkoumat – na jakých datech? Na tyto otázky se pokusí odpo-vědět tato studie.

Překladovému jazyku a jeho charakteristikám je v korpusové translato-logii věnována velká pozornost již od devadesátých let, kdy Mona Bakerová (Baker 1993) publikovala svůj stěžejní článek o teorii překladových univerzá-lií. Od té doby se mnoho vědců zabývá otázkou popisu překladového jazyka jak z kvalitativního, tak především z kvantitativního hlediska (např. Laviosa 2002, Olohan 2004, Chesterman 2004, Malmkjær 2005, Xiao 2010). V češtině byl tento výzkum donedávna poněkud opomíjen, až na dílčí, převážně kvali-tativní studie (např. Středová 2009, Polišenská 2010) neexistuje monografie, která by se překladovou češtinou dopodrobna zabývala. 

Chceme-li zkoumat překladový jazyk ve srovnání s nepřekladovým, ne-potřebujeme k tomu nutně zdrojové texty, z nichž byly překlady pořízeny, ale referenční korpus nepřekladových textů, který bude sestaven podle ob-dobných pravidel. Jinými slovy, pro tento typ výzkumu není vhodný paralel-ní korpus, který obsahuje překlady a originály, ale korpus srovnatelný. Pro češtinu byl takový korpus** vytvořen na Ústavu Českého národního korpusu v roce 2013. 

Korpus Jerome je jednojazyčný srovnatelný korpus speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z  ji-ných jazyků) v  porovnání s  češtinou nepřekladovou (původní česky psa-nou). Korpus Jerome je primárně určen translatologům a lingvistům, kteří se chtějí zabývat zkoumáním překladové češtiny – jejími vlastnostmi a cha-rakteristikami. Korpus (především pak jeho vyvážený subkorpus) je možné využít i k ověřování teorií o platnosti tzv. překladových univerzálií.

Korpus vznikl na  základě databáze textů Českého národního korpusu, konkrétně pak řady SYN (synchronní čeština), z níž byly ručně vybrány kon-

** http://wiki.korpus.cz/doku.php/cnk:jerome

80

krétní texty na základě specifických, translatologicky relevantních kritérií. Mezi hlavní kritéria patří zásada, že v korpusu Jerome nemůže být žádný autor zastoupen více než třikrát, aby se předešlo vlivu autorského idiolektu. Podobné pravidlo platí i pro překladatele s tím, že překladatel se může v kor-pusu objevit také max. třikrát, ovšem pokaždé s překladem jiného autora. Tím byla zajištěna dostatečná heterogennost korpusu.

Dalším kritériem byla doba vydání textu – do korpusu jsou zařazeny pře-klady a původní díla vydaná v období dvaceti let (1992–2009), aby mohla být zkoumána současná překladová čeština. V anotaci je k dohledání nejen rok vydání konkrétní knihy, která byla zařazena do korpusu, ale i rok jejího prvního vydání, aby bylo možné vyfiltrovat publikace, jež sice vyšly po roce 1992, ale již v několikátém vydání. Kritériem, kterému výběr podřízen nao-pak nebyl, je kvalita překladu. Cílem korpusu totiž bylo, aby odrážel reálnou situaci se vším všudy, tedy i s více či méně kvalitními překlady. 

Příspěvek si klade za cíl – kromě samotného představení korpusu Jerome širšímu odbornému publiku – seznámit posluchače s výsledky nejnovějších výzkumů překladové češtiny. První sondy provedené na korpusu Jerome na-značují, že překladová čeština se skutečně od nepřekladové liší, např. délkou vět či bohatostí slovní zásoby (Chlumská & Richterová 2014). Právě probí-hající výzkum n-gramů ukazuje, že nejčastěji používané 2-gramy, 3-gramy a 4-gramy a jejich typy se v překladové a nepřekladové češtině zcela nepře-krývají, podobně jako ve finštině (Mauranen 2000). 

LiteraturaBaker, M. (1993). Corpus linguistics and translation studies: Implications and

applications. In M. Baker, G. Francis & E. Tognini-Bonelli (Eds.), Text and Technology: In Honour of John Sinclair. Amsterdam / Philadephia: John Benjamins, 233–50.

Chesterman, A. (2004). Hypotheses about translation universals. In G. Han-se, K. Malmkjær & D. Gile (Eds.), Claims, Changes and Challenges in Translation Studies. Selected Contributions from the EST Congress Co-penhagen 2001, 1–14.

Chlumská, L. & Richterová, O. (2014). Jak zkoumat překladovou češtinu? Vý-zkum simplifikace na korpusu Jerome. Korpus – gramatika – axiologie ,9, 16–29.

Laviosa, S. (2002). Corpus-based Translation Studies. Theory, findings, appli-cations. Amsterdam / New York: Rodopi.

81

Malmkjær, K. (2005). Linguistics and Language of Translation. Edinburgh University Press: Edinburgh.

Mauranen, A. (2001). Strange Strings in Translated Language. A Study on Corpora. In M. Olohan (Ed.), Intercultural Faultlines: Research Models in Translation Studies I: Textual and Cognitive Aspects. Manchester: St. Jerome Publishing, 119–141.

Olohan, M. (2004). Introducing Corpora in Translation Studies. London: Routledge.

Polišenská, M. (2010). Translation Universals in the English and Spanish Translations of Saturnin by Zdeněk Jirotka, diplomová práce. Brno: FF MU.

Středová, A. (2009). Explicitation and Implicitation in Non-literary Transla-tions, diplomová práce. Brno: FF MU.

Xiao, R. (2010). How different is translated Chinese from native Chinese? International Journal of Corpus Linguistics, 15 (1), 5–35.

Lucie JílkováÚstav pro jazyk český AV ČR [email protected]

Vy jste mi z té otázky utekl! (analýza jednoho způsobu vymáhání odpovědi, s využitím korpusových dokladů)Analýza mediálních dialogů (Čmejrková & Hoffmannová 2011, Čmejrková et al. 2013) mimo jiné ukazuje, že např. v televizních či rozhlasových diskusích, jichž se jako hosté účastní politici, nezřídka dochází k tomu, že pozvaný host se snaží vyhnout odpovědi na moderátorovu otázku. Moderátor po neuspo-kojivé či žádné odpovědi může hosta upozornit, že od  něj dosud nezískal požadovanou informaci. Právě v tuto chvíli se moderátoři současných pub-licistických pořadů někdy uchylují k formulaci Vy jste mi z té otázky utekl /

82

Vy mi z té otázky utíkáte, která bude předmětem zkoumání příspěvku. Analy-zovány budou doklady této formulace v korpusech poskytovaných Ústavem Českého národního korpusu (http://www.korpus.cz), doklady zachycené v korpusu DIALOG (http://ujc.dialogy.cz) a také doklady získané na interne-tu prostřednictvím české verze vyhledávače Google (www.google.cz).

Užití zkoumaného slovního spojení nepochybně souvisí s osobností mo-derátora, s  jeho stylem kladení otázek (Havlík 2008, 2013; Schneiderová 2013). Nějaký moderátor či moderátorka (např. Daniela Drtinová) se i opa-kovaně může snažit od svého hosta získat požadovanou informaci, a právě při své opakované prosbě může užít analyzované slovní spojení, tj. zkouma-né slovní spojení je součástí jeho/jejího idiolektu. Jiný moderátor se v téže situaci může uchýlit k jinému způsobu vyjádření, jímž se snaží hosta přimět k odpovědi, příp. se spokojí s odpovědí vyhýbavou atd.

Ukazuje se, že zkoumané slovní spojení je v  současné češtině, resp. ve zkoumaném souboru textů, spojením srozumitelným, žádný z hostů se nad ním nepozastavil, explicitně je nepovažoval za nesrozumitelné, naopak, někteří hosté svou (z  pohledu moderátora vyhýbavou) odpověď zahajují opět slovy já vám z té otázky neutíkám.

Předmětem analýzy je i to, v jaké době se toto slovní spojení začalo ob-jevovat.

Zkoumané slovní spojení navozuje představu, že moderátorova otázka je prostorem, v němž se host (nedobrovolně) ocitl a z nějž se snaží uniknout. Utíkání ze skutečných uzavřených prostor je v  jazyce vyjadřováno samo-zřejmě velmi běžně, viz např. slovní spojení utíkat z vězení, utéct z hořícího domu, utéci z nemocnice apod. Vyskytuje se i utíkání z prostor metaforic-kých, např. utéci z učení, utéct z práce, velmi běžná jsou ustálená slovní spo-jení utíkat z boje, z bitvy, z války (Čermák & Hronek et al. 2009a, b, c; Čermák 2009; Saicová Římalová 2010), bez zajímavosti nejsou ani doklady zachycené např. v  Příručním slovníku jazyka českého (1935–1957). Analýza se snaží zjistit, zda se ve  zkoumaném slovním spojení stává otázka právě takovou metaforickou prostorou.

Doklady z  korpusů ukazují, že u  moderátorů diskusních pořadů se lze setkat i s vyjádřeními, která lze označit jako spojení ke zkoumanému spojení synonymní: vyvléci se z otázky, vykroutit se z otázky, vycouvat z otázky, vy-klouznout z otázky, vybruslit z otázky. Spojení utéci z otázky bylo tedy možná analogicky utvořeno podle těchto synonymních slovních spojení. I v nich se otázka stává metaforickou prostorou, kterou se mluvčí chystá opustit.

83

Sloveso utíkat/utéct je v diskusních pořadech (a ovšem nejen v nich) dále běžně spojováno s předložkou od a podstatným jménem téma, tj. utéct/utí-kat od tématu. Nelze zřejmě vyloučit, že slovní spojení utéci z otázky vznik-lo kontaminací právě se slovním spojením utéci od tématu. V korpusových dokladech navíc opakovaně nacházíme i  spojení utéct od  otázky, a  to jak ve vstupech moderátorů, tak v reakcích hostů: já od té otázky neutíkám.

LiteraturaČermák F., Hronek J. et al. (2009a). Slovník české frazeologie a idiomatiky 1.

Přirovnání. Praha: Leda.Čermák F., Hronek J. et al. (2009b). Slovník české frazeologie a idiomatiky 2.

Výrazy neslovesné. Praha: Leda.Čermák F., Hronek J. et al. (2009c). Slovník české frazeologie a idiomatiky 3.

Výrazy slovesné. Praha: Leda.Čermák F. et al. (2009d). Slovník české frazeologie a  idiomatiky 4. Výrazy

větné. Praha: Leda.Čmejrková, S. & Hoffmannová, J. (Eds.) (2011). Mluvená čeština: hledání

funkčního rozpětí. Praha: Academia.Čmejrková, S. et al. (2013). Styl mediálních dialogů. Praha: Academia.Havlík, M. (2008). Poznámky k práci moderátorů televizních politických de-

bat a rozhlasových interview. Jazykovědné aktuality, 45 (1–2), 4–31.Příruční slovník jazyka českého (1935–1957). Praha: Československá akade-

mie věd.Saicová Římalová L. (2010). Vybraná slovesa pohybu v češtině. Studie z ko-

gnitivní lingvistiky. Praha: Karolinum.Schneiderová, S. (2013). Mediální diskurz. Komunikační situace a styl. Studie

k moderní mluvnici češtiny. Olomouc: Univerzita Palackého v Olomou-ci, 95–121.

84

Karel JirásekFilozofická fakulta Univerzity Karlovy [email protected]

Identifikace typologických rozdílů mezi češtinou a chorvatštinou za pomoci paralelního korpusu InterCorpPři kontrastivním zkoumání dvou blízce příbuzných jazyků, jakými jsou češ-tina a chorvatština, je velmi důležité identifikovat typologické rozdíly mezi těmito jazyky a případné vývojové tendence, které tyto rozdíly mohou v di-achronní perspektivě umocňovat či postupně zmírňovat.

Nelze se tedy plně spolehnout na kontrastivní studie staršího data, neboť stav v nich popisovaný se v některých dílčích aspektech mohl změnit. Disku-tabilní je rovněž jazykový materiál, z něhož se dříve při srovnávání češtiny a chorvatštiny vycházelo – převážně šlo o klasickou českou a chorvatskou beletrii z konce 19. a první poloviny 20. století – tedy v řadě případů to bylo srovnávání pouze jazyka spisovného, někdy až knižního. Přitom ne vždy bylo zohledňováno, že spisovná čeština té doby se od mluvené obecné češtiny odli-šovala mnohem výrazněji, než jak tomu bylo v případě chorvatštiny, kde jazy-ková norma vycházela z živého mluveného jazyka. Na druhou stranu badatelé při svém studiu pochopitelně využívali i vlastní jazykovou kompetenci, která je v případě chorvatštiny poněkud problematická z důvodu výrazné nářeční roztříštěnosti, dodnes mnohem výraznější, než je tomu v případě češtiny.

Z uvedených důvodů se stávalo, že některé zaznamenané rozdíly v pod-statě nepředstavovaly rozdíly mezi češtinou a chorvatštinou, nýbrž pouze rozdíly mezi nestejnými jazykovými rovinami obou jazyků. Stejně tak ně-které zdánlivé shody (např. lexikální, frazeologické, stylistické) mohly být shodou mezi češtinou a pouze jedním z chorvatských nářečí. Tak jako prvky obecné češtiny postupně pronikají do spisovného jazyka, dochází i v chor-vatštině k posunu, když se některé původně nářeční prvky stávají součástí obecné chorvatštiny, která zejména v posledních dvaceti letech prošla výraz-nými vyrovnávacími procesy.

Paralelní korpus InterCorp nám dává jedinečnou možnost porovnat a statisticky vyhodnotit potenciální typologické rozdíly mezi oběma jazyky na rozsáhlém souboru ekvivalentních textů z pera různých autorů a různých

85

překladatelů. Pro získání relevantních zobecňujících výsledků je totiž ne-zbytné odlišit obecně jazykové jevy od  individuálních specifik jazyka jed-notlivých autorů či překladatelů.

Jedním z problémů paralelního korpusu je ne vždy uspokojivá kvalita pře-kladů, což mnohdy není patrné na první pohled, ale až na základě statistické analýzy. Nemusí jít přitom přímo o překlad chybný, v některých případech však překladatel dílo ochuzuje, původní jazyková pestrost originálu se ztrácí a nivelizuje, jak na úrovni lexika, tak i na úrovni syntaktických konstrukcí. V  některých případech i  sám autor originálu systematicky používá velmi specifických jazykových prostředků, které nelze považovat za součást stan-dardu příslušného jazyka. Oba tyto typy textů (nekvalitní překlady i výraz-ně jazykově specifické originály) je vhodné ze zkoumaného vzorku předem vyloučit, abychom naše výsledky mohli zobecnit. Díky novým uživatelským rozhraním pro práci s paralelním korpusem (NoSkE a KonText) je nyní mno-hem snazší takto specifické texty na základě statistického srovnání odhalit a následně vyřadit ze zkoumaného subkorpusu.

Ve svém příspěvku chci demonstrovat postup vyhledávání typologických rozdílů mezi češtinou a chorvatštinou v paralelním korpusu InterCorp na pří-kladu srovnání derivačního potenciálu sloves (zejména při odvozování sloves-ných adjektiv a substantiv) v češtině a chorvatštině. Zatímco v češtině je od-vozování slovesných adjektiv jevem zcela běžným, chorvatština jich využívá v mnohem menší míře. Již na první pohled jde o rozdíl poměrně výrazný, kte-rý však nebývá při studiu dostatečně zdůrazňován, a proto je to jeden z rysů, na jejichž základě lze odhalit text, jehož autorem není rodilý mluvčí. V chor-vatštině naopak zůstávají zcela běžnou součástí živého jazyka přechodníky, které by při doslovném překladu do češtiny text výrazně archaizovaly, a proto musejí být v češtině kompenzovány jinými způsoby, což si vyžaduje výraz-nější zásah do syntaktické struktury věty. Paralelní korpus je tak nástrojem, který nám umožňuje identifikovat typologické rozdíly mezi blízkými jazyky a z praktického hlediska také nalézat vhodné kompenzační strategie při pře-kládání textů, abychom se vyhnuli negativním transferům z jazyka originálu.

LiteraturaČeský národní korpus – InterCorp. Ústav Českého národního korpusu FF

UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.

86

Elżbieta KaczmarskaInstytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski [email protected]

Alexandr RosenÚstav teoretické a komputační lingvistiky FF UK [email protected]

Jirka HanaÚstav formální a aplikované lingvistiky MFF UK [email protected]

Jak najít optimální překlad polysémních sloves – porovnání metod automatické analýzy paralelních textůNaším cílem je najít optimální metodu pro automatické zjištění překlado-vých ekvivalentů sloves vyjadřujících duševní stavy a  jiných sloves, která mohou být obtížně přeložitelná, a to i mezi typologicky blízkými jazyky, ja-kými jsou polština a čeština. Zkoušíme dva podstatně odlišné postupy. První z nich vychází z identifikace syntaktických argumentů a jejich sémantických vlastností, které mohou mít na výběr ekvivalentu zásadní vliv (Levin 1993). Druhý postup využívá standardní klasifikátor, který o  volbě ekvivalentu rozhoduje na základě pravého a levého kontextu o velikosti několika slov, aniž by měl k dispozici syntaktickou informaci. Variantou druhého postupu je omezení kontextu na slovní formy určité slovnědruhové třídy. Výsledek evaluujeme na paralelních česko-polských textech.

Vycházíme z česko-polské části paralelního korpusu InterCorp, jehož ver-ze 6 již byla použita v  pilotní studii (Kaczmarska & Rosen 2013). Z  textů o objemu asi 12 mil. slov v každém z obou jazyků bylo po automatickém zarovnání po slovech programem GIZA++ (Och & Ney 2003) extrahováno 8,7 mil. dvojic lemmat, z toho 528 tisíc dvojic bylo různých. Výsledný slovník (dostupný on-line na  adrese http://utkl.ff.cuni.cz/~rosen/public/cspl_lex/) lze třídit a filtrovat podle různých kritérií, včetně frekvence dvojice lemmat v korpusu. Zatím byl využit pro kontrastivní analýzu deminutiv, identifikaci chybějících pojmů ve druhém jazyce a hledání ekvivalentů obtížně přeloži-telných lexémů.

87

Nejdříve popíšeme první postup, a  to jen v  části, která se týká využití sémantických vlastností argumentů. Vliv povrchové realizace argumentů na volbu ekvivalentu je přímočarý a v praxi bude řešen jednoduchými pra-vidly.

Pro každý výskyt českého i polského slovesa vyhledáme pomocí syntak-tického analyzátoru nebo gramatiky regulárních výrazů jeho syntaktické argumenty (pokud možno argumenty hloubkové, tedy neutralizující vliv pasivizace). Z nich bereme v potaz jen sémanticky řídící člen (hlavu), a to v základním tvaru. Pro všechny výskyty identických dvojic slovesných lem-mat sloučíme lexémy v roli argumentů zvlášť na české a polské straně. Jako příklad můžeme uvést české polysémní sloveso toužit a jeho polské ekviva-lenty marzyć, tęsknić, pragnąć a pożądać:

• toužit (Arg1: já, Arg2: człowiek) – marzyć  (Arg1: já, Arg2: člověk)

cs. Vždycky jsem toužila po člověku, který by byl prostý a přímý.pl. Zawsze marzyłam o człowieku, który byłby prosty i bezpośredni.

• toužit (Arg1: ona; Arg2: oko) – tęsknić  (Arg1: ona; Arg2: oko)

cs. Oči, po kterých touží, jsou oči Tomáše.pl. Oczy, do których tęskni, to oczy Tomasza.

• toužit (Arg1: já, Arg2: Lucie) – pragnąć  (Arg1: já, Arg2: Lucja)

cs. Toužil jsem po Lucii, ale zároveň jsem se bál její lásky, protože jsem nevěděl, co si s ní počít.pl. Pragnąłem Łucji, ale jednocześnie bałem się jej miłości, bo nie wiedziałem, co z nią począć.

• toužit (Arg1: Bernard, Arg2: sláva) – pożądać  (Arg1: Bernard, Arg2: sława)

cs. Bernard netouží po slávě osvětleného, ale po moci toho, kdo je v přítmí.pl. Bernard nie pożąda sławy tego, w kogo wycelowane są reflektory, lecz wład-zy tego, kto stoi w półmroku.

Po sloučení lexémů v rolích argumentů zjistíme, jaké lexémy např. v rolích argumentů slovesa toužit odpovídají lexémům v rolích argumentů jeho jednot-livých ekvivalentů (marzyć, tęsknić, pragnąć, pożądać). Množiny lexémů pro jednotlivé argumenty toužit se tak rozpadnou na podmnožiny určené těmito ekvivalenty. Podmnožiny patrně nebudou disjunktní, ale v příznivém případě budou mít prototypické reprezentanty. Optimálně tak dostaneme pro každé

88

slovesné lemma preference volby ekvivalentu podle procenta shody jeho ar-gumentů s argumenty kandidátů na překlad. Při výpočtu procenta shody lze brát v úvahu i frekvence jednotlivých lexémů v rolích argumentů a ve spor-ných případech upřednostňovat shodu mezi frekventovanějšími lexémy.

V dalším kroku pomocí tezauru zobecníme (pod)množiny lexémů, které odpovídají argumentům daného slovesa, tak, abychom získali sémantické třídy, v optimálním případě shodné pro polštinu a češtinu. (Jako tezaurus lze pro češtinu i polštinu použít WordNet, program Word Sketches zpracovává k témuž účelu data z korpusu, ve kterém právě hledá.) Tyto sémantické třídy lze využít při testování v případě, že konkrétní věta obsahuje jako argument lexém, který se v trénovacích datech neobjevil.

Následující kroky se věnují ověření metody. Množiny lexému v  rolích argumentů (ale už nikoli podmnožiny) a jim odpovídající sémantické třídy prověříme tak, že hledání slovesných argumentů zopakujeme na  jednoja-zykových korpusech, tedy nikoli pro dvojice sloves, ale jen pro jednotlivá slovesa. Evaluaci pak provedeme na části dat InterCorpu, kterou jsme do-sud nepoužili. Podle paralelních textů ověříme, jak spolehlivě funguje výběr ekvivalentu v závislosti na argumentech.

Jako alternativu k metodě s hledáním argumentů vyzkoušíme i metodu fungující na  čistě empirickém základě: volbu ekvivalentu určujeme nikoli podle syntaktických/sémantických argumentů, ale podle lineárního slovo-sledného kontextu o šíři např. 3 pozice vlevo a vpravo, případně s vypuš-těním slovních forem, jejichž slovní druh nebude pro výsledek rozhodující. Porovnáním výsledků těchto dvou metod bude možné rozhodnout o  tom, zda typy argumentů jsou pro porozumění a výběr ekvivalentů směrodatné.

LiteraturaKaczmarska, E. & Rosen, A. (2013). Między znaczeniem leksykalnym a wa-

lencją – próba opracowania metody ekstrakcji ekwiwalentów na pod-stawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej, 48, 103–121.

Levin, B. (1993). English Verb Classes and Alternations: A Preliminary Inves-tigation. Chicago: University of Chicago Press.

Och, F. J. & Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational Linguistics, 29 (1), 19–51.

89

Tomáš KáňaPedagogická fakulta Masarykovy univerzity [email protected]

Česká nesubstantivní deminutiva a jejich protějšky v němčině a angličtiněAčkoliv jsou deminutiva oblíbeným předmětem zájmu nejen lingvistů, ale i široké veřejnosti (Magazín DNES 15/2011), zužuje se většinou jejich popis na oblast jmen, většinou jen podstatných. Je to celkem logické: deminuce substantiv by se dala považovat snad i za univerzální jev všech jazyků (Ru-sínová 2001), neboť substantivní deminutiva najdeme také v jazycích, která jinak příliš nezdrobňují a vůbec mají chudý morfologický aparát (angličti-na, francouzština). Popisy deminutiv ostatních slovních druhů češtiny jsou v odborných publikacích řídké, nejvíc se ještě týkají adjektiv (a  analogic-kých adverbií). Důvodů je několik: 1) zdrobněliny v  nich nejsou, 2) nebo jsou, ale velmi málo frekventní, 3) uvádějí se u jiných slovních druhů (viz dále), anebo 4) je sporné, zda se o deminutivum vůbec jedná. (Poslední bod platí ostatně pro všechny slovní druhy. I u substantiv nelze vždy jednoznač-ně rozhodnout, zda se jedná o deminutivum či nikoliv. Striktní pravidlo, že k deminutivu musí (stále) existovat základ je jistě dobré vodítko, ve všeobec-ném povědomí to ovšem neplatí stoprocentně (srov. Káňa 2011: 170–171).)

Dobrovský (1809) jako první uvádí v  popisu češtiny vedle substantiv-ních deminutiv také „Verkleinerungsformen der Beywörter“ (1809: 88–89) – zdrobněliny jmen přídavných. K primárním dodává, že se jedná o „ge-meine Rede“, tedy řeč hovorovou, uvádí i sekundární deminutiva zdvojením (maličičký, tenaučičký) s poznámkou, že se požívají jen v řeči důvěrné.

I pozdější autoři (Gebauer 1936, Trávníček 1951, Šmilauer 1971) popisují vedle substantivních deminutiv jen adjektivní. Trávníček (1951: 368) nemlu-ví explicitně o  adjektivních deminutivech, nýbrž „zesilujících adjektivech, (…) vyjadřujících větší míru vlastnosti než základní adjektivum“, shrnu-je tak adjektivní deminutiva a augmentativa. Podobné pojetí má Šmilauer (1971: 129-130): „zdrobňující, citově obměňující a zesilující“ přídavná jmé-na. U „věcně zdrobňujících“ uvádí sufix –avý (bělavý) a cirkumfixy na- -lý (nahnědlý) a za- -lý (zažloutlý). U „citově obměňujících“ pak sufixy –ičký, -oučký, -inký, -ounký, které lze považovat za typické zástupce adjektivních

90

deminutiv – uvádí je většina autorů (dále např. Čermák 2011: 104, ale i Pří-ruční mluvnice češtiny).

Problematiku adjektivních deminutiv sledujeme tedy v několika rovinách:1. jak si konkurují sufixy/ cirkumfixy „věcně zdrobňující“ (-avý, na- -lý,

při- -lý, za- -lý) a „citově obměňující“ (-oučký, -íčký, -inký)?2. lze adjektiva utvořená „věcně zdrobňujícími“ prostředky (-avý, na-/

při-/za- -lý) považovat za deminutiva?3. neexistují i jiné kombinace prefixu a sufixu (např. na- -oučký)?

U českých sloves není ucelený deminutivní systém a „jejich (velmi řídký) výskyt ve slovníku lze rozpoznat už jen diachronně“ (Čermák 2011: 122). Podobně jako u adjektiv sufix –avý a cirkumfixy na- -lý, při- -lý, za- -lý, tak i zde se někdy považuje prefix snižující míru děje po- (poplakat) za deminu-tivní (Nekukla 2010: 304). Proto se zamyslíme taktéž nad konkurencí slov utvořených prefixem po- a deminutivním sufixem (pospat/ spinkat, popapat/ popapinkat), jejich funkcí a frekvencí.

Deminutiva zbývajících slovních druhů se pro češtinu běžně neuvádějí (důvody viz také výš). Je to dáno především:

1. jejich blízkostí k jiným slovním druhům, u kterých bývají uváděny (zá-jmena u adjektiv/ adverbií, číslovky u substantiv)

2. jejich nesystematičností,3. relativně nízkou frekvencí,4. nahodilostí a5. blízkosti k okasionalismům.Ze zájmen tvoří deminutiva jen zájmena neurčitá, navíc jen ta, která mají

formu adjektiv nebo jmen. (Mimo každý a všechen nemají signifikantní vý-skyt.) Tvoří se formanty –inko, -ičko, -ičký.

U číslovek se kryjí s deminutivy substantiv vytvořených univerbizací: stovečka, dvoječka.

Mezi českými synsémantiky v užším smyslu (předložky, spojky, části-ce) deminutiva hledat nelze.

Několik málo zdrobnělin je mezi citoslovci – především v posledních le-tech (snad původně pod vlivem slovenštiny se začala i v češtině „ohýbat“ některá citoslovce: srov. ve slovenštině běžné ahojte, čaute, v několika tuc-tech doložené i v psaném korpusu) se v češtině rozšířila deminutiva kontak-tových citoslovcí ahojky/ ahojka, nazdárek, páček.

Vedle již načrtnutých bodů se podíváme na nejčastější nesubstantivní čes-ká deminutiva pohledem z  jiných jazyků. Obecně lze říct, že zdrobněliny

91

jsou častou příčinou lexikálních divergencí mezi jazyky. Pokud srovnávaný jazyk není k deminuci podobně „náchylný“, dochází k lexikální nulové ekvi-valenci. Toto platí především v porovnání češtiny s němčinou a angličtinou. Vzhledem k tomu, že oba germánské jazyky mají velmi omezený deminutiv-ní aparát, bude o to zajímavější pohled na prostředky, které vytvářejí ekvi-valenty českých nesubstantivních deminutiv. Již nyní ale víme, že výsledky kontrastivního výzkumu budou pouze náčrtkem reprezentativního obrazu. I přes (již) značnou velikost jednotlivých paralel a průnik české, německé a anglické paralely čítající přes několik desítek milionů slov, nebude možné vyvodit jednoznačné závěry, protože dokladů nesubstantivních deminutiv tam je (zatím) jen maloučko.

LiteraturaČermák, F. (2011). Morfématika a slovotvorba češtiny. Praha: Nakladatelství

Lidové noviny.Gebauer, J. (1936). Příruční mluvnice jazyka českého pro učitele a studium

soukromé. Praha: Česká grafická unie a.s.Dobrovský, J. (1809). Ausführliches Lehrgebäude der Böhmischen Sprache,

zur gründlichen Erlernung derselben für Deutsche, zur vollkommenern Kenntniss für Böhmen. Prag: J. Herrl.

Káňa, T. (2011). Deminutiva a  deminutivní vyjádření v  češtině, němčině a angličtině – hledání hranic. In F. Čermák (Ed.), Korpusová lingvistika Praha 2011: 1 – InterCorp. Praha: NLN/ ÚČNK, 168–185.

Karlík, P., Nekula, M. & Rusínová, Z. (1995). Příruční mluvnice češtiny. Pra-ha: Nakladatelství Lidové noviny.

Malinda, J. (2011). 100 stupidních slov. Magazín DNES 15/2011.Nekula, M. (2010). Deminutiva a  augmentativa v  češtině z  typologického

hlediska. Karlík a továrna na lingvistiku. Brno: Host, 304–315. Rusínová, Z. (2001). Deminutiva jako jazykové universale. Sborník prací Fi-

lozofické fakulty brněnské univerzity, Linguistica Brunensia. A49. Brno: Vydavatelství MU, 137–146.

Šmilauer, V. (1971). Novočeské tvoření slov. Praha: Státní pedagogické na-kladatelství.

Trávníček, F. (1951). Mluvnice spisovné češtiny. 3., opr. a dopl. vyd. Praha: Slovanské nakladatelství.

92

Adam KilgarriffLexical Computing, Brighton, United Kingdom [email protected]

Pavel RychlýLexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected]

Miloš JakubíčekLexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected]

Vojtěch KovářLexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected]

Vít SuchomelLexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected]

Jan BuštaLexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected]

Vít BaisaLexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected]

Jan MichelfeitLexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected]

93

Multilingual data processing in Sketch EngineThis paper describes several new features of Sketch Engine, the corpus ma-nagement and querying system.

Sketch Engine includes advanced support for parallel corpora. Rather than a bilingual or multilingual corpus, multilingual data are represented by a set of corpora, one for each language. The corpora are then aligned using a  special structure that maps the respective sequences of tokens (usually whole sentences) in each corpus to one another. We call this a  1:1 align-ment. However, for more than 2 languages, a more sophisticated approach is usually required. With the so-called m:n alignment, sequences of existing structures in each pair of corpora are aligned using a special configuration file (e.g. m sentences in one language to n sentences in the other). This way each translation pair can have a unique partition of the corpora and some sequences can be left untranslated in some of the languages. Regardless of the type of alignment, the aligned corpora can then be queried in parallel, yi-elding pairs of sentences matching the appropriate query for each language.

Since recently, Sketch Engine enables users to create pairs of mutually aligned corpora from TMX (Translation Memory eXchange) files automati-cally. TMX is a standardized format for the import and export of translated texts in CAT (Computer Assisted Translation) software. When imported into Sketch Engine, the languages specified in the TMX file are automatically detected and appropriate processing tools applied to the text in each langua-ge. These tools include tokenizers, lemmatizers and part of speech taggers (available for Czech, most European and several Asian languages). The re-sulting vertical files are then compiled, forming a pair of aligned corpora and enabling the user to run parallel queries on them.

Word sketches are one-page, automatic corpus-based accounts of a word‘s grammatical and collocational behaviour. Since their introduction in 1998, they have come to be widely used in lexicography, but until recently, they have only been monolingual. To satisfy a widespread demand for sketches combining data in multiple languages, we implemented three extensions of the word sketch functionality: bilingual word sketches based on comparable corpora (BIC), bilingual word sketches based on parallel corpora (BIP), and bilingual word sketches based on manual selection of headword translations (BIM). All of them are currently available in Sketch Engine, enabling the

94

users to see the collocations and grammatical behaviour of a word and its translation side by side.

Terminology extraction is a process of identifying multi-word expressions in a focus corpus that are specific to its domain. Since 2009, the Sketch Engi-ne has had a method for identifying keywords in a focus corpus in contrast to a reference corpus. This can be directly applied to multi-word expressions as well. Finding out whether a sequence of consecutive words forms a term is another problem. For use in word sketches, Sketch Engine uses a word sketch grammar to identify collocations. A special version of sketch gram-mar can be used for term finding, defining the syntactic structure of terms. The terminology extraction feature is now available in Sketch Engine for most of the languages with a PoS tagger and a large enough reference corpus (including English, German, French, Spanish, Portuguese, Russian, Chinese, Japanese, Korean and Czech).

ReferencesKilgarriff, A. (2009). Simple Maths for Keywords. Proceedings of Corpus Lin-

guistics, Liverpool.Kilgarriff, A. (2013). Terminology finding, parallel corpora and bilingual

word sketches in the Sketch Engine . ASLIB 35th Translating and the Computer conference, London.

Kilgarriff, A., Rychlý, P., Smrž P. & Tugwell, D (2004). The Sketch Engine. Proceedings of EURALEX 2004. France: Lorient, 105–116.

95

Petra KlimešováÚstav Českého národního korpusu FF UK [email protected]

Zuzana KomrskováÚstav Českého národního korpusu FF UK [email protected]

Marie KopřivováÚstav Českého národního korpusu FF UK [email protected]

David LukešÚstav Českého národního korpusu FF UK [email protected]

Cože to je? K tvaru to v mluvených korpusech ČNKMluvený jazyk má svá specifika, která vycházejí z podstaty jeho produkce a percepce. Na rozdíl od jazyka psaného má lineární povahu, plyne v čase a mluvčí nemá možnost se v něm vracet a korigovat již řečené. Co se vol-by vyjadřovacích prostředků týče, v zájmu ukotvení a propojení průběžně budovaného celku jsou častěji užívána deiktická slova, která svou endo- a exoforickou funkcí text provazují; zároveň se mluvčí často uchylují ke slo-vům výplňkovým či zástupným. Ve svém příspěvku se zaměřujeme na slovní tvar to, který ve spontánním mluveném projevu plní obě tyto funkce.

Jedná se tradičně o nejfrekventovanější tvar ve všech mluvených korpu-sech. V tabulce č. 1 uvádíme srovnání frekvence tvaru to a lemmatu a. Lem-ma a je nejčastějším lemmatem v psaných korpusech (Čermák & Křen 2004); v mluvených korpusech je tvar a na druhém místě.

  lemma / tvar a tvar to SYN2010 25 609,00 7968,40 PMK 27 093,73 36 036,00 BMK 28 424,07 38 583,31 ORAL2006 24 955,00 41 317,34

96

ORAL2008 25 384,28 40 303,48 ORAL2013 28 870,42 46 740,41

Tabulka 1. Normalizované frekvence (i.p.m.) lemmatu/tvaru a a tvaru to v psaném reprezentativním korpusu SYN2010 a v mluvených korpusech PMK, BMK, ORAL2006, ORAL2008 a ORAL2013.

Z tabulky je zřejmé, že zatímco normalizovaná frekvence (i.p.m.) lemmatu a je v mluveném i psaném jazyce podobná, frekvence tvaru to vykazuje mezi oběma typy korpusů značnou asymetrii: v mluvených korpusech se norma-lizovaná frekvence slovního tvaru to pohybuje okolo hodnoty 41 000 i.p.m.; oproti tomu celé lemma ten má v korpusu psané češtiny SYN2010 normali-zovanou frekvenci 14 211 i.p.m. (zastoupení částicového lemmatu to je zcela marginální). Jistá variabilita v rámci mluvených korpusů může být ovliv-něna jiným způsobem zápisu interpunkce (syntaktická u PMK, ORAL2006 a ORAL2008 versus pauzová u ostatních) a jiným typem promluv (součástí PMK a BMK jsou i formální komunikační situace).

Slovní tvar to je tradičně klasifikován jako zájmeno nebo částice. Užívá-ní tvaru to ve funkci částice je v mluvnicích často spojováno s vyjádřením emocionality v mluveném jazyce (viz např. Havránek a Jedlička (1960: 381): „to dnes prší“; MČ2 (Petr et al. 1986: 88)). Taková částice zpravidla stojí na začátku výpovědi. Tomuto pojetí odpovídá i morfologické značkování psa-ných korpusů: v korpusu SYN2010 výraz to najdeme označený jako částici v 3243 případech (z toho 1813 výskytů je na začátku věty); 969 495 výskytů je označeno jako zájmeno.

Kolokace s tímto výrazem v mluvených korpusech naznačují, že situace je mnohem pestřejší, výraz to tu najdeme např. ve funkci adjektiva: tak já si du vybrat nějaký pečivo normální neto, neposypaný.; či slovesa: dyž to vytočim, tak mi to, tak mi to to, chcípne. Slovesná slovnědruhová platnost je posílena i doplněním dalších slovotvorných prvků jako je negace, např. dyž sem vi-děla, furt, že se k tomu neto, tak sem popadla ten; prefix, např. no, tak já sem si to rozto a řikám. Varianty s prefixem je složité vyhledat spolehlivě, ale podobně tvořené negované varianty, jež jsou snad až na řídké formace typu netento či netoto homogennější, naznačují, že tyto slovotvo rné jevy jsou charakteristické právě pro mluvené korpusy (např. ORAL2013, 114 výskytů, normalizovaná frekvence 34,70 i.p.m.); v psaných se najdou ojedinělé výsky-ty v beletrii (např. SYN2010, 5 výskytů, normalizovaná frekvence 0,04 i.p.m.).

97

Výraz to se často vyskytuje na místech, kde mluvčí váhá, hledá vhod-né slovo a také získává čas. Levým kolokátem pak bývají slova s podobnou funkcí, jako např. no, jo nebo hezitační zvuky (hmm); případně se výraz opa-kuje (to to). Reduplikace ovšem může být pouze formální, není vždy znakem hezitace, neboť oba výskyty výrazu tu mohou mít jinou syntaktickou funkci (např. to to tam nekvalifikuje). Ve výše zmíněném slovesném užití se pak z hlediska informační struktury výpovědi výraz to vyskytuje primárně v po-zici rématu a je též projevem tápání při volbě lexika: slouží k tomu, aby se mluv čí vyhnul příliš dlouhé odmlce, když se mu nedaří vybavit si konkrétní sloveso. Na jiném místě než v jádru výpovědi se neobjevuje, respektive by působil přinejmenším nepřirozeně (srov. umělé příklady on Honzu neto, ne-našel vs. ?on neto Honzu).

Kromě zmíněných případů je slovní tvar to součástí pevných kolokací a frazémů typických pro mluvený jazyk, jako např. to pude, to nevadí, to je blbost, to je jedno, to je dobrý, nehledě na to, tak to je (srov. Čermák 2007: 365–370). Z uvedeného nástinu plyne, že to je forma pro mluvený jazyk dosti typická a zároveň funkčně mnohem rozrůzněnější, než by tomu naznačova-ly gramatické analýzy a korpusová pozorování založená na psaném jazyce. Vzhledem k tomu, že se do budoucna uvažuje o případné lemmatizaci a mor-fologickém značkování mluvených korpusů ČNK, je dobré na tato specifika spojená s jejich nejfrekventovanější formou u pozornit, buď aby byla v něja-ké podobě strojovou identifikací ošetřena, nebo aby alespoň bylo explicitně řečeno, že doplněné atributy tuto variabilitu plně nereflektují.

LiteraturaBenešová, L., Křen, M. & Waclawičová, M. (2013). ORAL2013: reprezentativ-

ní korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz

Čermák, F. & Křen, M. (2004). Frekvenční slovník češtiny. Praha: Nakladatel-ství Lidové noviny.

Čermák, F. et al. (2007). Frekvenční slovník mluvené češtiny. Praha: Karoli-num.

Český národní korpus – PMK (2001). Praha: Ústav Českého národního kor-pusu FF UK. Dostupný z WWW: http://www.korpus.cz

Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morpho-logy of Czech). Praha: Karolinum Charles University Press.

Havránek, B. & Jedlička, A. (1960). Česká mluvnice. Praha: SPN.

98

Hnátková, M. (2013). Automatická slovnědruhová desambiguace slova „to“ v ustálených větných výrazech. Korpus – gramatika – axiologie, 7. Hra-dec Králové: Nakladatelství Gaudeamus, Univerzita Hradec Králové, 22–35.

Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč, 91 (1), 13–20.

Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Ru-le-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.

Petr, J. et al. (1986). Mluvnice češtiny 2. Praha: Academia.Spoustová, D., Hajič, J., Votrubec, J., Krbec, P. & Květoň, P. (2007). The Best

of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. Proceedings of the Workshop on Balto-Slavonic Natural Langua-ge Processing, 67–74.

Šmilauer, V. (1966). Novočeská skladba. Praha: SPN.Křen, M., Bartoň, T., Cvrček, V., Hnátková, M., Jelínek, T., Kocek, J., Novotná,

R., Petkevič, V., Procházka, P., Schmiedtová, V. & Skoumalová, H. (2010). SYN2010: žánrově vyvážený korpus psané češtiny. Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz

Kopřivová, M. & Waclawičová, M. (2006). ORAL2006: korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Do-stupný z WWW: http://www.korpus.cz

Waclawičová, M., Kopřivová, M., Křen, M. & Válková, L. (2008). ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz

99

Ivana KolářováKatedra českého jazyka a literatury PedF MU [email protected]

Slovesa odvozená od adverbií jako periferie slovotvorného systému (na materiále Českého národního korpusu)Slovesa odvozená od adverbií = deadverbiální (např. oddálit, přitakat, opě-tovat) se svým počtem ve srovnání se slovesy desubstantivními, deadjektiv-ními a deinterjekčními nacházejí spíše na periferii české slovotvorné sousta-vy. Tomu odpovídá i poměrně malá pozornost, kterou jim věnují mluvnické a slovotvorné práce (Čermák 2012; Mluvnice češtiny 1; Šlosar 1981; Dokulil 1974, 1975; Šmilauer 1972; Trávníček 1948). Ovšem i krátké výklady v nich ukazují odlišné přístupy již v přiřazení některých slovesných derivátů k de-adverbiálním.

Za východisko pro interpretaci slovotvorných vlastností jednotlivých slo-ves a  jejich přiřazení k slovům deadverbiálním jsme zvolili především vy-světlení slovotvorné i významové motivace v Mluvnici češtiny 1 (1986: 415), v níž jsou za deadverbiální považována slovesa s významem „dělat něco tak, jak označuje základové adverbium“, „probíhat tak, jak označuje základové adverbium“. Pak autoři Mluvnice češtiny 1 považují za odvozená od adverbií např. sloveso zpomalit, oddálit, opozdit, přitakat, opětovat a na základě toho je možné přiřadit k nim další: pospíšit si, přiblížit, unáhlit se, venčit. Nejvíce příkladů deadverbiálních sloves uvádí Šmilauer (1972: 183), mezi nimi ovšem i slovesa odvozená od adverbií archaických a zřídka užívaných: příčit/příčit se (od adverbia příč), popř. slovesa, jejichž potenciální základová adverbia v textech současné češtiny nenajdeme vůbec: např. sloveso peskovat spojuje s adverbiem pesky, které není doloženo ani v korpusech češtiny současné, ani v korpusu DIAKORP. Deadverbiální původ přisuzuje Šmilauer též slo-vesu opakovat, jehož základové slovo opak je ve Slovníku spisovného jazyka českého (SSJČ) i v Příručním slovníku jazyka českého hodnoceno jako sub-stantivum, a významy slov opak a slovesa opakovat spolu v současné češtině již nesouvisejí. Proto se slovesem opakovat nezabýváme, stejně jako slovesy zdvojnásobit, ztrojnásobit, která za deadverbiální považuje Trávníček (1948: 174), neboť slova dvojnásob, trojnásob hodnotí jako příslovce. V nejnovějších

100

mluvnických pracích jsou však řazena k číslovkám, resp. k „číslovkám ad-verbiální povahy“ (Akademická gramatika spisovné češtiny, s. 423).Naše dřívější analýzy deadverbiálních sloves v Českém národním korpusu ukázaly následující:

(1) Deadverbiální slovesa jsou tvořena stejně jako slovesa desubstantivní a deadjektivní: konverzí i cirkumfixací. Zatímco konverze kmenotvorný-mi sufixy se uplatňuje zřídka (viz a), cirkumfixace je výrazně častější (srov. b):(a) slovesa tvořená kmenovými sufixy:

 -i- venčit, příčit, příčit se  -ova- opětovat

(b) slovesa tvořená cirkumfixy:

• prefix + -i-o- + -i- opozdit se od- + -i- oddálit           

po- + -i- pospíšit si, ponáhlit se pře + -i- přenáhlit se

při- + -i- přiblížit, přispíšit si u- + -i- unáhlit se, upřílišit, uspíšit

vz- + -i- vzdálit, vzdálit se, vzpříčit se za + -i- zapříčit se

z- + -i- zpomalit, zpozdit, zpozdit se    

• prefix + -a-

po- + -a- potakat při- + -i- přitakat

o- + -a- uondat     

(2) Co se týká četnosti výskytu deadverbiálních sloves, některá z nich jsou velmi frekventovaná (doložená i v několika desítkách tisíc dokladů), např. přiblížit, vzdálit se, zpomalit…, jiná mají spíše nižší frekvenci (jsou do-ložená pouze v desítkách dokladů), např. připozdit se, přispíšit, a některá jsou doložena zřídka nebo ojediněle, např. přenáhlit se, ponáhlit se, potakat, upří-lišit. Není neobvyklé, že od jednoho adverbia vznikají jak slovesa doložená v počtu několika tisíc i minimálně (srov. např. frekventované slovesa unáhlit se, přitakat a minimálně doložená ponáhlit se, potakat).

(3) Stylově patří deadverbiální slovesa nejčastěji k bezpříznakovým, ne-chybějí však mezi nimi na jedné straně archaismy (potakat), výrazy působící

101

jako knižní (opětovat), a na straně druhé slovesa hovorová (venčit), popř. vý-razněji expresivní (uondat).

Zdrojem pro vyhledávání dokladů je korpus psaných textů SYN, popř. využijeme některý z korpusů dalších: KSK dopisy, LINK nebo SKRIPT2012.

 Cílem stati není pouze upřesnění a ověření již zjištěných vlastností de-

adverbiálních sloves: frekvence v Českém národním korpusu, jejich slovo-tvorných a významových vlastností na základě užití v korpusových textech různých stylových sfér a různých žánrů. Prostřednictvím důkladnější korpu-sové sondy se pokusíme především:

• odlišit slovesa skutečně užívaná od  sloves, jejichž existence je spíše hypotetická, tj. doložených např. jen jako předmět výkladu v lingvis-tických textech (upřílišit);

• na bázi analýzy konkrétních dokladů srovnat aktuální významy, kte-rých deadverbiální slovesa nabývají v současných textech, s významy, který jim přisuzují SSJČ (1989) a mluvnické a slovotvorné práce, even-tuálně srovnání četnosti užití ve významu základním spojeném přímo s významem základového adverbia a ve významu přeneseného pojme-nování (např. při dřívějších analýzách jsme již zjistili, že u slovesa příčit se jednoznačně převažuje užití ve  funkci přeneseného pojmenování, zatímco vzpříčit se, zapříčit se užívají ve významu souvisejícím s pro-storovým významem archaického adverbia příč);

• v některých případech vysledovat vázanost slovesa na určitý typ věty (např. dřívější korpusové sondy ukázaly, že sloveso připozdit se je dolo-ženo výhradně ve větách bezpodmětových).

LiteraturaČermák, F. (2012). Morfématika a slovotvorba češtiny. Praha: Nakladatelství

Lidové noviny.Dokulil, M. (1974). Dva příspěvky k odvozování sloves. Naše řeč, 65, 1–11.Machek, V. (1971). Etymologický slovník jazyka českého. Praha: Academia.Mluvnice češtiny 1. (1985). Praha: Academia.Slovník spisovného jazyka českého I-VIII. (1989). Praha: Academia.Šmilauer, V. (1972). Novočeské tvoření slov. Praha: SPN.

102

Štícha F. (2008). Usage, frequency and grammaticality. In F. Štícha, & M. Fri-ed (Eds.), Grammar & Corpora / Gramatika a korpus 2007. Praha: Aca-demia, 285–292.

Štícha, F. et al. (2013) Akademická gramatika spisovné češtiny. Praha: Aca-demia.

Trávníček, F. (1948). Mluvnice spisovné češtiny I. Hláskosloví – Tvoření slov – Tvarosloví. Praha: Melantrich.

Veronika KolářováÚstav formální a aplikované lingvistiky MFF UK [email protected]

Preference v souvýskytu aktantů u českých substantiv mluveníVedle tzv. korpusově řízené analýzy, která se zaměřuje na frekvenčně pojaté pásmo substantiv a zdůrazňuje spíše lexikologické aspekty valence (Čermáko-vá 2009), je možné k problematice valence substantiv přistupovat z hlediska syntaktického. Tento příspěvek navazuje na valenční teorii funkčního genera-tivního popisu (FGP; Panevová 1980; Panevová 2002; Kolářová 2010). Obdobně jako u sloves (Daneš & Hlavsa et al. 1987; Kettnerová, Lopatková & Hrstková 2008), i u substantiv se dá vypozorovat, že lexikální jednotky spadající do jed-né sémantické skupiny vykazují obdobné valenční chování, projevující se ze-jména v počtu, povaze a sémantické charakteristice argumentů, v některých případech i v jejich formách. Substantiva mluvení mají tři argumenty (aktanty, popř. sémantické participanty Mluvčí, Informace a Příjemce), v FGP označova-né nejčastěji funktory Aktor (ACT), Patiens (PAT) a Adresát (ADDR). Korpusy jsou nezastupitelné v případě, kdy chceme zjistit frekvenci jednotlivých forem aktantů, případně preferované kombinace aktantů.

Souvýskytu jednotlivých aktantů u  substantiv spadajících do  jedné sé-mantické skupiny byla dosud věnována zcela minimální pozornost. Bekaert

103

a Enghels (v tisku) sledují četnosti kombinací aktantů u nominalizací špa-nělských sloves vnímání (3 substantiva zrakového vnímání, 3 substantiva sluchového vnímání). Kolářová (2010) srovnává valenční chování vzorku substantiv dávání (16 substantiv) a substantiv mluvení (22 substantiv, dále „vzorek_2010“) odvozených od sloves s Adresátem v dativu. Na základě dat ze subkorpusu SYN2000 konstatuje, že zatímco u substantiv mluvení je rela-tivní četnost kombinace ACT+ADDR jen zhruba o polovinu menší než rela-tivní četnost kombinace PAT+ADDR (viz tabulka č. 2), u substantiv dávání je výskyt kombinace ACT+ADDR téměř nulový.

V  tomto příspěvku chceme ověřit hypotézu, že nezanedbatelný výskyt Mluvčího je vlastností charakteristickou nejen pro vzorek_2010, ale i  pro další typy substantiv mluvení. Bylo vytipováno dalších 32 substantiv tak, aby byly zastoupeny všechny podskupiny substantiv mluvení, přičemž hle-diskem třídění je forma Adresátu u základového slovesa (tj. dativ, akuzativ, genitiv a předložková skupina, PS). Do tohoto vzorku byla zahrnuta jak ver-bální substantiva (VS, např. dotazování se), tak dějová substantiva (DS, např. dotaz). Jako základnu pro vytvoření seznamu substantiv jsme využili převáž-ně slovesa uvedená ve valenčním slovníku VALLEX (class: communication). Přehled zkoumaných substantiv znázorňuje tabulka č. 1. Při započítání vzor-ku_2010 je celkový počet zkoumaných substantiv mluvení 54.

Forma ADDR Počet a typ zkoumaných substantivPříklady

Sloveso Substantivum Verbální substantiva

Dějová substantiva Celkem

Ak Gen / Dat 4 9 13 upozornění, výzva

Gen Gen / Dat 6 2 8 vyptávání se, otázka

PS PS 3 3 6 povídání si, rozhovor

Dat Dat 2 3 5 odpovídání, pohrůžka

Dat

(vzorek_2010)Dat 11 11 22 doporučení,

nabídka

  Celkem: 26 28 54  Tabulka č. 1: Přehled zkoumaných substantiv mluvení

104

Při porovnání výskytu kombinace ACT+ADDR a kombinace PAT+ADDR u zkoumaných substantiv byla použita stejná metoda jako u Kolářové (2010). Jako základní korpus byl použit SYN2000; v případě nulového počtu dokladů byly použity subkorpusy SYN2005 a SYN2010. Pro jednotlivá substantiva byly vyhledány všechny jejich doklady s Adresátem (tedy i doklady, kde je vyjádřen pouze ADDR); mezi těmito doklady byly následně vyhledány všechny doklady různých slovosledných variant kombinací PAT+ADDR (např. dotazování se vo-ličů.ADDR, koho by volili.PAT), ACT+ADDR (např. povídání si rodičů.ACT s dí-tětem.ADDR), případně ACT+PAT+ADDR (např. její.ACT rozhovory s Izraelem.ADDR o okupovaných Golanských výšinách.PAT). Pro substantiva s ADDR vy-jádřeným předložkovou skupinou byla použita série různých dotazů, pro sub-stantiva s ADDR v genitivu nebo dativu byl použit dotaz ([lemma=“lemma_substantiva“] [!(tag=“[Z|R|V|J].*“)]{0,4} [tag=“N…[2|3].*“]). Všechny nalezené doklady byly manuálně zkontrolovány. Absolutní četnosti (AbsČ) a relativní četnosti (Rel_ADDR, tj. AbsČ kombinace aktantů ku AbsČ celkového výskytu ADDR) pro jednotlivé podskupiny substantiv jsou uvedeny v tabulce č. 2.

Tabulka č. 2: Přehled absolutních a relativních četností souvýskytu aktantů 

Forma ADDRu slovesa

Typ

subs

tant

iva ADDR

celkem:

AbsČ

PAT+ADDR ACT+ADDR ACT+PAT+ADDR

AbsČ Rel_ADDR(%)

AbsČ Rel_ADDR(%)

AbsČ Rel_ADDR(%)

Ak VS 150 34 22,67 7 4,67 1 0,67DS 402 135 33,58 35 8,71 19 4,73

Gen VS 31 8 25,81 0 0 0 0DS 22 4 18,18 3 13,64 0 0

PS VS 77 2 2,6 5 6,49 1 1,3DS 4313 98 2,27 442 10,25 12 0,28

Dat VS 15 6 40,00 1 6,67 0 0DS 117 5 4,27 41 35,04 3 2,56

Dat(vzorek_2010)

VS 151 58 38,41 22 14,57 7 4,64DS 369 105 28,46 58 15,72 20 5,42

Celkem VS 424 108 25,47 35 8,26 9 2,12

DS 5223 347 6,64 579 11,09 54 1,03

105

Závěr: Zpracování dokladů dalších podskupin substantiv mluvení uká-zalo, že se jednotlivé podskupiny co do preferencí v souvýskytu aktantů liší (nejvýraznější je nízká relativní četnost kombinace PAT+ADDR u substantiv s ADDR ve formě PS). Relativní četnost kombinace ACT+ADDR sice v celko-vých průměrných hodnotách klesla zhruba o 5 procent (srovnáváme řádky „Dat (vzorek_2010)“ a „Celkem“), i tak je však možné konstatovat, že vyjád-ření Mluvčího (ACT) v souvýskytu s Adresátem není pro substantiva mluve-ní zanedbatelné, u některých dějových substantiv tato kombinace dokonce převažuje nad kombinací PAT+ADDR. Zdá se, že tato vlastnost odlišuje sub-stantiva mluvení od některých jiných sémantických tříd, např. od substantiv dávání.

LiteraturaBekaert, E. & Enghels, R. (2014). Nominalizations of Spanish perception

verbs at the syntax-semantics interface. In O. Spevak (Ed.), Noun Valen-cy. Studies in Language Companion Series. Amsterdam: John Benjamins.

Čermáková, A. (2009). Valence českých substantiv. Praha: Nakladatelství Li-dové noviny.

Český národní korpus – SYN2000. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: <http://www.korpus.cz>.

Český národní korpus – SYN2005. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: <http://www.korpus.cz>.

Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.

Daneš, F., Hlavsa, Z. et al. (1987). Větné vzorce v češtině. Praha: Academia.Kettnerová, V. , Lopatková, M. & Hrstková, K. (2008). Semantic Classes in Czech

Valency Lexicon: Verbs of Communication and Verbs of Exchange. In Lecture Notes in Computer Science, Vol. 5246, Proceedings of the 11th In-ternational Conference, TSD 2008. Berlin / Heidelberg: Springer, 109–116.

Kolářová, V. (2010). Valence deverbativních substantiv v češtině (na materiá-lu substantiv s dativní valencí). Praha: Karolinum.

Panevová, J. (1980). Formy a funkce ve stavbě české věty. Praha: Academia.Panevová, J. (2002). K valenci substantiv (s ohledem na jejich derivaci). Zbor-

nik Matice srpske za slavistiku 61, 29–36.VALLEX: Valency Lexicon of Czech Verbs. Dostupný z WWW: <http://ufal.

mff.cuni.cz/vallex/>

106

Pavel KosekÚstav českého jazyka FF MU [email protected]

Vývoj slovosledu kondicionálového auxiliáru v češtiněJak napovídá název, cílem příspěvku je prozkoumat vývoj slovosledu kon-dicionálového auxiliáru (AUXK) ve vývoji češtiny typu nesl bych, nesl by/nesl bys/ nesl by sis, nesl by, nesli bychom, nesli byste, nesli by. Tímto příspěv-kem navazuji na analýzu slovosledu auxiliárních forem, kterou jsem provedl na materiálu barokní češtiny (Kosek 2011).

Podle dosavadních znalostí o historické syntaxi češtiny (Gebauer 1929; Trávníček 1935, 1956) lze předpokládat, že na vývoj slovosledu AUXK měly vliv následující faktory:

a. původně přízvučné tvary AUXK se proměnily na formy plně enklitic-ké;

b. tato změna nejspíše souvisela s  procesem reanalýzy časového vý-znamu praslovanského plusquamperfekta a  jeho následné proměny ve kondicionál (tj. změna slovosledných vlastností AUXK byla spjata s procesem gramatikalizace);

c. vývoj českých enklitik se vyznačoval konkurencí postiniciálního (tzv. 2P pozice) a kontaktního slovosledu (tzv. VA pozice).

V současnosti stále scházejí konkrétní materiálově založené analýzy slo-vosledu AUXK, které by zkoumaly vliv těchto faktorů na vývoj AUXK  ve vý-voji češtiny (s některými výjimkami, jako např. Prejzová (2013)). Cílem plá-novaného příspěvku je tedy analyzovat, jak se jmenované faktory uplatňují ve slovosledu AUXK ve starších fázích češtiny. Při analýze vývoje slovosledu AUXK v dějinách češtiny je kvůli množství pramenů nutno provést redukci zkoumaných textů; práci s prameny bohužel komplikuje fakt, že současné diachronní korpusy se zatím vyznačují různou mírou reprezentativnosti (Staročeská textová banka obsahuje pouze texty vzniklé před rokem 1500, DIAKORP obsahuje velmi málo textů). Vzhledem k tomu, že pro jednotlivá období jsou zpravidla doloženy rozdílné typy (žánry) textů, je obtížné vybrat takové prameny, jejichž data by bylo možno validně statisticky porovnávat. Naštěstí je pro dějiny češtiny k dispozici pramen, který je textově ustálený

107

a který byl v  jednotlivých vývojových fázích jazykově upravován/adapto-ván: text Bible. Nicméně data obsažená v  jednotlivých biblických textech je nutno přijímat kriticky, jelikož jde o pramen velmi specifický, zejména proto, že jeho jazyk podléhá vysoké míře stylizace.

Chystaný příspěvek je založen na  rozboru jazyka Matoušova evangelia v reprezentativních biblických překladech: Bibli drážďanské, Bibli olomoucké, Bibli mlynářčině, Bibli benátské, Bibli Melantrichově, Bibli kralické, Bibli sva-továclavské, ekumenickém překladu a Českém studijním překladu bible. Pro tyto účely byl vytvořen soukromý korpus přepisů této novozákonní knihy. Provedená analýza se stane základem budoucího výzkumu vývoje slovosle-du AUXK v dalších památkách starších vývojových fází češtiny.

LiteraturaAnderson, S. R. (1993). Wackernagel’s revenge: Clitics, morphology, and the

syntax of second position. Language, 69, 68–98.Avgustinova, T. & Oliva, K. (1995). Wackernagel position and related pheno-

mena in Czech. Wiener Slavistisches Jahrbuch, 41, 21–42.Berneker, E. (1900). Die Wortfolge in den slavischen Sprachen. Berlin: B.

Behr’s Verlag.Daneš, F. (1957). Intonace a věta ve spisovné češtině. Praha: Nakladatelství

ČSAV.Dostál, A. (1967). Historická mluvnice česká II. Tvarosloví 2. Časování. Pra-

ha: SPN.Ertl, V. (1924). Příspěvek k pravidlu o postavení příklonek. Naše řeč, 8, 257–

268, 293–309.Esvan, F. (1997). Několik poznámek o tzv. rytmickém činiteli. SPFFBU, A 45,

1997, 85–93.Esvan, F. (2000). Česká klitika z hlediska typologického. In Z. Hladká & P.

Karlík (Eds.), Čeština – univerzália a specifika, 2. Brno: MU, 141–147.Flajšhans, V. (1923). K výkladům o postavení slov příklonných. Naše řeč, 7,

297–298.Franks, S. & King, T. H. (2000). A Handbook of Slavic Clitics. Oxford: Oxford

University Press.Fried, M. (1994). Second-Position Clitics in Czech: Syntactic or Phonologi-

cal? Lingua, 94, 155–175.Gebauer, J. (1929). Historická mluvnice jazyka českého IV. Skladba (F. Tráv-

níček (Ed.)). Praha: ČAVU.

108

Gebauer, J. (1958). Historická mluvnice jazyka českého III/1. Tvarosloví – ča-sování. 2. vyd., Praha: ČSAV.

Halpern, A. (1995). On the Placement and Morphology of Clitics. Stanford CA: CSLI Publications.

Halpern, A. (1998). Clitics. In A. Spencer & A. M. Zwicky (Eds.), The Hand-book of Morphology. Oxford: Blackwell Publishers Ltd.

Junghanns, U. (2002). Klitische Elemente im Tschechischen: eine kritische Bestandaunahme. In Th. Daiber (Ed.), Linguistische Beiträge zur Slavis-tik IX. München, 117–150.

Klavans, L. J. (1985). The Independence of Syntax and Phonology in Clitici-zation. Language, 61, 95–120.

Kosek, P. (2010). Slovosled kondicionálového auxiliáru v „Bibli svatováclav-ské“. In Bičan, et al. (eds.), Karlík a  továrna na  lingvistiku. Prof. Petru Karlíkovi k šedesátým narozeninám. Brno: Host – MU, 205–229.

Kosek, P. (2011). Enklitika češtině barokní doby. Brno: MU–Host.Kosek, P. (2012). Word Order of Conditional Auxiliary Clitics in the Czech

Language of the Baroque Period. In M. Ziková & M. Dočekal (Eds.), Sla-vic Languages in Formal Grammar. Proceedings of FDSL 8.5, Brno 2010. Frankfurt am Main et al.: Peter Lang, 100–118.

Kosta, P. & Schürcks, L. (2009). Word order in Slavic. In S. Kempgen, P. Kos-ta, T. Berger & K. Gutschmidt (Eds.), Die slavischen Sprachen. The Slvic Languages. Walter de Gruyter: Berlin / New York, 654–683.

Lamprecht, A., Šlosar, D. & Bauer, J. (1986). Historická mluvnice češtiny. Pra-ha: SPN.

Lešnerová, Š. (2002). Postavení příklonky „se“ v  textu Kryštofa Haranta „Cesta z Království českého… do Země svaté…“. In Z. Hladká & P. Kar-lík (Eds.), Čeština – univerzália a specifika, 4. Brno: MU, 325–327.

Migdalski, K. (2009). On two types of Wackernagel cliticization in Slavic. In J. Reich, M. Babyonyshev & D. Kavitskaya (Eds.), Formal Approaches to Slavic Linguistics: The Yale Meeting. Ann Arbor: Michigan Slavic Publi-cations, 147–162.

Migdalski, K. (2010). On the relation between V2 and the second position cliticization. Lingua, 120, 329–353.

Palková, Z. (1994). Fonetika a fonologie češtiny. Praha: Karolinum.Pancheva, R. (2005). The rise and fall of second-position clitics. Natural Lan-

guage and Linguistic Theory, 23, 103–167.

109

Prejzová, L. (2013). Slovosled kondicionálového kondicionálu ve staré češti-ně. (Diplomová práce) Brno: MU.

Svoboda, A. (1984). České slovosledné pozice z pohledu aktuálního členění. Slovo a slovesnost, 45, 22–34, 88–103.

Svoboda, A. (2000). Klitika z  hlediska funkční větné perspektivy (I). In P. Karlík & Z. Hladká (Eds.), Čeština – univerzália a specifika, 2. Brno: MU, 149–159.

Svoboda, A. (2001). Klitika z hlediska funkční větné perspektivy (II). In P. Karlík & Z. Hladká (Eds.), Čeština – univerzália a specifika, 3. Brno: MU, 149–159.

Šlosar, D. (1967). Poloha enklitik jako kritérion k hodnocení staročeské inter-punkce. Listy filologické, 91, 251–258.

Toman, J. (2004). Ertlova diskuse českých klitik. In Z. Hladká & P. Kar-lík (Eds.), Čeština – univerzália a specifika, 5. Brno: Nakladatelství Li-dové noviny, 73–79.

Trávníček, F. (1935). Historická mluvnice československá. Praha: Melantrich.Uhlířová, L. (2011–2012). Obštnost i mnogoobrazie na slovoreda na klitikite

(săpostavitelno izsledvane na bălgarskija i češkija ezik). Săpostavitelno ezikoznanie, 36, Čast I., 2011, 5–17; Čast II., 20–31; Čast III, 5-16, 37; Čast IV, 5–11.

Večerka, R. (1989). Altkirchenslavische (Altbulgarische) Syntax I, Die lineare Satzorganisation. Freiburg i. Br: Weiher.

Wackernagel, J. (1892). Über ein Gesetz der indogermanischen Wortstellung. Indogermanische Forschungen, 1, 393–436.

Zikánová, Š. (2009). Postavení slovesného přísudku ve starší češtině (1500–1620). Praha: Karolinum.

Zwicky, A. (1977). On Clitics. Bloomington: Indiana University Linguistics Club.

Zwicky. A. (1994). What is a clitic. In J. A. Nevis, B. D. Joseph, D. Wanner & A. M. Zwicky (Eds.), Clitics. A comprehensive bibliography 1892–1991. Amsterdam: John Benjamins Publishing, 12–20.

Zwicky, M. A. & Pullum, K. G. (1983). Cliticization vs. inflection: the case of English „n’t“. Language, 59, 502–513.

110

Dominika KováříkováÚstav Českého národního korpusu FF UK [email protected]

Slovní druhy v mluvené a psané češtiněKorpusy neformální mluvené češtiny (řada ORAL) umožňují díky své dosta-tečné velikosti popis mluvené češtiny v míře, která donedávna byla jen těžko představitelná. Zvláště korpus ORAL (bez přívlastku, zatím nedostupný pro veřejnost), který vznikl sloučením korpusů ORAL2006 a ORAL2008 a je lem-matizovaný a morfologicky označkovaný, je cenným nástrojem pro výzkum gramatiky mluvené češtiny i její slovní zásoby.

Mluvená čeština nebyla zatím z hlediska gramatiky ani slovní zásoby sys-tematicky popsána. Morfologie mluvené češtiny je alespoň z frekvenčního pohledu podrobně zpracována v knize J. Šonkové (2008) (na ručně označ-kovaném Pražském mluveném korpusu). K popisu gramatiky mluvené češ-tiny se do určité míry přibližuje Mluvnice současné češtiny (Cvrček et al. 2010), která bere mluvený jazyk v úvahu a uvádí údaje o slovních tvarech v psaných i mluvených textech, nejfrekventovanějších zástupcích jednotli-vých slovních druhů atp. Detailně zpracovaný je výsek problematiky slov-ní zásoby ve Slovníku české frazeologie a idiomatiky (Čermák et al. 2009), který zpracovává frazémy jak v psané, tak v mluvené češtině. Za zmínku stojí i sbírka studií Čeština v mluveném korpusu (Kopřivová & Waclawičová 2008), která ovšem není pojata jako celistvější popis.

Prvotním impulsem k  předkládané studii je úmysl zkoumat mluvenou češtinu skutečně systematicky (například zpracováním mluvnice mluvené češtiny), tedy nikoli jen okrajově (vedle psané češtiny) nebo jen s úzkým zaměřením na jeden jev nebo jeden úhel pohledu. Takový ucelený výzkum vyžaduje zjistit, jaké jsou možnosti a jakým směrem zaměřit pozornost, a to především proto, aby nešlo pouze o zkoumání založené na šabloně popisu psaného jazyka.

Studie se soustředí na slovní druhy v mluvené a psané češtině (korpusy ORAL a SYN2010), a detailněji pak v různých typech textu: v mluvené češti-ně, v beletrii (próze), v publicistice a v akademických textech (podle Bibera, 1999). Srovnává počet textových pozic přináležejících k jednotlivým slovním druhům, stejně jako počty lemmat ve slovních druzích. Už tato základní ana-lýza poskytuje cenné informace o tom, které oblasti mluvené češtiny vyža-

111

dují naši výzkumnou pozornost více než jiné. Jde např. o takové jevy, jako je výrazně vyšší počet textových pozic obsazených zájmeny nebo částicemi v mluvené češtině (oproti psané), nebo nízké procento podstatných a přídav-ných jmen v textech korpusu ORAL oproti korpusu SYN2010.

Následný pohled na nejfrekventovanější zástupce (lemmata i slovní tvary) jednotlivých slovních druhů pak přináší možnosti interpretace takovýchto významných rozdílů mezi mluvenou a psanou češtinou. Mezi nejfrekvento-vanějšími lemmaty v jednotlivých slovních druzích jsou zároveň často slova, kterým by měla být věnována zvláštní pozornost. Jde o slova s neobvyklým chováním, např. problematicky zařaditelná k určitému slovnímu druhu (rád, každý, všichni, sám, druhý, už), slova deiktická tvořící zvláštní skupinu, již lze vydělit ze slovních druhů (a slova s nimi sdílející určité formální rysy: ně/jaký/si, ně/který/koli apod.), zájmeno ten, které v mluvené češtině často plní funkci podobnou členu určitého (Chlumská & Kováříková 2010), případně vysoce frekventovaná sémanticky vyprázdněná slova výplňová, která jsou typická právě pro mluvenou češtinu (jako, vlastně, prostě). I těmto slovům či skupinám slov se studie bude v krátkosti věnovat.

Právě takovýto výzkum, zaměřený spíše široce, tedy nikoli do hloubky a do podrobností sledující jeden vybraný jev, může být předstupněm ucele-nější a daleko podrobněji zpracované analýzy mluveného jazyka.

LiteraturaBiber, D. et al. (1999). Longman Grammar of Spoken and Written English.

Harlow: Pearson Education.Cvrček, V. et al. (2010). Mluvnice současné češtiny. Praha: Karolinum.Čermák, F. et al. (2009). Slovník české frazeologie a idimoatiky I.-IV (2. vy-

dání). Praha: Leda.Chlumská, L. & Kováříková, D. (2010). The Reflection of Linguistic Tradition

in Translation. In F. Čermák, P.  Corness & A. Klégr (Eds.), Intercorp: Exploring a Multilingual Corpus. Praha: NLN/ÚČNK.

Kopřivová, M. & Waclawičová, M. (Eds.) (2008). Čeština v mluveném korpu-su. Praha: NLN/ÚČNK.

Šonková, J. (2008). Morfologie mluvené češtiny: Frekvenční analýza. Praha: NLN/ÚČNK.

112

Boris LehečkaÚstav pro jazyk český AV ČR [email protected]

Obsah a značkování diachronního korpusu češtinyPříspěvek se zamýšlí nad obsahem zdrojových dat a metadat diachronního korpusu češtiny i nad funkčností korpusových manažerů, aby byly v co nej-větší míře splněny základní požadavky kladené na korpusy: autenticita textů a jednoduché vyhledávání. Návrhy vycházejí z analýzy DIAKORPu, který je součástí diachronní složky Českého národního korpusu, a  staročeské tex-tové banky, jež vzniká v oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i.

Diachronní korpusy mají v  korpusové lingvistice výjimečné postavení: jejich příprava není snadná, neboť je tvoří texty, na něž nelze uplatnit mo-derní způsoby digitalizace (např. OCR). Tyto prameny musí připravit dia-chronně orientovaný editor, který v případě nečitelného nebo porušeného textu problematické místo emenduje, čímž narušuje jeho autenticitu. DIA-KORP na tyto případy upozorňuje pomocí dvojice kódů, která se uživatelům i korpusovému manažeru jeví jako základní text (např. <e> a </e>), i když jde o metadata (informace přidané editorem k původnímu textu). V důsledku toho se navyšuje počet pozic, respektive slov, daného korpusu, a  to nejen o počet samotných značek, ale i o výrazy uvedené mezi těmito značkami. Navíc tyto údaje ovlivňují např. řazení v konkordanci. Staročeská textová banka tyto informace uvádí adekvátnějším způsobem, tedy v  komentáři k tokenu, takže údaj není na první pohled patrný, ale zobrazí se na vyžádání.

Pozornost si v případě diachronních korpusů dále zaslouží cizojazyčný text, který bývá součástí textu staročeského. Jak DIAKORP, tak staročeská textová banka na  tyto „nečeské“ výrazy upozorňují (pomocí značky <o>, resp. komentáře), korpusové manažery však s  touto informací nepočítají a  při hledání se prohledává jak český, tak cizojazyčný text (viz např. vý-sledky hledání výrazu pes). Cizojazyčný text by měl být explicite označen pomocí atributu, aby jej manažery mohly z vyhledávání vyřadit.

Obdobný problém je potřeba řešit u tzv. mladších přípisků, které se v tex-tu objevily dlouho po vzniku základního textu pramene. Není-li takový pří-pisek nijak označen, stane se nedílnou součástí hlavního textu a zkreslí tím informace o  jazyce daného období. DIAKORP i  staročeská textová banka

113

takové přípisky ve zdrojových datech pro korpus vypouštějí. Tím se ovšem narušuje autenticita textu (tj. podoba, v níž byl pramen reflektován čtenáři). Pokud se mají mladší přípisky stát součástí korpusu, bude nutné označit jednotlivé připsané výrazy dobou svého vzniku, aby na ně bylo možné apli-kovat filtrační kritéria doby vzniku.

Speciální zacházení si zaslouží rovněž přípisky soudobé, které vznikly ve  stejné, popř. časově ne tak vzdálené době jako základní text pramene. Pokud netvoří organickou součást textu (např. v případě doplnění vynecha-ných slov), musí editor rozhodnout o umístění přípisku (podle smyslu nebo podle místa připsání), což může v některých případech vést k narušení větné stavby a k vytváření neobvyklých kolokací (se základním textem). Řešení tohoto problému vyžaduje další diskusi a spolupráci na straně editorů a kor-pusových manažerů.

Jedním z obvyklých korpusových dotazů bývá hledání všech tvarů jedno-ho lemmatu, čemuž napomáhá lemmatizace korpusových dat. U diachron-ních korpusů se problém, jak zjednodušit hledání různých hláskoslovných podob téhož lemmatu (např. kóň, kouň, kůň), řeší pomocí tzv. hyperlemmatu. Pracovníci ÚČNK počítají s uváděním hyperlemmatu v hláskoslovné podo-bě, která má co nejblíž současné češtině (tj. kůň); pracovníci ÚJČ naproti tomu pro hyperlemma zvolili podobu nejstarší, tj. ve formě k roku 1300 (tedy kóň). Obě varianty mají své opodstatnění, a jako vhodné se proto jeví uvádět u tokenu dvě hyperlemmata: historické a moderní.

Poslední bod hodný pozornosti je značkování hláskoslovných změn pro-běhnuvších na určitém tokenu. Při lemmatizaci, která reflektuje rovněž hlás-koslovný vývoj jazykových jednotek, by zejména pro starší vývojové fáze jazyka bylo vhodné zaznamenávat, k jakým hláskoslovným změnám došlo. V tomto případě je potřeba zaznamenat, nejen k jaké změně došlo, ale rovněž na jakém místě (v rámci jednoho výrazu mohla tatáž změna nastat i nena-stat, např. dóstoujenstvie).

Příspěvek popisuje přednosti i  nedostatky současných řešení v  uvede-ných aspektech diachronních korpusů, případně navrhuje výhodnější řešení s ohledem na sledovaná kritéria, totiž autenticitu textů a jednoduchost vy-hledávání.

114

LiteraturaČerná, A. M. & Lehečka, B. (2012). Elektronická příprava a publikace starších

českých textů. In Čeština v pohledu synchronním a diachronním: stoleté kořeny Ústavu pro jazyk český. Vyd. 1. Praha: Karolinum, 265–269.

Český národní korpus - DIAKORP. Ústav českého národního korpusu FF UK, Praha. Cit. 8. 2. 2014. Dostupný z WWW: <www.korpus.cz>

Stluka, M. (2010). Zpracování jednotlivých pravopisných systémů v  rám-ci diachronní složky Českého národního korpusu. In M. Čornejová, L. Rychnovská & J. Zemanová (Eds.), Dějiny českého pravopisu (do r. 1902): sborník příspěvků z mezinárodní konference Dějiny českého pravopisu (do r. 1902) 23.–25. září 2010, Brno, Česká republika. Brno: Host; Masa-rykova univerzita, 435–448.

Staročeská textová banka [on-line]. Citováno dne 8. 2. 2014. Oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i. Dostupná na <http://voka-bular.ujc.cas.cz/banka.aspx>.

Eva LehečkováÚstav českého jazyka a teorie komunikace FF UK [email protected]

Konstrukční specifika dvou sémantických typů obouvidových sloves v češtiněObouvidová slovesa (dále OS) v češtině představují neprototypickou mno-žinu sloves: nemají právě jednu vidovou hodnotu (dokonavý–nedokonavý), nýbrž mohou nabývat hodnot obou. Až na několik málo původních českých sloves sestává jádro subsystému z  neprefigovaných sloves cizího původu tvořených pomocí kmenotvorného sufixu -ova- (např. rezervovat, analy-zovat, identifikovat, expandovat, renovovat). Že je tato funkční podvojnost z dlouhodobého hlediska v systému češtiny neudržitelná, ukazují výzkumy sledující adaptaci OS v českém slovesném subsystému, viz např. Lebeďová

115

(1980, 1984), Komárek (1984) či nověji Jindra (2008). Obouvidová slovesa se v české lingvistice nazírají nikoliv jako jeden lexém, ale jako dvě samostatná, homonymní paradigmata (Kopečný 1962, Veselý 2008). V návaznosti na ten-to pohled Chromý a  Lehečková (připr.) stanovují hypotézu, že (systémo-vě) OS nejsou v  konkrétním užití, tedy v  určitém jazykovém a  situačním kontextu, nikdy interpretována jako obouvidová, ale vždy mají pouze jednu preferovanou interpretaci, a to buď dokonavou, nebo nedokonavou. Jedno-značná interpretace obouvidového slovesa v kontextu je ovlivněna například strukturními faktory, jako je hodnota gramatického času, gramatické číslo a  reference (specifická vs. generická) subjektu či objektu daného slovesa, přítomnost negace či sémantickými faktory určujícími vnitřní průběh děje (aktionsart) slovesa.

Tento příspěvek zkoumá vliv sémantického rysu durativnost/momen-tánnost (resp. v  klasifikaci navržené Vendlerem (1967) dichotomii accom-plishments vs. achievements) na užívání přejatých neprefigovaných OS za-končených na -ovat. Dotazníkový průzkum představený ve studii Chromý a Lehečková ukázal, že tato dichotomie může hrát v distribuci OS určitou roli a že může odpovídat za některé rozdíly v  interpretaci jednotlivých sloves. Durativnost/momentánnost je jedním z hlavních rysů slovesné sémantiky, který zasahuje celý systém sloves vyjadřujících směřování k nějaké vnitřní hranici – v některých pojetích (viz např. Smith 1997; Filip 1999) se tento rys vnitřní, sémantické aspektuality označuje jako teličnost; telická slovesa mo-hou vyjadřovat dosahování cíle v průběhu časového intervalu (durativní slo-vesa), nebo toto dosažení cíle konceptualizovat jako časově zhuštěné, tedy v  rámci okamžiku (momentánní slovesa). S  oporou o odbornou literaturu a kritéria tam uvedená klasifikujeme OS uvedená ve studii V. Jindry (2008) do kategorií momentánní a durativní, přičemž předpokládáme prototypické jádro každé kategorie a přechodové případy (zvláště s ohledem na fakt, že slovesná sémantika představuje jakýsi potenciální předvýznam, jejž lze ak-tualizovat užitím v konkrétním kontextu v rámci konkrétní verbální fráze v predikátové funkci). Teoreticky naše studie vychází z konstrukčního pří-stupu k jazyku (v češtině viz Friedová 2013): jazykové jednotky chápe jako komplexní gestalty zahrnující všechny informace o dané konstrukci, které jsou relevantní pro její užití v komunikaci.

Výzkum se materiálově opírá o  SYN2010 a  jako metodu uplatňuje ko-lostrukční analýzu (collostructional analysis) vyvinutou M. Stefanowitschem a S. Griesem (2003, 2004, 2005), konkrétně kolexémovou analýzu (collexeme

116

analysis), která zkoumá stupeň asociace vybraného lemmatu s určitou po-zicí ve  zkoumané konstrukci coby syntaktickém vzorci. U  OS zkoumáme asociační sílu skupiny momentánních a skupiny durativních lemmat v kon-strukcích obsahujících a) různou hodnotu gramatické kategorie času a  b) valenční doplnění v jednotném, resp. množném čísle, a to ba) subjekt a bb) přímý objekt. Predikcí u prvního zkoumaného rysu je, že durativní OS bu-dou vykazovat menší restrikce v distribuci z hlediska času (a budou tedy mít menší asociační míru s určitou konstrukcí než momentánní slovesa, která budou signifikantně tíhnout k minulému času). Gramatické číslo subjektu a přímého objektu ovlivňuje aspektuální interpretaci (cf. Krifka 1998; Filip 1999), neboť s sebou nese individuální, resp. generickou referenci (v rámci krifkovské mereologie se obvykle vyděluje singulárový tvar se specifickou interpretací a  kvantifikovaný plurálový tvar na  jedné straně vs. nekvan-tifikovaný, holý plurálový tvar a  nepočitatelná, látková jména na  straně druhé, srov. např. Dočekal (2009). V rámci tohoto rysu předpokládáme, že momentánní OS budou preferenčně přítomna v konstrukcích s individuál-ní interpretací, zatímco durativní OS budou z tohoto hlediska nespecifická, a budou tedy vykazovat menší míru kolexémové asociace s konstrukcemi obsahujícími aktanty v singuláru. Pro ověření vlivu distinkce durativní/mo-mentánní na distribuci OS ve zkoumaných konstrukcích budeme kontrolně sledovat i  signifikantnost asociační míry jednotlivých slovesných lemmat v těchto konstrukcích, a to za účelem identifikace případných idiosynkratic-kých vlivů u konkrétních lexikálních jednotek. Role, kterou tato aspektuální distinkce hraje při distribuci OS, dosud nebyla v odborné literatuře soustav-ně sledována, a mohlo tak dojít k pominutí podstatných rysů ovlivňujících užívání a adaptaci těchto sloves v českém jazykovém systému.

LiteraturaČeský národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,

Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.Dočekal, M. (2009). Aspekt a sémantika předložek. In Struny mysli. Ostrava:

Montanex, 291–300.Filip, H. (1999). Aspect, Eventuality Types and Nominal Reference. New

York/London: Garland Publishing.Friedová, M. (2013). Pojem konstrukce v konstrukční gramatice. Časopis pro

moderní filologii, 95(1), 9–27.

117

Gries, S. Th. & Stefanowitsch, A. (2004). Co-varying collexemes in the in-to-causative. In M. Achard & S. Kemmer (Eds.), Language, Culture, and Mind. Stanford, CA: CSLI, 225–36.

Chromý, J. & Lehečková, E. (připr.). Impact of tense on the interpretation of bi-aspectual verbs. Studie z aplikované lingvistiky, 1/2014.

Jindra, V. (2008). Vývojová dynamika obouvidových sloves cizího původu na základě korpusových dat. Slovo a slovesnost, 69, 192–210.

Komárek, M. (1984). Prefixace a  slovesný vid (K  prefixům čistě vidovým a subsumpci). Slovo a slovesnost, 45, 257–267.

Kopečný, F. (1962). Slovesný vid v češtině. Praha: ČSAV.Lebeďová, S. (1980). K ztrátě obouvidovosti u sloves cizího původu v součas-

né češtině. Slovo a slovesnost, 41, 279–286.Lebeďová, S. (1984). Spojování sloves cizího původu s českými předponami.

Naše řeč, 67, 117–121.Smith, C. (1997). The Parameter of Aspect. 2nd edition. Dordrecht: Kluwer.Stefanowitsch, A. & Gries, S. Th. (2003). Collostructions: Investigating the

interaction between words and constructions. International Journal of Corpus Linguistics, 8(2), 209–243.

Stefanowitsch, A. & Gries, S. Th. (2005). Co-varying collexemes. Corpus Lin-guistics and Linguistic Theory, 1(1), 1–43.

Vendler, Z. (1967). Verbs and times. In: Linguistics and Philosophy. Ithaca/New York: Cornell University Press.

Veselý, L. (2008). Testy pro zjišťování vidové hodnoty vidového paradigmatu slovesa (indikátory slovesného vidu). Slovo a slovesnost, 69, 211–220.

118

Martina LevInstitut für Slavistik, Justus-Liebig-Universität Giessen [email protected]

Voľné datívy a DcI-konštrukcie. Distribučná štúdia na materiáli podkorpusu českého synchrónneho korpusu SYN2010 a podkorpusu ruského osnovného korpusuS voľnými datívmi sa stretávame vo všetkých slovanských jazykoch, porov. nasledujúci výber: •Rus.: Эти мне газеты! (Mašovec 2000: 68) Ja ne prikazčik vam! (tamtiež: 58)•Pol.: Telewizor mi się zepsuł. (Rytel-Kuc 1999: 239) Tylko mi nie hałasuj! (Dąbrowska 1997: 55)•Č.: To je mi pěkný pořádek! (Karlík 2002: 105) Co jste nám tu ukradli? (Janda 1993: 89, 90)•Sloven.: Dokiaľ bola Zuza u Telného, nuž ti vám, dietky božie, milý

Adam tú truhlu predal. ( Jégé; porov. Miko 1966: 181) A matka vám ešte žije? (Bednár; porov.: tamtiež)•Slovin.: Pametna bodi, glave mi ne povešaj! (Greenberg 2008: 95) Ostrigel mi je lase. (tamtiež)•Chorv./ Srb.: Kako ste mi? (Silić/ Pranjković 2007: 220) Kako ti je zdravlje? (Kunzmann-Müller 2002: 238)•Bulh.: Така ли ще ми говориш с баща си?! (Börger 2008: 43)

Ich distribúcia sa však odlišuje od  jazyka k  jazyku. Kým v češtine, slo-venčine, chorvátčine a srbštine sú voľné datívy hojne zastúpené, je ich frek-vencia v ruštine silno obmedzená (porov. Janda 1993: 208; Daiber 2008:104). Fakultatívne datívy ako v č. Šel otci pro pivo (Nádeníček 2011: 152) alebo

119

v  chorv. To ti je bila gužva! (Kunzmann-Müller 2002: 237) sa v  modernej ruštine nerealizujú.  

Dôvody pre toto nerovnomerné zastúpenie voľných datívov sa v  litera-túre neuvádzajú, stretávame sa tu nanajvýš s domnienkami a hypotézami autorov. Prínosným v tomto ohľade je pozorovanie Havránka, ktorý opisuje jeden z rozdielov v používaní datíva v ruštine a češtine nasledujúco:

[…] pro ruštinu je příznačné zejména užívání dativu v  jednočlen-ných větách s příslovcem nebo infinitivem v základním členu (sr. Мне далеко до вокзала. – Открыть мне окно?), a naproti tomu jiné vyjádření za český tzv. volný dativ při slovese, s významem pří-slušnosti, vztahu (sr. Ztratila se mi kniha. У меня пропала книга). (Havránek 1961: 298, 299; porov. i Zaičkova 1972: 66)

Daiber predpokladá systematický súvis medzi frekvenciou voľných da-tívov v  juho- a západoslovanských jazykoch a  tzv. Dativus cum Infinitivo-konštrukcií (ďalej DcI), ktoré dominujú v ruskom jazyku: „Verf. hält die zum Schwund der fakultativen Dativerweiterungen und zum Schwund klitischer Pronominalfor men sich umgekehrt reziprok verhaltende Frequenz der DcI-Konstruktionen für das entschei dende systemimmanente Kriterium.“ (Dai-ber 2008: 104, 105)

Konštrukcia „je + infinitív“ s logickým subjektom v datíve, ktorá v minu-losti slúžila ako jeden z výrazových prostriedkov vyjadrenia voľnej modality (a v ruskom jazyku existuje dodnes), sa v českom jazyku dochovala len „jako archaismus“ (Karlík et al. 1995: 410): Všem lidem jest umříti (tamže). (Porov. aj Zubatý 1922: 3; Gebauer 1929: 390; Bauer 1974: 11; Lamprecht et al. 1977: 238; Lamprecht et al. 1986: 350, 351.) 

Cieľom príspevku je, na základe výskumu na materiáli českého a ruského elektronického synchrónneho korpusu vyhodnotiť používanie voľných da-tívov v češtine a ruštine ako aj frekvenciu DcI-konštrukcií v ruskom jazyku a overiť tak hypotézu, že jazyky, v ktorých sú pronominálne datívy viazané v syntaktických konštrukciách (viď DcI) vykazujú menej voľných, t.j. syn-takticky neväzobných (porov.: Bauer & Grepl 1970: 115; Grepl & Karlík 1986: 275; Karlík et al. 1995: 429; Karlík 2002: 104) datívov a naopak. Korpusová analýza tak podáva základ pre ďalší typologický výskum týchto javov v prí-pade, že sa hypotéza potvrdí.

Použité korpusy budú predstavovať dva mnou zadané podkorpusy čes-kého synchrónneho korpusu SYN2010 a  ruského osnovného korpusu („Oсновный корпус“), pričom ich zloženie má pozostávať predovšetkým

120

z  textov súčasnej originálnej českej a  ruskej umeleckej literatúry (prózy). Prekladová literatúra zostáva nezohľadnená. Zloženie a veľkosť podkorpu-sov budú volené tak, aby boli navzájom porovnateľné. 

LiteratúraBauer, J. (1974). Historische Syntax der tschechischen Sprache. Übersetzt

von Gerd Freidhof. Frankfurt a. M.: Slavisches Seminar.Bauer, J. & Grepl, M. (1970). Skladba spisovné češtiny. Praha: SPN.Börger, G. (2008). Der ethische Dativ in der Kommunikation. Sprachver-

gleich: Deutsch, Russisch, Bulgarisch. Frankfurt a. M.: Lang.Daiber, Th. (2008). Produktive Dativkonstruktionen. Possessive, deontische

und temporale Attribution. In S. Kempgen, K. Gutschmidt, U. Jekutsch & L. Udolph (Eds.), Deutsche Beiträge zum 14. Internationalen Slavisten-kongress Ohrid 2008. München: Otto Sagner, 103-116.

Dąbrowska, E. (1997). Cognitive Semantics and the Polish Dative. Berlin/ New York: de Gruyter.

DuFeu, V. (1998). The Dativus Ethicus (DE) in the Slavonic languages. XII MKS Kraków 1998. Dostupné online z: WWW: <http://www.arts.gla.ac.uk/Slavonic/VDuFeu.htm>.

Gebauer, J. (1929). Historická mluvnice jazyka českého. Díl IV: Skladba. Pra-ha: Česká Akademie věd a umění.

Greenberg, M. L. (2008). A Short Reference Grammar of Slovene. München: Lincom Europa.

Grepl, M. & Karlík, P. (1986). Skladba spisovné češtiny. Praha: SPN.Havránek, B. (Ed.) (1961). Příruční mluvnice ruštiny pro Čechy I. Hláskosloví

a tvarosloví. Praha: SPN.Janda, L. A. (1993). A Geography of Case Semantics. The Czech Dative and

the Russian Instrumental. Berlin/ New York: de Gruyter.Karlík, P. (2002). Dativ volný. In P. Karlík, M. Nekula & J. Pleskalová (2002),

104–105.Karlík, P., Nekula, M.; Pleskalová, J. (Eds.) (2002). Encyklopedický slovník

češtiny. Praha: Lidové noviny.Karlík, P., Nekula, M. & Rusínová, Z. (Eds.) (1995). Příruční mluvnice češtiny.

Praha: Lidové noviny.Kunzmann-Müller, B. (2002). Grammatikhandbuch des Kroatischen unter

Einschluß des Serbischen. 3., durchges. und erg. Aufl. Frankfurt a. M.: Lang.

121

Lamprecht, A., Šlosar, D. & Bauer, J. (1977). Historický vývoj češtiny. Praha: SPN.

Lamprecht, A., Šlosar, D. & Bauer, J. (1986). Historická mluvnice češtiny. Pra-ha: SPN.

Mašovec, E. N. (2000). Konstrukcii s datel’nym etičeskim v  sovremennom russkom jazyke. Dissertacija na soiskanie učenoj stepeni kandidata filo-logičeskich nauk. Moskva: MGU.

Miko, F. (1966). Datív. In J. Ružička (Ed.), Morfológia slovenského jazyka. Bratislava: Vydavateľstvo SAV, 177–185.

Nádeníček, P.  (2011). Der Dativ im Tschechischen: Syntax, Semantik und Pragmatik. Anzeiger für slavische Philologie 39, 147–168.

Rytel-Kuc, D. (1999). In U. Engel (Ed.), Deutsch-polnische kontrastive Gram-matik. Bd. 1. Heidelberg: Groos.

Silić, J. & Pranjković, I. (2007). Gramatika hrvatskoga jezika za  gimnazije i visoka učilišta. 2. izdanje. Zagreb: Školska knjiga.

Zaičkova, I. (Zajičková, J.) (1972). Datel’nyj bespredložnyj v sovremennom russkom literaturnom jazyke. Praha: Universita Karlova.

Zubatý, J. (1922). Musiti. Naše řeč, 6 (1), 1–9.Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,

Praha 2010. Dostupný z WWW: <http://www.korpus.cz>.Osnovnoj korpus Nacionaľnogo korpusa russkogo jazyka. Dostupný

z WWW: <http://www.ruscorpora.ru>.

122

Michaela LiškováÚstav pro jazyk český AV ČR [email protected]

Helena PernicováÚstav pro jazyk český AV ČR [email protected]

Pojmenování barev a jejich odstínů v Akademickém slovníku současné češtinyFenomén barev lze zkoumat z  různých hledisek, fyzikálního, psychologic-kého, antropologického, jazykovědného a dalších. V  jednotlivých oborech pak existují rozličné úhly pohledu, z nichž lze problematiku barev nazírat; v  jazykovědě je možné se zabývat mj. určením jazykové základovosti ba-rev (Schmiedtová & Schmiedtová 2006), barvami v jazykovém obrazu světa (Vaňková 2005, Gieroń-Czepczor 2011), užitím barev v  toponymii (Štěpán 2004) nebo definováním barev ve slovnících (Pakuła 2010). Tento příspěvek je zaměřen lexikograficky, soustřeďuje se na kritéria zařazování hesel ozna-čujících barvy a jejich odstíny do hesláře vznikajícího slovníku s pracovním názvem Akademický slovník současné češtiny (ASSČ), dále na problematiku výkladu a na exemplifikaci.

Heslář ASSČ bude obsahovat 120–150 tisíc lexikálních jednotek. Je vy-tvářen na základě vyvážených korpusů Českého národního korpusu (SYN 2000, SYN 2005, SYN 2010) s celkovým objemem 300 milionů slov. Při vlast-ním zpracovávání hesel pak jako výchozí materiálovou základnu využíváme korpus SYN, jako doplňkové zdroje elektronický mediální archiv Newton Media, oborovou databázi ODE, neologickou databázi Neomat, internet ad.

Na  základě frekvence v  korpusu se do  hesláře ASSČ dostávají výrazy, které v dosavadních slovnících nenajdeme. Mezi nová pojmenování ozna-čující barevné odstíny patří např. kapučínový ,světle hnědý‘ nebo limetko-vý ,světle žlutozelený‘. Setkáváme se s nimi především v textech týkajících se módy, kosmetiky a interiérového designu. Naopak jiné výrazy v hesláři ASSČ nebudou, přestože je dřívější slovníky uvádějí; v korpusu je ve význa-mu označujícím barvu nenacházíme vůbec nebo jen s minimální frekvencí, např. čekankový ,modrý‘, koukolový ,červenofialový‘. Důvodem těchto změn je jiná životní realita, menší sepětí s přírodou a zároveň větší propojenost

123

s širším, globálním prostředím. Nová pojmenování však vyhodnocujeme, je třeba rozlišit lexikalizované spojení a příležitostné volné spojení, které může mít v určitém časovém období vyšší frekvenci výskytu. Všímáme si rovněž typu zdrojů, ve kterých se daný výraz vyskytuje (není výjimečné, že adjek-tivum vyjadřující barevný odstín se vyskytuje pouze v překladové beletrii nebo v díle jednoho autora).

Hnízdování se v ASSČ užívá méně než v předchozích slovnících. To zna-mená, že některé tradičně hnízdované deriváty (vztahová adjektiva, adverbia, substantiva označující názvy vlastností) budou zpracovány jako samostatná hesla s plným výkladem. Zatímco přídavná jména v analyzované oblasti ně-kdy výklad měla již v předchozích slovnících (srov. Slovník spisovného ja-zyka českého: olivový ,mající barvu olivy‘, oříškový ,mající barvu (lískových) oříšků‘, pivoňkový ,mající barvu červených pivoněk‘), pro adverbia je model výkladu třeba vytvořit zcela nově.

Nabízející se jednoduché výkladové definice typu avokádově ,jako avoká-do´ (s doklady avokádově zelené tričko; avokádově zbarvené dlaždice) nejsou dostačující. Potřeba hledat širší, přesnější formu výkladu je ještě výraznější v případech, kdy doklady ukazují na souvislost s jinou než vizuální charakte-ristikou základového substantiva (ananasově vonět; alabastrově hebká pokož-ka).

Základní barvy v jejich primárním významu vykládáme v souladu s le-xikografickou tradicí přirovnáním k jejich typickým nositelům (bílý ,mající barvu mléka, sněhu ap.‘). Samostatně registrujeme a vykládáme i substan-tivizované podoby pojmenování základních barev (bílá ,bílá barva‘). Nelze opomíjet to, že barvy nesou množství jazykových a kulturních konotací. Ale jak uvádí R. Blatná (1995: 85), hlavním problémem při lexikografickém zpra-cování konotační složky je míra její lexikalizace. Je nezbytné vždy pečlivě zvážit začleněnost konotační významové složky do lexikálního systému.

Odstíny někdy přináležejí více barvám, barevné spektrum je škálovité. Přestože je vnímání odstínů velmi individuální, nelze při tvorbě slovníkové definice rezignovat na odpovídající slovní vyjádření. Jako příklad uveďme označení barevných odstínů šeříkový a  lila. Ve  Slovníku spisovné češtiny nalezneme u  exemplifikačního spojení šeříková modř dovýklad ,bledě fia-lová´. Nesklonné adjektivum lila je definováno jako bledě fialový, šeříkový. Analýza materiálu ukázala, že se výrazů šeříkový a lila (a odpovídajících ad-verbií) užívá nejen pro označení bledě fialové barvy, ale i barvy sytě fialové. Vzhledem k omezenosti adekvátních jazykových prostředků popisu by bylo

124

vhodné doplnit slovník obrázkovou přílohou s  barevnými odstíny (jak je běžné u slovníků zahraničních) s event. naznačenou škálovitostí a prolíná-ním jednotlivých barevných odstínů.

Při exemplifikování hesel usilujeme o doložení typického úzu a séman-tické spojitelnosti. Uvádíme jak stručné doklady (dvojice slov), tak doklady rozšířené a větné, které mohou v odůvodněných případech ukazovat i méně obvyklé užití slova. Výjimečně exemplifikujeme pomocí nadvětných celků.

LiteraturaBerlin, B. & Kay, P. (1969). Basic Color Terms: Their Universality and Evolu-

tion. Berkeley: University of California Press.Blatná, R. (1995). Metajazyk v lexikografii. In F. Čermák & R. Blatná (Eds.),

Manuál lexikografie. Jinočany: H&H, 72–89.Gieroń-Czepczor, E. (2011). A corpus-based cognitive-semantic analysis of

the primary basic colour terms in English and Polish. Racibórz: Państwo-wa Wysza Szkola Zawodowa.

Pakuła, Ł. (2010). Seeing through dictionaries: On defining basic colour terms in English, Japanese and Polish lexicography. Cit. 2014-01-29. <https://repozytorium.amu.edu.pl/jspui/bitstream/10593/7786/1/130_Euralex_2010_9_PAKULA_Seeing%20through%20dictionaries_On%20defining%20basic%20colour%20terms%20in%20English,%20Japanese%20and%20Polish%20lex.pdf>

Schmiedtová, V. & Schmiedtová, B. (2006). In F. Čermák & R. Blatná (Eds.), Korpusová lingvistika: Stav a modelové přístupy. Praha: NLN, 285–313.

Slovník spisovné češtiny. (2000). Praha: Academia.Slovník spisovného jazyka českého. (1960–1971). Díl I-IV. Praha: Academia.Štěpán, P.  (2004). Označení barev a  jejich užití v  toponymii Čech. Praha:

Univerzita Karlova.Vaňková, I. (2005). Kapitoly o barvách. In I. Vaňková, I. Nebeská, L. Saicová

Římalová & J. Šlédrová (Eds.), Co na srdci, to na jazyku. Praha: Karoli-num, 195–246.

125

David LukešÚstav Českého národního korpusu FF UK [email protected]

Perspektivy fonetické anotace v korpusech mluveného jazykaVelké veřejně dostupné korpusy mluvené češtiny většinou obsahují pouze jednu vrstvu transkripce. Ta bývá zpravidla založena na ortografii, ale záro-veň zohledňuje některé zdroje řečové variability, jež standardní pravopis ne-zachycuje a jež nám tak mohou mnohé napovědět o fonetické realizaci dané promluvy. V případě korpusů PMK a řady ORAL se jedná např. o protetické [v], v korpusu BMK o neortoepické asimilace znělosti, v korpusu DIALOG můžeme zmínit třeba hrubé zachycení intonace, tzv. melodémů. Deklarova-ným cílem je vytvořit přepis, který bude pohodlně čitelný a zároveň bude kódovat vybraná specifika mluveného jazyka (viz např. Kaderka & Svobo-dová 2006).

Jak správně poznamenává Pořízka (2009: 23–24), volba takovýchto hyb-ridních přepisů je problematická v tom, že některé jevy přeceňuje a přisuzu-je jejich reprezentaci přílišnou granularitu, naopak jiné úplně pomíjí. Záro-veň může ona polovičatost způsobit, že i vybrané jevy jsou zaznamenávány nesystematicky, neboť přepisovatele svádí zažitá a zautomatizovaná pravi-dla ortografie. Část fonetické variability tedy zůstává nezachycena, zejména jevy, které nebyly dosud systematicky popsány a tudíž nemohly být expli-citně zařazeny do pravidel přepisu. Přitom mají výzkumný potenciál a popis by si zasloužily.

S vědomím těchto problémů volí korpus KOMČ víceúrovňovou anotaci, která obsahuje jak ortografickou, tak plně fonetickou vrstvu (Pořízka 2008). Tímto přístupem se ve  svých pravidlech pro přepis volně inspiruje i  kor-pus ORTOFON, aktuálně budovaný na ÚČNK pomocí anotačního programu ELAN (Sloetjes & Wittenburg 2008). Tyto korpusy mají ambici zprostřed-kovat možnost komplexního kvantitativního výzkumu fonetické stránky českého jazyka (asimilace znělosti před jedinečnými souhláskami, prestové realizace frekventovaných a výplňkových slov aj.). Při vhodné reprezentaci dat v korpusovém manažeru mohou dokonce umožnit dotazy porovnávající

126

fonetickou realizaci s ortografickou podobou slova, či ještě lépe, s „očekáva-nou“ ortoepickou výslovností vygenerovanou podle pravopisu.

Zároveň se ovšem na základě dosavadní praxe při budování korpusu OR-TOFON ukazuje, že pro foneticky neškolené spolupracovníky, kteří nahráv-ky přepisují, bývá problém oprostit své uši od pravopisných předsudků a za-chytit reálnou výslovnost. Svou roli v tom hraje nepochybně i to, že pečlivý fonetický přepis vyžaduje opakovaný poslech záznamu po krátkých úsecích a ideálně i vizuální informaci v podobě spektrogramu nahrávky (srov. Skar-nitzl & Machač 2009). Je tedy náročný jak na čas, tak na specifické technické dovednosti.

V  tomto světle se může ukázat, že čas investovaný do dálkového fone-tického školení přepisovatelů-laiků se nevyplácí, podobně jako čas vložený do systematického fonetického přepisu celých nahrávek. Do budoucnosti je tak potřeba se zamyslet i  nad jinými variantami fonetické anotace, ať už by šlo o selektivní transkripci podle frekvenčního klíče (tj. přednostně pře-pisovat nejčastější typy v korpusu) či o návrat k anotaci pouze vybraných jevů, jako např. ve výše zmíněných korpusech řady ORAL, ovšem se dvěma důležitými rozdíly. Zaprvé, anotace by neměla klást důraz na specifika češ-tiny,  ale na  obecně relevantní fonetické procesy (proteze, epenteze, elize, lenizace…), a měla by probíhat formou metadat, aby nedocházelo k  inter-ferencím s  ortografickým přepisem (mohlo by jít o  podobný systém jako u morfologických značek).

Má-li totiž být fonetický přepis mluveného korpusu užitečný, musí být spolehlivý a systematický a musí usnadňovat vyhledávání. Z tohoto hledis-ka se detailní fonetická transkripce jeví dokonce jako nevhodná: čím více detailů obsahuje, tím je pro uživatele těžší vymyslet dotaz, který poskytne všechny pro něj relevantní výsledky (snižuje se recall). Zároveň vždy existu-je možnost, že uživatelem hledaný jev v transkripci zachycen není a badatel si jej stejně bude muset doplnit sám. Teoretická výhoda výše zmíněné me-tadatové obecněfonetické anotace pak oproti transkripci spočívá v tom, že poskytovatel korpusu přesně definuje výčet parametrů, u nichž se zaručuje za poskytnutou informaci; u čehokoli, co leží mimo tuto oblast, uživatel rov-nou ví, že si musí doplnit anotaci vlastní. Je ovšem třeba tuto koncepci a její užitečnost pilotně odzkoušet v praxi.

127

LiteraturaBenešová, L., Křen, M. & Waclawičová, M. (2013). ORAL2013: reprezentativ-

ní korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK.

Český národní korpus – PMK. (2001). Praha: Ústav Českého národního kor-pusu FF UK.

Hladká, Z. (2002). BMK (Brněnský mluvený korpus): přepisy nahrávek br-něnské mluvy z 90. let 20. století. Praha: Ústav Českého národního kor-pusu FF UK.

Kaderka, P.  & Svobodová, Z. (2006). Jak přepisovat audiovizuální záznam rozhovoru? Manuál pro přepisovatele televizních diskusních pořadů. Ja-zykovědné aktuality, 43 (3–4), 18–51.

Kopřivová, M. & Waclawičová, M. (2006). ORAL2006: korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK.

Machač, P. & Skarnitzl, R. (2009). Fonetická segmentace hlásek. Praha: Na-kladatelství Epocha.

Pořízka, P. (2008). Anotace orálních korpusů. Olomoucký mluvený korpus jako model. In M. Kopřivová & M. Waclawičová (Eds.), Čeština v mluve-ném korpusu. Praha: NLN.

Pořízka, P.  (2009). Transkripce a  sběr dat v  korpusech mluvené češtiny. (Unpublished doctoral dissertation). Filozofická fakulta Univerzity Pa-lackého, Olomouc.

Sloetjes H. & Wittenburg, P. (2008). Annotation by category—ELAN and ISO DCR. In Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC 2008).

Waclawičová, M., Kopřivová, M., Křen, M. & Válková, L. (2008). ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK.

128

Jiří MáchaÚstav Českého národního korpusu FF UK [email protected]

Ke kategorizaci plurálií a singulárií tantum - kvantitativní analýza sufixůPředmětem příspěvku je vyhodnocení morfematické analýzy přibližně 2000 singulárií tantum a přibližně 100 až 200 plurálií tantum, která byla vyextra-hována z  korpusu SYN2010 na  základě metodologie užité pro identifikaci singulárií / plurálií tantum, kterou navrhli Mácha a Richterová v příspěvku The Quantum of Plurality. The relationship of singular and plural (and singula-ria and pluralia tantum) in Czech nouns (2014, v tisku), poté bude následovat stručné představení výsledků a souboru singulárií a plurálií tantum. Těžiš-těm příspěvku je kvantitativní analýza sufixů dotčených substantiv s důra-zem na  nastínění sémantických skupin, které se mezi danými skupinami substantiv objevují.

Vztah plurálií a  singulárií byl zkoumán na  9000 nejfrekventovanějších českých substantivních lemmatech, z nichž bylo v prvním kroku vyfiltro-váno asi 2000 vlastních jmen a cizích slov. Ze zbývajících lemmat bylo vy-dělena velká skupina (asi 5/7) substantiv realizujících singulárové i plurálo-vé tvary s různou mírou preference daného čísla; druhou největší skupinu tvořila singularia tantum a nejméně početnou skupinou (cca 100 výskytů) tvořila pluralia tantum. Právě obě menší skupiny substantiv budou předmě-tem této analýzy. Jak ukázal předchozí výzkum, v některých případech jde jen velmi těžko identifikovat hranici mezi zmíněnými skupinami. Stanovení hranice pro vymezení singulárií / plurálií musí být nutně akt arbitrární – Mácha a Richterová využili čistě kvantitativní metodu (jako hranici stanovili první a poslední vigintil souboru.) Při jinak stanovené hranici by bylo mož-no do obou skupin přidat či odebrat další členy. Zvlášť pro oblast plurálií, která se ukázala jako početně slabší, by bylo pro účely kvantitativní analýzy výhodnější hranice posunout a kategorii tak zvěšit.

Již Kroupová (1985) uvádí v článku K pomnožným podstatným jménům v současné češtině stručnou klasifikaci plurálií, a to jednak na základě séman-tiky (konkréta a abstrakta) a jednak na základě analýzy sufixů: „Z hlediska morfologického, tj. tvaroslovného a slovotvorného, jsou pro tato jména cha-

129

rakteristické zvláště tyto formanty:[7] nejčastější -y, -ky, -čky, -iny; četné -a, -e, -ie; řídké -i, -í, -é, -ě, -á, -ice. Pomnožná jména patří po stránce jmen-ného rodu ke všem třem rodům (značnou převahu má u nich ženský rod, četně je zastoupen rod mužský, méně střední), rozlišují se však pouze for-málně, neboť se tak pojmenovávají jen věci a jevy neživé (proto zcela chybějí příznakové tvary životné).“

Ze starších prací se věnuje ananalýze dané problematiky také Mluvnice češtiny 2 (Petr 1986), kde je nastíněna řada sémantických kategorií.

Pro účely bližší klasifikace vytěžených dat byla provedena „manuální“ morfematická analýza singulárií a plurálií tantum, jejímž cílem bylo získání solidních empirických dat, která by posloužila nejen bližšímu prozkoumání sémantické stránky vytěžených substantiv, ale i dalšímu explorativnímu sta-tistickému výzkumu.

Analyzovaný data-set měl přibližně tuto podobu:

polovina 98,4 1,6 23085 inavedení 98,7 1,3 22950 íprezident 97 3 22827 0láska 96,4 3,6 22591 ařízení 95,3 4,7 22158 ípomoc 99,6 0,4 21759 0půl 100 0 20805 0mluvčí 95,4 4,6 19878 čívývoj 99,5 0,5 19259 0politika 95,5 4,5 18866 arámec 99,3 0,7 18688 ecpodpora 96,6 3,4 18196 amnožství 98 2 17710 stvíhudba 99,2 0,8 17562 avzduch 100 0 17464 0

První sloupec reprezentuje lemma, druhý procentuální podíl singuláro-vých tvarů, třetí relativní zastoupení plurálových tvarů, čtvrtý absolutní fre-kvenci a pátý sloupec zastupuje sufix.

Analýza sufixů by měla přispět ke  zpřesnění sémantické kategorizace obou skupin substantiv. Vnést světlo by měla také do smíšených „fuzzy“ ob-lastí, tj. tam, kde data naznačují nejednotnost, přechod mezi kategoriemi.

130

LiteraturaBartoň, T., Cvrček, V., Čermák, F., Jelínek, T. & Petkevič, V. (2009). Statistiky

češtiny. Praha: NLN.Cvrček, V., Kodýtek, V., Kopřivová, M., Kovaříková, D., Sgall, P., Šulc, M. Tá-

borský, J.,Volín, J. & Waclawičová, M. (2010). Mluvnice současné češtiny. Praha: NLN.

Jirsová, A. (1981). Dynamika vztahu singuláru a plurálu u substantiv v češti-ně. Slovo a slovesnost, 42 (3). 193–199.

Kroupová, L. (1985). K pomnožným podstatným jménům v současné češtině. Naše řeč, 68 (2). 57–63.

Markéta MaláÚstav anglického jazyka a didaktiky FF UK [email protected]

Překladové protějšky jako ukazatele významu: čeština a angličtina v paralelním korpusu InterCorpNa česko-anglickém materiálu příspěvek ukáže, jak je díky paralelnímu kor-pusu InterCorp (Čermák & Rosen 2012) možné využít českých překladových protějšků jako ukazatelů významu odpovídajících anglických konstrukcí.

Na rozdíl od tradičního pojetí kontrastivní lingvistiky jako porovnávání jazykových systémů přinášejí s sebou paralelní korpusy možnost zaměřit se spíše na korespondence mezi jazyky na úrovni významových jednotek (Jo-hansson 2007). Teubert (2001: 151) ukazuje, že právě díky překladovým pro-tějškům je možné přesněji identifikovat v textu hranice a význam takových jednotek. Za předpokladu, že význam nějaké textové jednotky lze odhalit na základě její (opět textové) parafráze, můžeme paralelní korpus pokládat za „depozitář takových parafrází“.

Jako příklad tohoto uplatnění překladových protějšků může sloužit an-glické sloveso come. Jeho překladové korespondence ukazují, že význam

131

slovesa je vázán na  typ komplementace a  sémantiku komplementu, které tvoří spolu se slovesem významovou jednotku: srov. lexikální sloveso come (+Adv) typicky překládané slovesy pohybu se směrovými prefixy přijet, při-jít, konstrukci „come + přítomné participium sloves pohybu“, v níž je vý-znam slovesa come redukován na  indikátor směru odpovídající předponě českého slovesného protějšku (come running – přiběhnout, come galloping/trotting – přiklusat), nebo come vyjadřující změnu stavu v konstrukci s in-finitivním komplementem (come to love – zamilovat se) nebo ve  sponové predikaci (come alive – ožít).

Právě na sponových slovesech můžeme ukázat další kroky metody využi-tí překladových protějšků jako ukazatelů významu. Stejně jako u sponového come nacházíme slovesné protějšky s předponami označujícími změnu stavu i u dalších anglických inchoativních sponových predikací, např. become cold – ochladit se, go red – zrudnout, turn grey – zešedivět, fall silent – ztichnout, grow old – zestárnout. Tyto předpony můžeme tedy pokládat za indikátory inchoativního významu a lze očekávat, že se objeví jako překladové protějš-ky také u dalších anglických konstrukcí vyjadřujících změnu stavu. Anglic-ké korespondence českých sloves s těmito prefixy skutečně zahrnují celou škálu takových konstrukcí: různé typy verbonominálních vazeb (rozplakat se – burst into tears, osmělit se – take courage, rozlétnout se – burst open), slovesa s adverbiálními částicemi (zklidnit se – calm down), slovesa s rezultativním komplementem reflexivního předmětu (opít se – drink oneself silly), fázová slovesa (rozkvést – begin to bloom), nebo slovesa, u  nichž je změna stavu indikována afixy (zmizet – disappear, zvláčnět – soften).

Podobně je například možné s pomocí překladových protějšků epistemic-kých sponových sloves ukázat, jaké prostředky využívá angličtina k vyjad-řování jistotní modality (Malá 2013). Na rovině větné lze pak překladových protějšků využít jako indikátorů diskurzní funkce (Malá 2010; Šaldová 2009). Využití této metody je ovšem vždy podmíněno tím, že existují překladové protějšky, které jsou dostatečně široce zastoupené a významově jednoznač-né. Tam, kde lze takové korespondence identifikovat, představuje použití překladových protějšků jako ukazatelů významu způsob, jak je možné s vyu-žitím paralelního korpusu postupovat od určité funkce (významu) k různým formálním prostředkům jejího vyjádření v  daném jazyce. Funkční, nikoli formální, korespondence mezi zkoumanými jazyky je pak, jak ukazuje už Mathesius (1936: 95), základem jejich synchronního kontrastivního popisu.

132

LiteraturaČermák, F. & Rosen, A. (2012). The case of InterCorp, a multilingual parallel

corpus. International Journal of Corpus Linguistics, 17 (3), 411–427.Johansson, S. (2007). Seeing through Multilingual Corpora: On the Use of

Corpora in Contrastive Studies. Amsterdam / Philadelphia: John Ben-jamins.

Malá, M. (2010). English declarative yes/no questions as seen through their Czech counterparts. Acta Universitatis Carolinae, Philologica, 2008 (1), Prague Studies in English, 25, 141–151.

Malá, M. (2013). Translation counterparts as markers of meaning. The case of copular verbs in a parallel English-Czech corpus. Languages in Contrast, 13 (2), 170–192.

Mathesius, V. (1936). On some problems of the systematic analysis of gram-mar. Travaux du Cercle Linguistique de Prague, VI, 95–107.

Šaldová, P. (2009). Identifying discourse functions through parallel text cor-pora. In M. Mahlberg et al. (Eds), Proceedings of the Corpus Linguistics Conference CL2009. University of Liverpool, dostupné z WWW: <http://ucrel.lancs.ac.uk/publications/cl2009>.

Teubert, W. (2001). Corpus Linguistics and Lexicography. International Jour-nal of Corpus Linguistics, 6 (Special Issue), 125–153.

InterCorp: Český národní korpus - InterCorp. Ústav Českého národního korpusu FF UK, Praha. Cit.20.01.2014 , dostupný z WWW: <http://www.korpus.cz>.

133

Michaela MartinkováUniverzita Palackého v Olomouci [email protected]

Martin ŠimonUniverzita Palackého v Olomouci [email protected]

Enklitická partikule pak: korpusová studiePředmětem našeho výzkumu jsou výrazy figurující v  té jazykové rovině, kterou Poldauf označuje jako třetí syntaktická rovina (Poldauf 1963) a kte-rou svým způsobem předpověděl zrod nové lingvistické disciplíny, tedy pragmatiky. V tomto příspěvku se zaměříme na synchronní analýzu distri-buce a funkce morfému pak v jeho enklitické pozici, někdy označovaného jako enklitická partikule (Karlík  et al.  1995: 679) či postfix (Karlík et al.  1995: 296), tedy v těch příkladech, kdy funguje jako „druhá část zájm., zájm. přísl., částic a citosl. stupňující a citově zabarvující jejich význam“ (SSJČ). Poldauf  (1963: 143), který ve  svých příkladech zmiňuje pouze tázací vý-razy s tímto morfémem, tu viděl jeho funkci jako „kontaktovou“ a funkční paralely nacházel v  anglické konstrukci I wonder (jím samotným označo-vané jako „předrážka“).  Jelikož akademická Mluvnice češtiny tázací výrazy obsahující „komponent“  pak označuje jako „expresívní“ a uvádí,  že tato „expresívní interogativa se využívají zejména v mluvených projevech“ (Ko-márek et al. 1986: 95),  výzkum jsme zahájili v  korpusu mluvené češtiny ORAL 2013 jako „corpus driven“ (pomocí Word Form jsme hledali výskyty sekvence [a-ž]+pak). Potvrzuje se tu, že morfém pak je stále živý; kromě vý-razů, které již mohou stát mimo syntaktickou strukturu věty (částice copak, kdepak), najdeme i tázací výrazy, v nichž je pak připojeno k adverbiu (ja(k)pak, (k)dypak, kudypak), spojce (jes(tl)ipak), i číselnému zájmenu (SSJČ) ko-li(k)pak nebo jiným typům zájmen (kdopak, jakejpak), přičemž je zřejmé, že řada z nich uvádí řečnické otázky. Na subkorpusech vytvořených v rámci paralelního korpusu Intercorp jsme poté zkoumali, jak přítomnost kompo-nentu pak v českých tázacích výrazech opodstatňují anglické zdrojové tex-ty. Korespondence tázacích výrazů s pak a anglického wonder (tzv. mutual correspondence, srov. Altenberg (1999: 254)) měřené na malém paralelním obousměrném korpusu (cca půl milionu slov každým směrem) se ukazují

134

být velmi nízké.   Ve  větším  subkorpusu překladů anglických zdrojových textů o 3,893,010 slovech jsme po ručním odfiltrování copak a kdepak jako částice identifikovali 379 výskytů tázacích výrazů s pak: nejčastější bylo co-pak (121), jestlipak (57), kdepak (46), jakpak (44), kdopak (35) a pročpak (25). Protějškem anglického wonder však byly pouze 18krát (z toho čtyřikrát se toto sloveso objevilo ve třetí osobě a v minulém čase). Nejčastěji šlo o jest-lipak (11krát), například ve větě Wonder if he was flying first class? he asked himself. Jestlipak lítá první třídou? zamyslel se (Grisham), dále pak o copak (třikrát), kdepak (dvakrát) a kdopak a japak [sic], každé po jednom výskytu. Spíše než o čistě kontaktní funkci (v uvozujících větách se kromě slovesa say vyskytovalo i sloveso think) však šlo o vyjádření tentativnosti.  Kontakt-ní funkci pak v tázacích výrazech potvrzuje v anglických originálech častý souvýskyt s oslovením. Někdy se vyskytuje pouze pozdrav, např. Hello there! A hele, kdopak to tam je (Brown), případně  je užito zájmeno we k označení osoby druhé (Jakpak se dnes cítíme? how are we feeling today? Adams). Výraz jestlipak  je často ve spojení se slovesem vědět ekvivalentní kontaktnímu (do/did you) know (Jestlipak víš, kdo to je? Know who he is? Rowling), kterým upozorňuje mluvčí posluchače na uvedení nové informace. Anglické ekviva-lenty bývají expresívně zabarvené, jak dokládají příklady ekvivalence s then (“What’s this then?” asked Sparks, pointing to the floor. „Copak je tohle?“ uká-zal Sparks na zem. Frost) i jiné: Where you think you’re going? Kampak jdete? (Steinbeck). Anglická zdrojová věta bývá často výrazně expresívní, zvláště pokud již neplní funkci otázky (Oh yes I bloody well can; of course I can mean. Jakpak by ne. Amis). V těchto případech mají věty odlišnou polaritu.

LiteraturaAltenberg, B. (1999) Adverbial connectors in English and Swedish: Semantic

and lexical correspondences. In H. Hasselgård & S. Oksefjell (Eds.), Out of Corpora. Amsterdam: Rodopi, 249–268.

Havránek, B. a kol. (2011). Slovník spisovného jazyka českého. Dostupný z: <http://ssjc.ujc.cas.cz/>

Karlík, P., Nekula, M. & Rusínová Z. (1995). Příruční mluvnice češtiny. Praha: Nakladatelství Lidové noviny.

Komárek, M. a kol. (1986). Mluvnice češtiny 2. Praha: Academia.Poldauf, I. (1963). Třetí syntaktická rovina. Philologica Pragensia, 6

(45),134–146

135

Český národní korpus – ORAL2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: <http://www.korpus.cz>.

Český národní korpus – InterCorp. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW: <http://www.korpus.cz>.

Tereza MaškováÚstav pro studium totalitních režimů [email protected]

Vojtěch RipkaÚstav pro studium totalitních režimů [email protected]

Korpus jazyka StBÚstav pro studium totalitních režimů zahajuje v roce 2014 projekt Korpus ja-zyka Státní bezpečnosti (StB). Předpokládaná velikost korpusu se pohybuje mezi 15 až 50 mil. slov. Cílem je vytvořit bázi pro systematický výzkum jak ze strany jazykovědců, tak historiků, sociálních vědců a podobně.

Dosavadní historiografické práce považují StB za zásadní oporu komu-nistického režimu v Československu. Výzkum týkající se této organizace se však dominantně zaměřuje na dílčí či nominální prvky: na jednotlivé posta-vy StB, studium organizační struktury či činnosti StB vůči objektům jejího zájmu. Staví na zkušenosti badatele, přirovnatelné k výsledku dlouhodobého ponoření se do příslušných textů, jak ho známe z kvalitativní metodologie sociálních věd. Tato zkušenost vychází ze znalosti řady dílčích materiálů, na kterých dosavadní texty zabývající se StB stojí, a často podléhá obecným neduhům archivního výzkumu (například systematickému upřednostňová-ní jmenného principu). Je exkluzivní, staví na osobní autoritě (a poctivosti) badatele, a znemožňuje proto do značné míry replikaci.

Projekt Korpus jazyka StB je zaměřen na  vytvoření pomůcky vhodné pro odbornou i laickou veřejnost. Účelem pomůcky je poskytnout sadu dat umožňující zkoumat některá klíčová témata spojená s  fungováním tajné policie v komunistickém Československu. Korpus může mj. posloužit jako

136

podklad pro tvorbu slovníků či encyklopedie o StB. Má narušit zmíněnou exkluzivitu a poskytnout nástroj k alespoň dílčím odpovědím na obecnější výzkumné otázky cílící na vnitřní fungování StB (např. organizační principy, rozdíl mezi tajným a veřejným modem činnosti organizace), na jazyk či ko-munikaci StB (ideologizace, míra a dynamika cizího vlivu, vzdálenost jazy-ka terénu od jazyka programových dokumentů), případně místo organizace v systému (vůči KSČ či právnímu řádu).

Na  designování korpusu participují i  samotní historici. Dostávají hlas skrze strukturované dotazníky zabývající se nejen kategorizací dokumen-tů, tj. výběrem typů textů a časových období, ale také výzkumnými tématy a  otázkami. Z  našich prvních explorativních rozhovorů uvádíme příklady klíčových otázek, kterými by se oslovení historici zabývali v  případě ne-omezených kapacitních možností, tj. k  jejichž zodpovídání by Korpus StB mohl přispět: Vnitřní dynamika StB – jak docházelo k revizi vnitřních doku-mentů (např. rozdíl mezi vlastnoruční zprávou agenta a agenturní zprávou důstojníka). Jak ovlivňovaly proměny společenského a politického kontextu vyjadřování StB a jaký vliv na společnost měly naopak změny myšlení a for-málního vyjadřování uvnitř StB? (Při reorganizacích StB docházelo ke změ-ně terminologie, např. označení nepřátel režimu se vyvíjelo: reakce, diverse, ideodiverse, bývalí lidé, nepřítel, disent, opozice).

V neposlední řadě je cílem této participativní části projektu představení možností budoucího korpusu historiografické komunitě. Dosavadní porozu-mění světu StB se soustřeďuje především na jednotlivé kauzy a chybí celost-ní perspektiva, která by je zasadila do širšího rámce. Analýza korpusu může tyto nedostatky překročit, naráží však doposavad na množství překážek: his-toriografie a korpusová lingvistika tvoří oddělené světy. Příspěvek se zaměří na dosavadní zkušenosti se způsoby, jakými je možné tyto světy přiblížit.

LiteraturaČermák, F. (2011). Jazyk a jazykověda: přehled a slovníky. Praha: Karolinum.Čermák, F., Cvrček, V. & Schmiedtová, V. (2010). Slovník komunistické tota-

lity. Praha: Nakladatelství Lidové noviny.Becker, P. & Lüdtke, A. (1997). Akten, Eingaben, Schaufenster: Die DDR Und

Ihre Texte. Berlin: Akademie Verlag.Biber, D. (2007). Discourse on the Move: Using corpus analysis to describe

discourse structure [online]. Amsterdam: John Benjamins.

137

Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Li-dové noviny.

David, J. et al. (2013). Slovo a text v historickém kontextu: perspektivy histo-rickosémantické analýzy jazyka. Brno: Host.

Fidelius, P. (1983). Jazyk a moc. München: K. Jadrný.Fidelius, P. (1998). Řeč komunistické moci. Praha: Triáda.Générux, M., Mendes, A., Santos Pereira, L. A. & Bacelar do Nascimento, M. F.

(2010). Lexical analysis of pre and post revolution discourse in Portugal. Lisboa. Dostupné z http://www.clul.ul.pt/files/anagrama/lrec2010.pdf.

Hájek, M., Havlík, M. & Nekvapil, J. (2014). Problém relevance v tematicky orientovaném biografickém interview: případ orálněhistorických živo-topisných rozhovorů. Sociologický časopis / Czech Sociological Review, 50 (1), 29–56.

Hájek, M. (2010). Počítačová textová analýza metodou sledování spoluvý-skytů slov. Data a výzkum - SDA Info, 4 (1), 19–37.

Hill, M. R. (1993). Archival Strategies and Techniques. Thousand Oaks: Sage.Hitzing, D. (2010). Politische Sprache als Fachsprache: Öffentlicher Sprach-

gebrauch in der DDR am Beispiel Erich Honecker und Walter Ulbricht. Nordstedt: GRIN Verlag.

Kaplan, R. D. (Ed.) (2002). The Oxford Handbook of Applied Linguistics. Ox-ford: Oxford University Press.

Klemperer, V. (2003). Jazyk Třetí říše – LTI: poznámky filologovy. Jinočany: H & H.

Mácha, J., Čermák, F., Chlumská, L. & Cvrček, V. (2011). Lexikon korpusu Orální historie (Příběhy). Korpus – gramatika – axiologie, 2 (4), 3–26.

Macura, V. et al. (2008). Šťastný věk (a  jiné studie o socialistické kultuře). Praha: Academia.

Mühlberg, F. (1999). Informelle Konfliktbewältigung: Geschichte der Einga-be in der DDR. Chemnitz: Philosophische Fakultät TU Chemnitz.

Scott, J. (1990). A Matter of Record: Documentary Sources in Social Research. Cambridge: Polity.

Schmiedtová, V. (2012). Malý slovník reálií komunistické totality. Praha: Na-kladatelství Lidové noviny.

Šebesta, K. (2001). Studovat jazyk totality. In Institucionalizace (ne)odpověd-nosti: globální svět, evropská integrace a české zájmy. 1, Přelom druhé-ho a  třetího tisíciletí z pohledu společenských věd. Praha: Karolinum, 268–273.

138

Šlosar, D. (1993). Jazyk totality a jazyk dneška. In Spisovná čeština a jazyko-vá kultura. Praha: FF UK.

Tomek, P.  (2008). Okres na  východě 1960–1989: Občané a  nejnižší článek Státní bezpečnosti na příkladu okresu Havlíčkův Brod. Praha: Vyšehrad.

Vít MichalecÚstav pro jazyk český AV ČR [email protected]

Vojtěch VeselýÚstav pro jazyk český AV ČR [email protected]

K souborovému a kolektivně-látkovému významu substantiv s převahou plurálových tvarůSouborový význam plurálových tvarů substantiv považují J. Panevová a M. Ševčíková (2011) za gramatikalizovanou kategorii. Plurálový tvar může pod-le nich nabývat třech hodnot: pl-single, sg-set, pl-set. Jednotlivé hodnoty jsou rozlišitelné číslovkami: dvě zápalky vs. jedny zápalky vs. dvoje zápal-ky. Naše stanovisko je poněkud odlišné: Schopnost označovat soubory jed-notlivin mají všechna substantiva realizující protiklad singuláru a plurálu, uplatnění souborového významu je však podmíněno pojmenovací potřebou. Ačkoli nelze vyloučit „ad hoc“ vymezení souboru v  komunikační situaci, denotát souborově užitého substantiva je obvykle typizovaný. Jazykovým odrazem jeho typizovanosti je lexikalizace souborového významu: lexikální jednotka zahrnuje nejen sémantické rysy, které popisují vlastnosti prvku/prvků souboru, ale také sémantické rysy, které specifikují příslušný soubor prvků. Lexikalizována je tedy informace, a) z kolika prvků se soubor skládá (ze dvou prvků, nebo – obvykle – z více než dvou prvků, srov. dvoje boty a dvoje zápalky), b) jaké má soubor vnější znaky. Vnější znaky souboru bý-

139

vají vyjádřitelné slovně: dvoje klíče = dva svazky klíčů, troje sardinky = tři krabičky sardinek. Gramatickou povahu má obecná schopnost plurálových tvarů substantiv označovat soubory jednotlivin, jakož i kombinatorika těch-to substantiv s kvantifikátory; souborové významy konkrétních substantiv jsou výsledkem procesu lexikalizace.

Souborový význam mívají substantiva s převahou plurálových tvarů nad singulárovými, např. kozačky, ledviny, sirky. Podle K. Osolsobě (2002, s. 316) jde o substantiva, která stojí na přechodu mezi jmény s plně vyvinutým proti-kladem singuláru a plurálu a jmény pomnožnými. Domníváme se, že převaha plurálových tvarů svědčí o tom, že lexikální význam singulárových a (někte-rých) plurálových podob není identický. Pro substantiva označující soubory je stejně jako pro pluralia tantum charakteristická neutralizace protikladu mezi singulárem a plurálem; první skupinu lze proto chápat jako podmnoži-nu skupiny druhé. Např. substantiva zápalka (v singuláru i „prostém“ plurálu) a zápalky (jako označení souboru zápalek) tvoří samostatné lexikální jednot-ky. V připravovaném všeobecném výkladovém slovníku s pracovním názvem Akademický slovník současné češtiny (dále jen ASSČ) však z  praktických důvodů jako pluralia tantum zpracováváme jen ta jména, která singulárový protějšek buď nemají, nebo jsou od něj významově značně vzdálená.

Některá substantiva s převahou plurálových tvarů nemají primárně vý-znam souborový, ale inklinují k  významu kolektivně-látkovému. Typické je to pro jména poživatin, např. těstoviny, halušky, borůvky, ale i  pro ně-která jména další, např. piliny. Souborové významy těchto substantiv jsou sekundární, srov. např. dvoje těstoviny = dvě balení těstovin. Obecně platí, že substantivum lze ve smyslu kolektivně-látkovém interpretovat tím spíše, čím obtížněji jsou jednotky (kusy) označené poživatiny počitatelné. Poči-tatelnost kusů souvisí s  jejich rozměrem i  s  kompaktností hmoty, kterou vytvářejí. Substantivům neomezeně počitatelným přisuzuje Z. Hlavsa (1975: 75 a 81) denotační rys opakovanosti, substantivům kolektivním a látkovým denotační rys spojitosti. Názvy poživatin s převahou plurálových tvarů jsou na přechodu od názvů počitatelných (meloun, pomeranč) k názvům nepoči-tatelným, tj. singulariím tantum (rýže, cizrna, rybíz) a pluraliím tantum (šun-kofleky);  jednoznačně proto nevyjadřují ani rys opakovanosti, ani rys spoji-tosti. U některých jmen svědčí o lexikalizaci kolektivně-látkového významu zaměnitelnost jejich singulárových a plurálových forem (jména kolektivní a látková jsou prototypicky singularia tantum): kuře s brambory/bramborem.

140

Míru lexikalizace kolektivně-látkového významu lze ověřit statistickou analýzou dokladů z korpusu SYN. Relevantní jsou zejm. tyto ukazatele: 1. Celkový poměr singulárových a plurálových tvarů. Pokud plurálové formy výrazně převažují, svědčí to o značné míře lexikalizace kolektivně-látkové-ho významu. V ASSČ specifikuje zastoupení singulárových a plurálových forem charakteristika „často mn.“ (singulárové tvary jsou doloženy řídce) a „zprav. mn.“ (singulárové tvary nejsou doloženy téměř vůbec). 2. Typ kvan-tifikace substantiva. Zatímco některé kvantifikátory (šest, několik, pár) jsou kompatibilní jen s denotačním rysem opakovanosti, jiné mohou determino-vat substantiva vyjadřující opakovanost i substantiva vyjadřující spojitost. Polyfunkční je např. kvantifikátor hodně, srov. spojení hodně lidí a  hodně vody. Proti sobě lze tedy postavit kontexty, v nichž je denotát substantiva kvantifikován počtem (několik borůvek), a kontexty, v nichž je určena jeho míra, objem, hmotnost apod. (trochu borůvek, sklenice borůvek, litr borůvek, kilo borůvek), příp. oba typy kvantifikace nelze rozlišit (hodně borůvek). Po-kud kontexty druhého typu výrazně převažují, svědčí to o značné míře lexi-kalizace kolektivně-látkového významu.

Předpoklad, že kolektivně-látkové vnímání denotátu souvisí s  velikostí prvků, které denotát konstituují, se potvrdil např. u názvů plodů jablko, ja-hoda, borůvka. Celkový výskyt plurálových tvarů těchto substantiv je srov-natelný (60 až 65 %), liší se však typ jejich kvantifikace. Zatímco substanti-vum jablko se s kvantifikátory počtu spojuje běžně (ve 47 % všech případů kvantifikace), denotát substantiva borůvka se počítá zřídkakdy (v 5 % přípa-dů). Substantivum jahoda se s kvantifikátory počtu kombinuje častěji než borůvka, ale méně často než jablko (ve 14 % případů). Podobně jako borůvka se chovají i další jména poživatin, např. arašíd, těstovina, haluška. Celkový výskyt singulárových tvarů je však u těchto substantiv nízký.

Na distribuci denotačních rysů opakovanosti a spojitosti má nepochybně vliv lexikální sémantika a  vid slovesa, na  němž substantivum s  převahou plurálových tvarů závisí. Ve spojení trhat borůvky je denotát substantiva ne-spojitý, ve spojení natrhat borůvky jej lze chápat spojitě (srov. ? trhat trochu borůvek vs. natrhat trochu borůvek).

LiteraturaHlavsa, Z. (1975). Denotace objektu a její prostředky v současné češtině. Pra-

ha: Academia.Jirsová, A. (1981). Dynamika vztahů singuláru a plurálu u substantiv v češti-

ně. Slovo a slovesnost, 42 (3), 193–199.

141

Kroupová, L. (1985). K pomnožným podstatným jménům v současné češtině. Naše řeč, 68 (2), 57–63.

Osolsobě, K. (2002). Plurale tantum. In P. Karlík, M. Nekula & J. Pleskalová (Eds.), Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové no-viny, 315–316.

Panevová, J. & Ševčíková, M. (2011). Jak se počítají substantiva v  češtině: poznámky ke kategorii čísla. Slovo a slovesnost, 72 (3), 163–176.

Veselý, V. (2009). Lexikální sémantika neurčitých kvantifikátorů v současné češtině. Slovo a slovesnost, 70 (3), 175–192.

Český národní korpus – SYN. Ústav Českého národního korpusu FF UK, Praha. Cit.27.01.2014, dostupný z WWW: <http://www.korpus.cz>.

Aksana MikalayenkaÚstav východoevropských studií FF UK [email protected]

Homonymní příslovce a předložky a problematika jejich disambiguace v Českém národním korpusuTento příspěvek vznikl v rámci projektu „Rozpracování lingvistických krité-rií pro disambiguaci homonymních příslovcí a předložek v Českém národ-ním korpusu“ řešeného na Filozofické fakultě Univerzity Karlovy v Praze z prostředků specifického vysokoškolského výzkumu na rok 2014.

Jedná se o  homonymní jednotky s  místním významem jako například blízko, dovnitř, vstříc, uprostřed, naproti aj., které se v řeči vyskytují buď jako příslovce anebo jako předložky. Pracovní seznam hledaných homonym zpra-covaný autorkou příspěvku způsobem jejich excerpce z ilustračních soupisů uvedených v  odborné literatuře (viz bibliografie) v  současné době čítá 46 jednotek (včetně fonetických variant).

Korpusová sonda těchto jednotek, jejíž výsledky se budou probírat v da-ném příspěvku, ukázala, že tyto jednotky (jako jakákoliv jiná homonyma) jsou dosti komplikovaným materiálem pro morfologické značkování (dále

142

disambiguace) v korpusu. Příspěvek se tedy věnuje problematice disambi-guace daných homonymních příslovcí a předložek v Českém národním kor-pusu a pokusu o řešení této problematiky způsobem rozpracování lingvis-tických pravidel, na základě kterých by bylo možné dosavadní disambiguaci daných jednotek v  korpusu zlepšit. Výzkum se uskutečňuje na  materiálu korpusu SYN 2010.

Jak známo, korpus poskytuje možnost specifikovat vyhledávání lemmat podle jejich slovního druhu, což je při zkoumání homonym velmi účinné. Korpus dále umožňuje získávat údaje o frekvenci hledaných jednotek. Tuto možnost jsme ve výzkumu také využili.

Podle údajů korpusu SYN 2010 lze zkoumané homonymní jednotky roz-třídit do následujících skupin:

1. vedle, uprostřed, okolo, naproti, nedaleko, poblíž, napříč, skrz, doprostřed, vně, vprostřed, zprostřed – větší část dokladů je specifikovaná jako do-klady předložky;

2. dovnitř, blíž, zevnitř, vevnitř – větší část dokladů je specifikovaná jako doklady příslovce;

3. uvnitř, blízko, vstříc, zkraje, zprostředka, doprostředka, vprostředku – po-čet dokladů specifikovaných jako doklady předložky a počet dokladů specifikovaných jako doklady příslovce je skoro stejný, tj. zhruba 50 / 50;

4. blíže, vpředu, navrch, opodál, nablízku, zespodu, svrchu, vespod, zevně, zespoda, odspodu, naspodu, navrchu, nablízko, zboku, dospodu, zespod, dospod, poblíže, vespodu, naspod – všechny doklady jsou specifikované jako doklady příslovce;

5. proti, skrze – všechny doklady jsou specifikované jako doklady před-ložky.

Manuální analýza těchto dokladů specifikovaných korpusem jako pří-slovce resp. předložky však ukázala, že ve velkém množství případů je tato automatická specifikace omylná. Mezi výskyty jednotek označkovaných korpusem jako příslovce jsou zařazeny výskyty, ve kterých jsou tyto jed-notky evidentně předložkami a naopak. Z provedené analýzy vyplývá, že podklady disambiguace daných homonymních jednotek v  korpusu nelze považovat za uspokojivé a tyto podklady tudíž vyžadují svou korekci a zdo-konalení. Způsob řešení této problematiky vidíme v rozpracování přesných lingvistických kritérií pro rozlišování těchto homonym, která by dále bylo možné uplatnit ke zdokonalení disambiguace daných jednotek v Českém ná-rodním korpusu.

143

Kritéria slovnědruhové identifikace daných ambivalentních jednotek ne-jsou řešenou otázkou ani v dosavadních mluvnicích a příručkách. Jediné kri-térium, které bylo možné vyvodit z odborné literatury (viz literatura) – po-kud se jednotka vyskytuje ve spojení se jménem (jméno následuje po před-ložce), jedná se o předložku; pokud se jednotka vyskytuje samostatně, jedná se o příslovce – vyžaduje upřesnění a doplnění (např. zde není brána v úvahu možnost postpozice předložky ke jménu nebo možnost elipsy jména aj.). Ak-tuální úlohou se tak stává pokus o rozpracování takovýchto kritérií.

Příspěvek tedy prezentuje první výsledky této práce, která se uskutečňuje hlavně ve dvou směrech: a) ve směru analýzy sémantických, morfologických, syntaktických a valenčních vlastností každého výskytu každé konkrétní jed-notky ve vybraném reprezentativním korpusu (v daném případě je to korpus SYN2010), tzn. ve směru analýzy jejich lexikálních a gramatických významů, pozicí ve větě, kolokací aj.; b) ve směru vyvození lingvistických kritérií, kte-rá dovolí co nejsprávněji anotovat výskyty daných homonym jako výskyty příslovcí nebo předložek, tzn. ve směru vyvození těchto kritérií na základě provedené analýzy. Výsledky této práce mohou být dále využity ke zdoko-nalení disambiguace homonymních příslovcí a předložek v Českém národ-ním korpusu a k optimalizaci korpusového vyhledávání daných jednotek.

V příspěvku je také diskutována teoretická otázka o morfologické podsta-tě zkoumaných ambivalentních jednotek (příslovce, nebo předložka?).

LiteraturaCvrček V. et al. (2010). Mluvnice současné češtiny 1. Jak se píše a jak se mlu-

ví. Praha: Nakladatelství Karolinum.Čermák, F. (2012). Morfematika a slovotvorba češtiny. Praha: Nakladatelství

Lidové noviny.Čermák, F. & Blatná, R. (Eds.) (2006). Korpusová lingvistika: Stav a modelové

přístupy. Praha: Nakladatelství Lidové noviny.Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK,

Praha 2010. Dostupný z WWW: http://www.korpus.cz.Mluvnice češtiny II (1986). Praha: Academia.Petkevič, V. & Rosen, A. (Eds.) (2011). Korpusová lingvistika Praha 2011 – 3

Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny. Příruční mluvnice češtiny (2003). Praha: Nakladatelství Lidové noviny.

144

Květoslava MusilováÚstav pro jazyk český AV ČR [email protected]

Slovakismy v současné češtině1. Kontaktové jazykové prostředky, slovakismy, pronikaly do  češtiny již od 15. století v podobě fonologicky neadaptované a později také v podobě adaptované; intenzivnější kontakt obou jazyků ve  společném státě Čechů a Slováků (1920–1992), s přerušením v letech  1939–1945) podnítil vznik dal-ších kontaktových jazykových jevů.

2. Náš průběžný průzkum je zaměřen na mapování výskytu slovakismů a jejich funkčnost v češtině po rozdělení ČSFR, tedy v podmínkách očekáva-ného divergentního vývoje obou jazyků. Z důvodu komplexnějšího pohledu na  problematiku užívání slovenských přejímek v  současné češtině využí-váme tyto materiálové zdroje: texty mluvené a psané (v běžné soukromé, polosoukromé i oficiální komunikaci, v médiích veřejnoprávních i komerč-ních a na internetu), průběžný sociolingvistický průzkum zaměřený na čes-ko-slovenské (nejen) jazykové vztahy (2002, 2004, 2007, 2008, 2010, 2013) a  databáze synchronních psaných a  mluvených textů Českého národního korpusu (SYN, SYN2013PUB a ORAL2013).

3. Soubor námi sledovaných kontaktových jevů tvoří především výra-zy a  gramatické vazby, které jsou obsaženy ve  slovnících českého jazyka a dalších jazykovědných publikacích s označením jejich slovenského původu (např. palačinka, středobod, výdobytek, namyšlený, horko-těžko, hrozno, nad ránem, na čele (něčeho) aj.), a dále ty, které se v češtině šíří od 90. let minulé-ho století, mimo jiné také v důsledku společensko-politických změn, komer-cionalizace některých médií a později  s rozšířením užívání internetu (např. překabátit se, pikoška, rozlučka, bitkař, kukláč aj.).

3.1 Při sledování slovakismů v  textech mluvených i  psaných jsme u mnohých zaznamenali zvláště v posledních letech „posun“ v jejich užívání v  tom smyslu, že nekodifikované výrazy se vyskytují nejen v neformální, neoficiální komunikaci, ale stále častěji pronikají do textů oficiálního cha-rakteru ve veřejnoprávních médiích (např. lyžovačka, rozlučka, rozlučkový, dovolenkový, natěšený, bitka, bitkařský, zpravodajce, brát do úvahy aj.). Na so-ciálních sítích a zájmových webech se v českých (nesmíšených) textech za-čínají objevovat (pravděpodobně jako „módní“) výrazy hodnocené tradičně jako citátové, např. podujetí, páčit se.

145

3.2 Prostřednictvím opakovaného sociolingvistického průzkumu jsme porovnávali užívání a hodnocení slovakismů samotnými respondenty. V dotazníkových šetřeních určených široké české veřejnosti jsme pracovali s omezeným okruhem slovakismů lexikálních i gramatických, běžně užíva-ných i  těch méně frekventovaných (podujetí, oznam, páčit se). V  časovém rozmezí jedenácti let (2002–2013) jsme u většiny z nich zaznamenali zvyšu-jící se procenta užívání (rozlučkový, dovolenka, dovolenkový, vlámat se, lyžo-vačka, psychiatrička, bitkař, být na vině, být na čele, horko-těžko, dosáhnout + akuzativ; nejvyšší nárůst byl o 28% – u předložkové vazby nad ránem). Se zvyšující se frekvencí užívání některých slovakismů přímo úměrně roste také procento respondentů, kteří tyto jazykové prostředky již ani jako slo-vakismy nepociťují.

3.3 Jazykový materiál získaný z textů (3.1) a ze sociolingvistického prů-zkumu (3.2) je sice svým rozsahem vcelku reprezentativní, avšak teprve kvantifikace jazykových jevů s využitím databází Českého národního kor-pusu umožňuje systematičtější sledování jejich výskytu.  Prostřednictvím absolutní frekvence jsme zkoumali uplatnění slovakismů v jednotlivých syn-chronních subkorpusech ČNK na časové ose od 90. let 20. stol. po současnost (3.3.1) a také v konkurenci s jejich nekontaktovými protějšky (3.3.2).

3.3.1 Podobně jako v dotazníkových šetřeních jsme zaznamenali nárůst četností některých slovakismů také v synchronních textech ČNK, a  to řá-dově i ve stovkách (např. lyžovačka, psychiatrička, rozlučkový, dovolenkový, dovolenkář, bitkař), nebo dokonce v  tisících (např. bitka, rozlučka, nad rá-nem, natěšený, být na vině); zvýšená frekvence některých slovakismů souvisí s jejich rozšířením do dalších kontextů, jak ukazují kolokace těchto výrazů a zdroje výskytu.  

3.3.2 Funkčnost (vybraných) slovakismů jsem hodnotili v  souvislosti s  tzv. mezijazykovými synonymy: na základě frekvenční distribuce těchto jazykových prostředků jsme stanovili  kvantitativní  poměr mezi variantou kontaktovou, tj. slovakismem (KV), a variantou nekontaktovou (NV). Podle míry konkurence KV a NV jsme vydělili 3 skupiny:

skupina I: převažuje varianta nekontaktová nad slovakismemskupina II: kontaktová  varianta (slovakismus) a  nekontaktová varianta 

existují vedle sebe  v celkem vyrovnaném poměru, přičemž kontaktová vari-anta má nižší frekvenci než nekontaktová

skupina III: kontaktová varianta (slovakismus) má vyšší frekvenci než va-rianta nekontaktová.

Většina námi sledovaných jazykových prostředků spadá do skupiny I a II.

146

4. Závěr: Na základě analyzovaného jazykového materiálu a především kvantitativního porovnání kontaktových a nekontaktových variant v ČNK můžeme sledovat pohyb těchto jazykových prostředků mezi centrem a pe-riferií českého jazykového systému a stanovit tak určité vývojové tenden-ce. Slovakismy zaujímají v současné češtině určitý prostor, některé dokonce vytlačují varianty původní (skupina III: psychiatrička, nad ránem). Přestože i mnohé další slovakismy zaznamenávají frekvenční nárůst, nepřevažují nad variantami nekontaktovými (skupina I a II). Do češtiny pronikají prostřed-nictvím sociálních sítí i slovakismy dříve málo frekventované; rozsah jejich funkčnosti bude však možné zkoumat až s rozšířením korpusových databází o texty tohoto druhu.

LiteraturaBlanár, V. (2000). K otázke slovensko-českých jazykových a jazykovedných

vzťahov v období národného brodenia. In J. Hvišč (Ed.), Slovensko-české vzťahy a súvislosti. Bratislava: T.R.I Médium, 171–178.

Budovičová, V. (1984). Dvojjazyková komunikácia v slovenčine a češtine. In J. Mistrík (Ed.), Studia Academica Slovaca. 13. Prednášky XXII. letného seminára slovenského jazyka a kultúry. Bratislava: Alfa, 115–126.

Kořenský, J. (1998). Čeština a slovenština. In J. Kořenský (Ed.), Český jazyk. Najnowsze dzieje języków słowiańskich. Opole: Uniwersytet Opolski In-stytut Filologii Polskiej, 20–32.

Měšťan, A. (1998). Jak dál ve  slovakistice v České republice. In I. Pospíšil (Ed.), Brněnská slovakistika a česko-slovenské vztahy. Brno: FF MU.

Musilová, K. (2011). Slovakismy v současné češtině (sociolingvistický prů-zkum mezi vysokoškoláky). In M. Ološtiak et al. (Eds.), Vidy jazyka a ja-zykovedy. Inštitút slovakistiky, všeobecnej jazykovedy a  masmediál-nych štúdií. 20.–21. 5. 2010. Prešov: FF PU, 389-396.

Musilová, K. & Sokolová, M. (2004). Funkčnost česko-slovenských kontakto-vých variant v současnosti. In Sborník prací z mezinárodní vědecké kon-ference Jazyk a literatura na Moravě. Studia Moravica 1. AUPO, Facultas Philosophica. Olomouc, 133–146.

Nábělková, M. (2000). Slovakizmy v súčasnej češtine. In J. Hvišč (Ed.), Slo-vensko-české vzťahy a súvislosti. Bratislava: T.R.I Médium, 212–221.

Nábělková, M. (2008). Slovenčina a čeština v kontakte. Pokračovanie príbe-hu. Bratislava: VEDA.

147

Petr NádeníčekInstitut slavistiky Univerzity Christiana Albrechta v Kielu / Ústav pro jazyk český AV ČR [email protected]

Různá pojetí slovotvorné konverze ve světle národních korpusů slovanských a germánských jazykůKomparativní studium slovotvorby na  základě dat získaných z  národních korpusů se jeví v současnosti značně problematickým především, protože se dostupné korpusy značně liší, co se informací ke slovotvorné struktuře slov týče. Ve většině národních korpusů nebyla slovotvorná struktura při značko-vání vůbec zohledněna, takové korpusy obsahují v aktuálních verzích pouze tvaroslovné značkování. Přesto dochází k popisu slovotvorby i na základě dat získaných z těchto korpusů (např. grant GAČR „Slovník afixů užívaných v češtině“). Při takové práci je ovšem nejen nutné vypořádat se s problémy souvisejícími s absencí informací týkajících se slovotvorných struktur slov v korpuse (např. tak není možné hledat přímo určitý afix, nýbrž můžeme najít pouze určitý řetězec a následně nález manuálně roztřídit na doklady hledaného afixu a pouhé řetězce), ale je i potřeba předem definovat některé pojmy ze slovotvorby. A i v korpusech, které už v rámci značkování obsahují i informace o slovotvorné struktuře slov (např. Ruský národní korpus), a tím z velké části předepisují i chápání většiny slovotvorných fenoménů, naráží-me na problém odlišných pojetí některých z  těchto fenoménů. Výborným příkladem tohoto problému je pojetí slovotvorné konverze.

Rozdíly jsou patrné již v zásadním chápání konverze v různých lingvisti-kách. Konverze bývá na jedné straně definována jako bezafixální derivační způsob tvoření slov vyznačující se změnou paradigmatu. Při takovém pojetí se konverze nachází na stejné úrovni jako sufixace, prefixace atd. Na stra-ně druhé bývá konverze ovšem chápána i jako onomaziologická kategorie, a sice jako přechod slovnědruhových forem od jednoho slovního druhu k ji-nému (v české lingvistice je tento fenomén znám spíše pod pojmem transpo-zice). V takovém pojetí konkuruje konverze jako proces mutaci a modifikaci. Ve většině germánských jazyků jako v jazycích s poměrně omezenou flexí převažuje logicky první pojetí konverze, jelikož změna paradigmatu v těchto

148

jazycích s sebou v zásadě přináší i změnu slovního druhu (např. angl. clean ‚čistý‘ → to clean ‚čistit‘, něm. leben ‚žít‘ → das Leben ‚život‘). Rozdíl mezi transpozicí a konverzí zde není tedy natolik transparentní. Ve slovanských jazycích, jež vykazují relativně bohatou flexi, naproti tomu dochází nezřídka ke změně paradigmatu i uvnitř jednoho slovního druhu (např. rus. супруг ‚manžel‘ → супруга ‚manželka‘, pol. logika → logik, čes. malina → mali-ní). Rozdíl mezi onomaziologickou kategorií (pouhá změna slovního druhu) a derivační kategorií (bezafixální odvozování) je zde tedy mnohem zřetel-nějším, což vede v lingvistice mimo jiné k tomu, že je častějším (ovšem ne výhradním) pojetí druhé, tzn. omezení konverze na derivační proces a její zřetelné oddělení od pojmenovacího procesu (tedy transpozice).

Ovšem i v lingvistikách, popř. teoriích a pracích, které se shodnou alespoň na tom, že konverze je derivační, ne onomaziologickou záležitostí, nalezne-me dosti rozdílů. Tyto rozdíly pramení především z různého rozsahu definic pojmu „bezafixální“, jež sahají od odvození nového slova bez jakýchkoliv for-málních změn (např. nemocný (jako adjektivum) → nemocný (jako substanti-vum)), přes odvozování pomocí změny tvaroslovné charakteristiky, a sice jak bez záměny koncovky v základním tvaru (např. prů vod čí (jako substantivum mužského rodu) → průvodčí (jako substantivum ženského rodu)), tak i se zá-měnou koncovky v základním tvaru, tedy za použití tvaroslovných morfémů namístě derivačních morfémů (např. zlý → zlo), až k zohlednění kmenotvor-né přípony a nulového sufixu (např. modrý → modrat, běhat → běh).

Cílem mého příspěvku je ukázat na příkladě některých slovanských a ger-mánských jazyků výhody a nevýhody různých pojetí slovotvorné konverze v jednotlivých jazycích a následně navrhnout pojetí nejvhodnější pro popis slovotvorby češtiny na základě dat získaných z Českého národního korpu-su, konkrétně z korpusu SYN2010. Na závěr svého příspěvku bych se chtěl ovšem pokusit navrhnout i pojetí konverze vhodné pro komparativní popis zohledňující jak slovanské, tak i germánské jazyky a zakládající se na datech získaných z národních korpusů těchto jazyků.

LiteraturaBalteiro, I. (2007). The Direkctionality of Conversion in English, a dia-syn-

chronic study. Bern et al.: Peter Lang.Biermeier, T. (2008). Word-formation in New Englishes, a corpus based ana-

lysis. Berlin: LIT.Clark, E. & Clark, H. (1979). When nouns surface as verbs. Language, 55,

767–811.

149

Dokulil, M. (1962). Tvoření slov v češtině, 1, Teorie odvozování slov. Praha: Academia.

Dokulil, M. (1968). Zur Frage der Konversion und verwandter Wortbil-dungsvorgänge und -beziehungen. Travaux du Cercle linguistique de Prague 3, 215–239.

Dokulil, M. (1982). K  otázce slovnědruhových převodů a  přechodů, zvl. transpozice. Slovo a slovesnost, 43, 257–271.

Filipec, J. (1972). K otázce konverze a přechodu slovních druhů v dnešní češ-tině. Slovo a slovesnost, 33, 122–129.

Fleischer, W. (2000). Die Klassifikation von Wortbildungsprozessen. In: G. Booij et al. (Eds.), Morphologie. Ein internationales Handbuch zur Flexi-on und Wortbildung. Berlin: de Gruyter, 886–897.

Fleischer, W. (2012). Wortbildung der deutschen Gegenwartssprache. Berlin: de Gruyter.

Grzegorczykowa, R., Laskowski, R. & Wróbel, H. (Eds.) (1984). Gramatyka współczesnego języka polskiego, 2, Morfologia. Warszawa: Państwowe Wydawnictwo Naukowe.

Kaliszan, J. (2005). Slovoobrazovanie i formoobrazovanie v russkom jazyke. Poznań: Wydawnictwo Naukowe Uniwersytetu im. Adama Mickiewicza.

Kubrjakova, Je. S. (1974). Derivacija, transpozicija, konversija. Voprosy jazy-koznanija, 5, 64–76.

Kuryłowicz, J. (1974). Dérivation lexicale et dérivation syntaxique. Bulletin de la Société de linguistique de Paris, 37, 79–92.

Lieber, R. (1981). Morphological conversion within a restrictive theory of the lexicon. In M. Moortgat et al. (Eds.), The scope of lexical rules, 161–200.

Lopatin, V. V. & Uluchanov, I. S. (1969). K sootnošenii edinic slovoobrazova-nija i morfologii. In J. N. Jarceva & N. Ju. Švedova (Eds.), Edinicy raznych urovnej grammatičeskogo stroja jazyka i ich vzaimodejstvije, 119–131.

Maslov, Ju. S. (1983). Morfologičeskaja konversija v slavjanskich jazykach. In V. D. Andreev & P. A. Dmitriev (Eds.), Sravnitel’no-tipologičeskie issle-dovanija slavnjanskich jazykov i literatur. Leningrad: Izdatelstvo Lenin-gradskogo universiteta.

Meyer, S. (1984). Zero-derivation and inflection. MIT Working Papers in Lin-guistics. Cambridge, MA, 53–69.

Olsen, S. (1986). Wortbildung im Deutschen. Stuttgart: Kröner.Petr, J. et al. (Eds.) (1986). Mluvnice češtiny, 1, Fonetika, Fonologie, Morfono-

logie a morfematika, Tvoření slov. Praha: Academia.

150

Plag, I. (2006). Word-formation in English. Cambridge: Cambridge Univer-sity Press.

Štěkauer, P. (1996). A Theory of Conversion in English. Frankfurt am Main: Peter Lang.

Švedova, N. Ju. et al. (Eds.) (1980). Russkaja grammatika, Tom I, Fonetika, fonologija, udarenie, intonacija, slovoobrazovanie, morfologija. Moskva: Izdatelstvo Nauka.

Waszakowa, K. (1993). Słowotwórstwo współczesnego języka polskiego, Rzeczowniki z  formantami paradygmatycznymi. Warszawa: Wydaw-nictwo Uniwersytetu Warszawskiego.

Olga NavrátilováÚstav českého jazyka FF MU [email protected]

Slovosled nominální fráze ve staré češtiněSlovosledu nominální fráze nebyla doposud v  české lingvistice věnována soustavnější pozornost. V průběhu vývoje češtiny se slovosledem jmenné fráze, resp. jejích rozvíjejících členů, zabývalo jen několik prací. Jedná se zejména o stručné zmínky v kompendiích dějin češtiny J. Gebauera (1928) a F. Trávníčka (1956) a o studie V. Vondráka (1908, 1928) a A. Tomsy (1912). Jedinou ucelenější a (dle našeho soudu) metodologicky dosud nejlépe zpra-covanou publikací je monografie V. Šmilauera (1930), která však detailně reflektuje slovosled pouze jedné středněčeské památky.

Příspěvek si tedy klade za cíl provést první větší sondu do problematiky postavení rozvíjejících členů jmenné fráze ve staré češtině, která spočívá ze-jména v podání zevrubné deskripce jejich slovosledného chování a ve stano-vení hlavních tendencí, které se ve slovosledu jmenné fráze ve zkoumaném období uplatňují. Stěžejní pozornost při analýze je věnována posesivním zá-jmenům, u nichž je možno pozorovat téměř nejvýraznější proměnu v jejich slovosledném chování. U  těchto zájmen rovněž dosud nepanuje názorová

151

jednota o jejich původním postavení. Někteří z lingvistů předpokládají pro češtinu původní antepozici zájmen 1. a 2. osoby (např. Vondrák 1928), jiní se domnívají, že primárně byla umístěna za řídícím jménem fráze (např. Ber-neker 1900, Horálek 1962). Vzhledem k nejednoznačným a často protiklad-ným výkladům je proto nutné vyjít ze stavu v současné češtině, postihnout základní principy slovosledu novočeských posesivních zájmen a  následně ověřit, zda se tytéž principy uplatňují i v češtině 14. a 15. století.

Materiálovým východiskem je korpus textů ze 14. a 15. století zahrnující vybrané biblické texty 1. a 2. staročeské redakce, prozaické texty vysokého i nízkého stylu, případně i odborná pojednání (veršované památky, jejichž slovosled podléhá rytmické, melodické a rýmové výstavbě textů, jsou vzhle-dem k povaze zkoumaného fenoménu vyloučeny). Analyzovány jsou tyto texty: Genesis, Skutky apoštolů, Evangelium sv. Matouše Bible olomoucké (případně Bible litoměřicko-třeboňské) a Bible mlynářčiny; Kniha rožmberská; Řád korunovánie krále českého a královny; Život Krista Pána; Tomáš Štítný: Řeči nedělní a sváteční; Spisy lékařské české a latinské; Jan Hus: Výklad Otče-náše, Dcerka nebo O poznání cesty pravé k spasení; Staré letopisy české; Kroni-ka trojánská; Petr Chelčický: Sieť viery pravé; Tkadleček; Olomoucké povídky; Sbírka pojednání z oboru ženského a dětského lékařství. Jelikož tato materiálo-vá základna nepostihuje všechny zkoumané jevy (či jen s nedostačující frek-vencí), využíváme pro výzkum rovněž diachronní korpusy češtiny – sub-korpusu Českého národního korpusu DIAKORP a korpusu Staročeská textová banka (včetně jeho interní verze), pro konfrontování zjištěných výsledků se stavem v současné češtině pak zejména korpusu SYN2010.

LiteraturaBěličová, H. & Uhlířová, L. (1996). Slovanská věta. Praha: Euroslavica.Berneker, E. (1900). Die Wortfolge in den slavischen Sprachen. Berlin.Gebauer, J. (1929). Historická mluvnice jazyka českého. Díl IV. Skladba. Pra-

ha: nákladem České akademie věd a umění.Horálek, K. (1962). Úvod do studia slovanských jazyků. Praha: Nakladatelství

Československé akademie věd. 2. dopl. vyd.Šmilauer, V. (1930). Poloha přívlastku v Kronice pražské Bartoše Písaře. Pra-

ha: nákladem Filosofické fakulty Univerzity Karlovy.Tomsa, A. (1912). O slovosledu u Dalimila. Zpráva c. k. r. gymnasia v Kolíně

1911–1912. Kolín: nákladem C. K. realného gymnasia.

152

Trávníček, F. (1956). Historická mluvnice česká III. Skladba. Praha: Státní pedagogické nakladatelství.

Vondrák, V. (1908). O místě atributivního adjektiva a substantivního geni-tivu ve větě. Zborník u slavu Vatroslava Jagića. Berlín: Weidmannsche Buchhandlung, 151–158.

Vondrák, W. (1928). Vergleichende Slavische Grammatik. Band II. Formenle-hre und Syntax. Göttingen: Vandenhoeck & Ruprecht. 2. vyd.

Renata NovotnáÚstav Českého národního korpusu FF UK [email protected]

Antropomorfický princip u konkrétních neživotných substantiv: názvy nebeských tělesCílem tohoto příspěvku je antropomorfický princip  v  jazyce. F. Čermák v knize „Jazyk a Jazykověda“ uvádí, že „v řadě jazyků je rozšířená především charakteristická antropomorfická metafora, spočívající v  přenášení forem původních pro lidské tělo a člověka vůbec na věci, přírodu apod.“ (2011: 226). Může se týkat jak substantiv, např. ucho jehly, úpatí hory apod., tak verb, např. nebe pláče (Čermák 2001: 195). F. Čermák se dále tomuto problému vě-nuje v rámci frazeologie, a to v článku „Somatic Idioms Revisited“ (1995), kde uvádí, že jde o jazykovou univerzálii, při níž se v řadě jazyků užívá ve fraze-ologii názvů částí lidského těla (srov. příklady ze Slovníku české frazeologie a  idiomatiky, být z  ruky, nemít ani hlavu ani patu, jít za  nosem, mít něco v oku,  tahat za uši apod.), a vztahuje ji právě k antropomorfickému principu v jazyce: „somatic idioms may not be such a surprising and unique pheno-menon if they are viewed on a par with and within the framework of all other and well pronounced anthropomorphic features one finds in language in general, such as major and general tendencies of polysemy growth of hu-man vocabulary, which is based on metaphor and metonymy, cf. time goes,

153

the door leads somewhere, the foot of a hill, or the shoulder of a river“. V článku „Povaha a souvislosti některých univerzálií v sémantice a morfologii“ (1999) F. Čermák porovnává antropomorfický princip u tří typologicky odlišných jazyků: „Ve všech třech jazycích (angličtině, finštině a češtině) funguje v ob-lasti nominace antropomorfický princip, projevující se zřetelně i v polysémii (a symboličnosti v ní), velmi podobně.“

V  tomto příspěvku se zaměříme na  skupinu konkrétních neživotných substantiv a okruh sloves, která se s nimi typicky pojí. V rámci této skupiny lze vydělit několik dílčích typů:

a) názvy budov, např. dům, škola, banka, divadlo apod.b) názvy osídlení, např. země, město, obec apod.c) názvy částí budov, např. pokoj, chodba, okno apod.d) názvy přírodních objektů, např. řeka, hora, les, pole apod.e) názvy nebeských těles, např. slunce, hvězda, měsíc apod.f) názvy dopravních prostředků, např. auto, vůz, kolo, loď apod.g) názvy strojů a  přístrojů, např. hodiny, televize, stroj, telefon, počítač

apod.Vzhledem k tomu, že v rámci tohoto krátkého příspěvku není možné vě-

novat pozornost všem výše uvedeným dílčím skupinám, zaměříme se pouze na jednu z těchto skupin, tedy na názvy nebeských těles.

Při zpracování materiálu jsme vycházeli z  frekvenčního seznamu sub-stantiv z  korpusu SYN2005. V  rámci tohoto seznamu jsme se soustředili na substantiva s nejvyšší frekvencí, tj. od substantiva země s frekvencí 92260 do frekvence 2000, konkrétně po substantivum můstek s frekvencí 2013. Vy-hledávali jsme slovesa na pozicích od –2 do +2 od KWIC.

Jak už bylo uvedeno, příspěvek se zaměří na  antropomorfický princip u názvů nebeských těles. Týká se to substantiv slunce, hvězda, měsíc a plane-ta. Jako příklad uvedeme slovesné kolokáty substantiva slunce: vyšlo (131), vychází (71), vyjde (68), vycházelo (44), sklánělo se (24), zašlo (14), sklání se (12), nevyjde (12), nevyšlo (11), vstává (11). Frekvence lemmatu slunce v kor-pusu SYN2005 je 17 477. Celkový počet výskytů sloves s antropomorfickým významem je 410, což je 2,35 % z celkové frekvence substantiva slunce. Vidí-me, že škála sloves s antropomorfickým významem u tohoto substantiva je značně široká: od frekventovaných sloves pohybu vyjít/vycházet, popř. zajít, po méně frekventovaná slovesa sklánět se, vstávat. U substantiv této séman-tické skupiny je typický výskyt sloves označujících pohyb tělesa po obloze, srov. slunce vyšlo (131), hvězda vyšla (16) apod.

154

LiteraturaČermák, F. (1982). Idiomatika a frazeologie češtiny. Praha: Univerzita Kar-

lova.Čermák, F. (1994). Idiomatics. In P. A. Luelsdorff (Ed.), The Prague School

of Structural and Functional Linguistics. Amsterdam/Philadelphia: John Benjamins Publishing Company, 185–195.

Čermák, F. (1995). Somatic Idioms Revisited. In W. Eismann (Ed.)., EURO-PHRAS 95 Europäische Phraseologie im Vergleich: Gemeinsames Erbe und kulturelle Vielfalt. Bochum: Universitätsverlag, 109–119.

Čermák, F. (1999). Povaha a  souvislosti některých univerzálií v  sémantice a morfologii. In Z. Hladká & P. Karlík (Eds.), Čeština - univerzália a spe-cifika. Brno: Masarykova univerzita, 67–76,

Čermák, F. (2011, 2001). Jazyk a  jazykověda. Praha: Nakladatelství Karoli-num.

Čermák F. et al. (2009). Slovník české frazeologie a idiomatiky. Výrazy ver-bální. Praha: Leda.

155

Klára OsolsoběFilozofická fakulta Masarykovy univerzity [email protected]

Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí a jejich morfologické značkování)Cílem našeho příspěvku je poukázat na  některá nekonzistentní řešení ve značkování slovního druhu adjektiv v korpusech řady SYN. Budeme se zabývat problémy, které se týkají nedostatků na  úrovni morfologického slovníku, nikoli na úrovni disambiguace. Ukážeme, jak data získaná z korpu-sů mohou pomoci při úpravě morfologického značkování adjektiv, která lze formálně interpretovat jako adjektiva z kmene přítomného sloves.

Adjektiva na  [(ou)|í]cí jsou v  korpusech řady SYN zpravidla značková-na jako AG.* (přídavné jméno odvozené od  slovesného tvaru přítomného přechodníku, viz http://ucnk.ff.cuni.cz/bonito/znacky.php). Podíváme-li se ovšem blíže na všechny jednotky, které splňují formální předpoklady patřit do takto vymezené kategorie, zjistíme, že ne zanedbatelný počet takovýchto adjektiv má jinou značku, a sice buď je příslušný tvar označkován jako AA.* (adjektivum obyčejné, viz http://ucnk.ff.cuni.cz/bonito/znacky.php), nebo není rozpoznán automatickou morfologickou analýzou a má značku X.*.

Tento stav svědčí o  jisté nekonzistenci popisu na úrovni morfologické-ho slovníku. Popis tvarů adjektiv odvoditelných od uzavřeného slovesného kmene přítomného (nikoli jen od tvaru přechodníku přítomného viz Dokulil a kol, 1986: 321) je na úrovni morfologického slovníku řešen tak, že adjek-tivní tvary jsou pomocí formálních pravidel „rozgenerovány“ od slovesného kmene a je jim v důsledku takové operace přidělena značka AG.*.  Uvedené řešení není ovšem uplatněno důsledně pro všechny varianty, které se v jazy-ce skutečně mohou vyskytovat.

Řadu variant, které zůstaly opominuty, lze získat, analyzujeme-li data z korpusů. Naše analýza vyjde z pozorování dat korpusu SYN (budeme si všímat nedůsledností v morfologickém značkování tvarů na [(ou)|í]cí). Dal-ším zdrojem dat bude webový korpus czTenTen12 a internet. Nebudeme se (v omezené míře) vyhýbat ani intuici rodilého mluvčího, z níž budeme vy-

156

cházet v hodnocení potenciality jazyka na rovině slovotvorby. Na základě pozorování ukážeme vzájemný vztah mezi tvarovými variantami kmene prézentního a slovotvornými variantami/dubletami sledovaného adjektivní-ho typu.

Na  základě takové analýzy navrhneme pravidla pro „rozgenerování“ tvarů příslušných adjektiv i  jejich interpretací na  úrovni morfologického slovníku. Po  implementaci navržených úprav do  slovníku automatického morfologického analyzátoru lze předpokládat, že se a) zvýší konzistence morfologického značkování, b) opraví některé drobné chyby ve značkování i  lemmatizaci adjektiv na  [(ou) |í]cí, c) rozšíří pokrytí slovníku a d) neměl by narůst (až na několik drobností) počet homonymních tvarů nabízených k disambiguaci.

Výsledky tagování, které má k dispozici běžný uživatel korpusu budou v důsledku námi navržených úprav více transparentní, než tomu bylo do-sud. Zobecnění pozorování korpusových dat může pomoci k  formulování přesnějších pravidel popisu variant adjektiv na [(ou) |í]cí nejen pro potřeby popisu těchto variant na poli automatické morfologické analýzy češtiny, ale může být východiskem i pro kodifikační doporučení opřená o zjištění stavu úzu reprezentovaného rozsáhlými korpusovými daty.

LiteraturaBauer, J., Lamprecht, A. & Šlosar, D. (1986). Historická mluvnice češtiny. Pra-

ha: SPN.Cvrček, V. & Vondřička, P. (2012). Morfio. Dostupný z WWW: <http://mor-

fio.korpus.cz/>.czTenTen12 FI MU – czTenTen12. Centrum zpracování přirozeného jazyka

FI MU, Brno. Cit. 21. 11. 2013, dostupný z WWW: <http://ske.fi.muni.cz/bonito>.

Český národní korpus – SYN. Ústav Českého národního korpusu FF UK, Pra-ha. Cit. 21. 11. 2013, dostupný z WWW: <http://www.korpus.cz>.

Dokulil, M. et al. (1986). Mluvnice češtiny 1. Praha: Academia.Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morpho-

logy of Czech). Praha: Karolinum Charles University Press.Hlaváčová, J. (2009). Formalizace systému české morfologie s  ohledem

na automatické zpracování českých textů. Praha: UK. (Disertační práce.)Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč,

91, 1, 13–20.

157

Komárek, M. et al. (1986). Mluvnice češtiny 2. Praha: Academia.Osolsobě, K. (1996). Algoritmický popis české formální morfologie a strojo-

vý slovník češtiny. Disertační práce. Brno: MU.Osolsobě, K. (2011). Morfologie českého slovesa a  tvoření deverbativ jako

problém strojové analýzy češtiny. Brno: MU.Osolsobě, K. (2013). Korpusy a internet jako zdroje dat pro výzkum produk-

tivity periferního slovotvorného typu: adjektiva typu hrůzoucí (hrůza) v korpusech a na internetu. Gramatika a korpus 2012. Hradec Králové: Gaudeamus.

Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková M. (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.

Petkevič, V. (2013). Formal Morpho(Syntax) Properties of Reflexive Particles se si as Free Morphemes. In K. Gajdošová & A. Žáková (Eds.), Natural Language Processing, Corpus Linguistics, Luedenscheid: RAM-Verlag, 206–216.

Spoustová D., Hajič, J., Votrubec, J., Krbec, P., & Květoň, P. (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Lan-guage Processing. Praha: ACL, 67–74.

Šmilauer, V. (1972): Nauka o českém jazyku. Praha: SPN.Internetová jazyková příručka. Dostupná z WWW: <http://prirucka.ujc.cas.cz/>.

158

Hana PelouškováPedagogická fakulta Masarykovy univerzity [email protected]

O nepříjemných pocitech. Specifické konstrukce s několika německými slovesy a jejich protějšky v češtiněJiž několik let vzniká poměrně rozsáhlá kontrastivní studie o  německých konstrukcích s es a jejich českých protějšcích. Nenáležité užití či neužití es patří totiž k častým jazykovým prohřeškům, jichž se dopouštějí čeští rodilí mluvčí na  všech stupních pokročilosti v  německém jazyce. Jejich příčinu spatřujeme v  tom, že některé funkce německého es jsou češtině zcela cizí (formální subjekt, poziční es/“Platzhalter“), v jiných funkcích čeština ekvi-valentní prostředek sice má, ale užívá jej odlišným způsobem a s odlišnou frekvencí (zájmeno, korelát, formální objekt). Důkladná analýza paralelního jazykového materiálu pomáhá odhalit paralely a diskrepance v ekvivalent-ních konstrukcích. Praktickým vyústěním teoretických podkladů jsou určitá lingvodidaktická doporučení jež mohou přispět k eliminaci výše uvedených prohřešků. Tato doporučení mohou být využita ve  výuce či samostudiu němčiny, případně mohou posloužit též při sestavování učebnic a cvičebnic.

Tento příspěvek tvoří velmi malý stavební kamínek výše uvedené studie. Zaměřuje se na poměrně nepočetnou skupinu německých sloves označují-cích nepříjemné psychosomatické stavy, převážně pocity velkého strachu či jiného diskomfortu (např. grauen, grausen, gruseln, schaudern, frösteln, ekeln…). Proživatel, tedy osoba, jež nepříjemný stav pociťuje, je označen ve větě jménem v dativu či akuzativu. Ve větách s těmito slovesy se vysky-tuje nereferenční es, jež před slovesem plní obligatorně funkci tzv. „pozič-ního es“(umožňuje slovesu zaujmout druhou pozici ve větě), za slovesem se vyskytuje fakultativně: Es graust ihm vor der Operation. Vor der Operation graust (es) ihm. Ihm graust (es) vor der Operation. Čeština jazykový prostře-dek ekvivalentní tomuto typu es nemá, což může být pro české rodilé mluvčí učící se němčině zdrojem interferenčních chyb. Neobvyklé pro Čechy je rov-něž označení proživatele jménem v dativu nebo akuzativu, neboť české pro-tějšky těchto sloves označují proživatele zpravidla nominativem: Es graust jedem vor ihr. Každý se jí děsí., ale např.: Mike schauderte. Mika zamrazilo.

159

V odborné germanistické literatuře je es v těchto konstrukcích pouze zmí-něno, popřípadě popsáno jen kurzoricky, neexistuje žádný seznam sloves se shodnými syntaktickými vlastnostmi, nejednotnost panuje ve vymezení funkce es, neboť vykazuje některé vlastnosti formálního subjektu, jiné po-zičního es.Příspěvek se pokouší:

• sestavit co nejúplnější seznam zmiňovaných sloves,• roztřídit slovesa podle významu (pocity strachu, nevolnosti, chladu,

žádosti…),• popsat strukturu konstrukcí s  těmito slovesy, zaměřit se na  označe-

ní proživatele jménem v akuzativu a dativu, zjistit dominantní formu označení proživatele u jednotlivých sloves,

• podchytit a popsat povahu es v těchto konstrukcích,• nalézt odpověď na otázku, v kterých případech/zda vůbec je es v pozi-

cích za slovesem obligatorní,• podchytit a popsat české ekvivalentní konstrukce,• formulovat lingvodidaktická doporučení pro zařazování dané proble-

matiky do výuky (např. která slovesa zařadit na konkrétních stupních pokročilosti).

Výzkum se opírá o jazyková data vytěžená z česko-německého paralelní-ho korpusu projektu InterCorp a rozsáhlého německého korpusu IDS Man-nheim, Cosmas.

Výsledky analýzy korpusových dat jsou konfrontovány s výsledky malé-ho dotazníkového šetření.

Toto šetření zjišťuje:• používanost konkrétních sloves (běžné, málo používané, stylisticky

vysoké/zastaralé),• označení proživatele jménem v akuzativu nebo v dativu u jednotlivých

sloves (dominující forma, jediná možná forma),• obligatornost či fakultativnost es v postavení za slovesem.Respondenty jsou němečtí rodilí mluvčí s gemanistickým vzděláním. Do-

tazy jsou kladeny formou „multiple choice“ (výběr z více možností). 

LiteraturaBuscha, J. (1972). Zur Darstellung des Pronomens es in einer deutschen

Grammatik für Ausländer. DaF 9 (1), 99–103.

160

Kemme, H. M. (1979). Der Gebrauch des „es“ im Deutschen. Eine Darstellung für den Unterricht an Ausländer. München: Goethe-Institut.

Peloušková, H. (2009). Konstruktionen mit dem deutschen Platzhalter es und ihre tschechischen Entsprechungen. In T. Káňa & H. Peloušková (Eds.), Deutsch und Tschechisch im Vergleich I. Korpusbasierte linguistische Studien. Brno: Masarykova univerzita, 90–104.

Peloušková, H. (2010). Zu deutschen ,Es-Konstruktionen‘ und ihren tsche-chischen Äquivalenten. In I. Kratochvílová & N. R. Wolf (Eds.), Kom-pendium Korpuslinguistik: Eine Bestandsaufnahme aus deutsch-tsche-chischer Perspektive. Heidelberg: Universitätsverlag Winter, Germanis-tische Bibliothek 38, 265–274.

Pütz, H. (1975). Über die Syntax der Pronominalform „es“ im modernen Deutsch. Tübingen: Gunter Narr.

Vladimír PetkevičÚstav teoretické a komputační lingvistiky FF UK [email protected]

Slovnědruhová a morfologická homonymie, homografie a homofonie v současné češtiněPříspěvek budou tvořit čtyři části, z nichž část 2 a část 3 jsou ústřední:

1. Autor nejprve stručně uvede všechny hlavní typy homonymie, homo-grafie a homofonie v současné češtině obecně (fonologická, morfonologická, morfematická/morfologická, syntaktická, lexikální) podle Panevové (1980)

a pak se podrobněji zaměří na témata 2 a 3, kterými jsou:2. Dva typy morfematické/morfologické homonymie v  současném psa-

ném jazyce3. Problematika homofonie a homografie4. V závěru se autor také pro úplnost zmíní o:

161

4a. klasické homonymii lexikální, kdy jedno lemma má více významů, ale jednotlivé významy nevykazují rozdíly v paradigmatu (např. „kynout_1“ vs. „kynout_2“)

4b. o homonymii mezijazykové, která komplikuje automatickou disambi-guaci slov v jednojazyčném korpusu, pokud korpus obsahuje slova z cizích jazyků.

Ad 2. Jde o tyto typy homonymie v současném psaném jazyce:1a) homonymie částečná (neprázdný průnik paradigmat), nejčastěji ná-

hodná mezi slovními druhy i uvnitř téhož slovního druhu (např. „zvířenu“ je tvarem slovesa „zvířit“ i tvarem substantiva „zvířena“; „sní“ je tvarem sloves-ného lexému „sníst“ i „snít“)

b) homonymie morfonologická paradigmatická daná asymetrickým du-alismem jazykových jednotek (např. „rukou“ je tvarem Isg nebo Gpl; „sou-vislosti“ je tvarem Gsg, Dsg, Npl, Apl, Vpl), kdy jeden morf jakožto forma vyjadřuje více morfologických funkcí.

Autor představí přehled jednotlivých podtypů spolu s  počty přísluš-ných tvarů a  pak se zaměří na  způsoby, jimiž se v  textu tzv. automatic-kou morfologickou disambiguací stanoví náležitá interpretace na  základě kontextu. Z  jednotlivých typů vybere ty, jež působí při automatické di-sambiguaci pomocí pravidel i  při disambiguaci stochastické největší po-tíže. Pokusí se stanovit hlavní příčiny, proč se úspěšnost disambiguace dosud pohybuje na  maximálně 95 % (vezmou-li se v  úvahu obě míry: re-call (pokrytí) a  precision (přesnost)), a  na  základě uvedených typů, jejich frekvence i  vlastních zkušeností navrhne metody, jak toto číslo zvýšit.  

Ad 3. Problematika homofonie a homografieV  češtině je typická homonymie, kdy jedna psaná forma má víc mor-

fologických a/nebo sémantických interpretací, které se přitom vyslovu-jí stejně, např.: „pobudu“ (= tvar 1.  os. sg. préz. slovesa „pobýt“ a  záro-veň tvar Asg substantiva „pobuda“) či „pranic“ (tvar Nsg a  Asg zájmena „pranic“ a  zároveň tvar Gpl substantiva „pranice“). Jsou však i  případy: (i) homofonie, kdy forma se stejně vyslovuje, ale má různé významy a od-lišně se píše (nehomografní homofona), např. „praští“ vs. „pražští“, nebo „obětí“ vs. „objetí“; tento typ je na  rozdíl od  typu (ii) níže poměrně častý (ii) homografie, kdy se forma stejně píše, ale má různé významy a odlišně se vyslovuje (nehomofonní homografa), např. „panice“ čteno s „i“ je Gsg, Asg,

162

Apl substantiva „panic“, čteno s  „y“ je to Dsg a Lsg substantiva „panika“; tento typ je v češtině výjimečný.

Autor vrhne světlo na tuto dosud neprobádanou oblast a bude klasifikovat typy nehomografních homofon a nehomofonních homograf. Navíc navrhne metody, jak v datech nalézt pokud možno všechny tyto typy, a  to zvláště na základě:

(i) různých typů progresívní a regresívní asimilace („spravit“ vs. „zpravit“)(ii) různých typů neutralizace znělosti na konci slov („pokud“ vs. „pokut“)(iii) opozice „ě“ vs. „je“, „ě“ vs. „ně“ („obětí“ vs. „objetí“)(iv) opozice „i“ vs. „y“, „í“ vs. „ý“, „ú“ vs. „ů“ („pilu“ vs. „pylu“)(v) geminát („nn“, „šš“ a dalších) vyslovovaných jako jeden foném („jed-

noduší“ vs. „jednodušší“)(vi) „di“ / „ti“ / „ni“ ve slovech českého/slovanského původu vs. „di“ / „ti“

/ „ni“ ve slovech hlavně latinského původu, z moderních jazyků pak ve slo-vech přejatých z angličtiny, francouzštiny…

(vi) odlišné morfematické segmentace slova, např. „neu-rologický“ vs. „ne-urologický“.

Při identifikaci typů homofonie využije nástroje TRAN vyvinutého V. Cvrčkem.

Autor uvede též praktický význam vytvořené klasifikace pro tvorbu na-příklad „chytrého“ spelling-checkeru a kontextově pojatého korektoru gra-matiky. Lidé totiž často neumějí nehomografní homofona náležitě odlišit v písmu a chybují právě v nich. Týká se to hlavně psaní „i“ a „y“, obou typů asimilace, neutralizace znělosti na konci slova a nesprávně zapsaných gemi-nát. Klasické příklady:

předložka „s“ vs. „z“ „shlédnout“ vs. „zhlédnout“ „správa“ vs. „zpráva“ „spravit“ vs. „zpravit“ „obětí“ vs. „objetí“ „Břeclavi“ vs. „Břeclavy“ „vížka“ vs. „výška“ „kúra“ vs. „kůra“ „cenou“ vs. „cennou“ „veřejně činí“ vs. „veřejně činní“Autor svůj výzkum materiálově zakládá na  korpusech současné psané

češtiny řady SYN, zejména na  korpusech SYN2010, SYN a  SYN2013PUB,

163

a na pracovních, morfologicky pouze analyzovaných, tj. nedisambiguova-ných korpusech.

Autor na  řadě příkladů také ukáže, jak je ve  zkoumaném ohledu češ-tina bohatá a  složitá, a  též na  příkladech doloží známý fakt, že mluv-čí / pisatel si potencialitu homonymie v  jazyce (v  našem případě češti-ny) zřídkakdy uvědomuje, neboť slovo / větu vyslovuje vždy v  kontex-tu (jazykovém i  situačním), který slovo či větu téměř vždy zjednoznační. Práce je mj. východiskem k řešení problému zjednoznačnění (disambiguace) v psaných, popř. i mluvených korpusech a může z aplikačního hlediska slou-žit - jak uvedeno výše - i zlepšení dosavadních spelling-checkerů a softwaro-vých nástrojů pro gramatickou kontrolu jazyka.

LiteraturaJelínek, T. & Petkevič, V. (2011). Systém jazykového značkování současné

psané češtiny. In V. Petkevič & A. Rosen (Eds.), Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha: Nakladatel-ství Lidové noviny / Ústav českého národního korpusu, 154–170.

Karlík, P., Nekula, M. & Pleskalová, J. (Eds.) (2002). Encyklopedický slovník češtiny. Praha: Nakladatelsví Lidové noviny, heslo Homonymie.

Panevová, J. (1980). Formy a funkce ve stavbě české věty. Praha: Academia.Petkevič, V. (2006): Reliable Morphological Disambiguation of Czech: Ru-

le-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44.

Těšitelová, M. (1966). O morfologické homonymii v češtině. Praha: Acade-mia.

164

Žaneta PixováÚstav bohemistiky FF JU [email protected]

Čeština soudních rozhodnutí ve světle korpusuPředkládaný příspěvek se bude věnovat češtině soudních rozhodnutí a po-kusí se za použití metod korpusové lingvistiky přiblížit některé poznatky o lexikální struktuře současné právní češtiny. Představen bude též badatel-ský proces, shrnutý do tří základních okruhů.

Úvodní slova budou patřit problematice sestavení vlastního korpusu, vy-tvořeného ze zkoumané  množiny dostupných textů soudních rozhodnutí (zhruba 1600 textů). V druhé části bychom se zaměřili na seznámení s vy-užitými analýzami korpusových dat. Třetí okruh by se věnoval prezentaci dosažených výsledků.

V rámci zkoumání lexikální struktury češtiny soudních rozhodnutí byla jako hlavní sféra zájmu zvolena problematika kolokací. Příspěvek by sezná-mil se smysluplnými spojeními s nejvyšší frekvencí výskytu napříč texty, s cílem identifikovat typické víceslovné termíny a typické neterminologické kolokace. Dále by stručně představil obsažený repertoár spojovacích výrazů, včetně četnosti jejich výskytu.

Jak je patrné z odborných časopisů, věnujících se českému jazyku (Naše řeč, Slovo a slovesnost), právnická čeština byla a je četným námětem úvah, např. Bulín, H. – Právnická čeština (Bulín 1918), nebo Svobodová, I. – Ze soudní síně aneb spor o vrátka (Svobodová 1993), a analýz, např. Šťícha, F. – O jazyce soudních rozhodnutí (Štícha 1985), nebo Kořenský, J., Cvrček, F., Novák f. – Juristická a lingvistická analýza právních textů (Kořenský a kol. 1999).

Byly tak definovány základní poznatky o  podobě právní češtiny, které mohou být díky využití metod korpusové lingvistiky ověřeny a zároveň do-plněny o  nová zjištění, opírající se o  analýzy poměrně rozsáhlé množiny žánrově specifického jazykového materiálu současné doby.

Jako výchozí metodologický přístup můžeme označit přístup empirický, umožňující vyvození objektivních závěrů, nezávislých jen na subjektivním výběru, ale na souboru reprezentativních dat.

Výzkum probíhá v rovině synchronní, v centru zájmu je současná čeština. Zkoumaná množina dostupných textů soudních rozhodnutí krajských soudů

165

pochází z období posledních patnácti let a čítá zhruba tisíc šest set textů. Vý-zkum je součástí rozpracovaného doktorského projektu (Styl a jazyk textů soudních rozhodnutí), mapujícího styl a jazyk textů dostupných krajských soudních rozhodnutí.

Příspěvek si klade za cíl nejprve seznámit s konkrétním procesem tvorby korpusu z dostupné množiny textů soudních rozhodnutí (zhruba 1600 textů), a užitými analýzami korpusových dat. Následně plánuje představit dosažené výsledky badatelské práce, s  cílem přispět k ověření a  rozšíření poznatků o podobě právní češtiny soudních rozhodnutí.

LiteraturaBulín, H. (1918). Právnická čeština. Naše řeč, 2 (7).Čechová, M. (1989). Charakteristika administrativního stylu. Naše řeč, 72 (1).Čermák, F. (2001). Jazyk a jazykověda. Praha: Karolinum.Čermák, F. & Filipec, J. (1985). Česká lexikologie. Praha: Academia.Čermák, F. & Klímová, J., Petkevič, V. (2000). Studie z korpusové lingvistiky.

Praha: Karolinum.Čermák, F. & Šulc, M. (2006). Kolokace. Praha: NLN.Daneš, F. (1957). Kapitoly z praktické stylistiky. Praha: Orbis.Jedlička, A. (1970). Základy české stylistiky. Praha: SPN.Kořenský, J., Cvrček, F. & Novák, F. (1999). Juristická a lingvistická analýza

právních textů: právně-informatický přístup. Praha: Academia.McEnery, T. & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh

University Press.Sinclair, J. McH. (1991). Corpus, Concordance, Collocation. Oxford: Oxford

University Press.Svobodová, I. (1993). Ze soudní síně aneb spor o vrátka. Naše řeč, 76 (5).Štícha, F. (1985). O jazyce soudních rozhodnutí. Naše řeč, 68 (2).

166

Petr PlecháčÚstav pro českou literaturu AV ČR [email protected]

Korpus českého verše a možnosti jeho využitíNa konci roku 2013 bylo na půdě Ústavu pro českou literaturu AV ČR do-končena první fáze budování Korpusu českého verše. Kromě standardních lingvistických metadat (lemma, morfologická značka) obsahuje tento korpus i anotace roviny fonetické, metrické a strofické; ke každé slovní jednotce je připojen fonetický přepis, u  každého verše je určeno metrum (jamb, tro-chej…), rozsah (n-stopý), typ klauzule (mužská, ženská…) a metrický vzorec. (V současnosti jsou z hlediska metriky anotovány pouze verše sylabotónic-ké.) Na vyšších rovinách jsou pak anotovány rýmové dvojice, resp. n-tice a pevné formy (sonet, rondel…).

Statistický výzkum má v české versologii bohatou tradici (připomeňme alespoň studie Miroslava Červenky a Květy Sgallové vycházející z desetitisí-ců analyzovaných veršů). Korpus českého verše obsahující  téměř veškerou knižně publikovanou básnickou tvorbu 19. století (téměř 80 tisíc básní, přes 2,5 milionu veršů, 14,5 milionu slov) otevírá nové možnosti pro ověřování, resp. relativizaci jak dřívějších hypotéz (srov. např. Plecháč & Ibrahim 2013), tak hypotéz nově formulovaných. Oproti ručně zpracovanému materiálu se navíc badatali nabízí možnost okamžitě testovat i možné korelace sledované-ho jevu a jevů z jiných jazykových/veršových rovin (např. vztah mezi užitým metrem a  frekvencí slovních druhů, komplexnost intervokalických skupin v klauzulích rýmovaného a nerýmovaného verše atp.).

V  první části příspěvku budou nastíněny algoritmy, na  jejichž základě byly jednotlivé roviny anotovány,  a představeny volně přístupné nástroje, které umožňují práci s daty v korpusu obsaženými (Databáze českých meter; Eufonometr; Frekvenční slovníky české poezie; databáze rýmů Gunstick). K diskuzi pak budou předloženy metody, jejichž využitím by bylo možné automatickou anotaci vylepšit.

Ve druhé části příspěvku budou probrány možnosti a limity výzkumu tzv. zvukové iradiace (srov. Červenka 2002) založeného na statistické analýze klí-čových slov a binomickém testu pro detekci nenáhodných hláskových opa-kování (srov. např. Altmann 1966a).

167

LiteraturaAltmann, G. (1966a). The Measurement of Euphony. In J. Levý & K. Palas

(Eds.), Teorie verše I. Brno: UJEP, 259–261.Altmann, G. (1966b). Binomial Index of Euphony for Indonesian Poetry. Asi-

an and African Studies, 2, 62–67.Čech, R., Popescu, I. I. & Altmann, G. (2011). Euphony in Slovak lyric poetry.

Glottometrics, 22, 5–16.Červenka, M. (2002). Hlásková instrumentace. In M. Kubínová & M. Vojtko-

vá (Eds.), Pohledy zblízka: zvuk, význam, obraz. Praha: Torst, 7–54.Ibrahim, R. & Plecháč, P. (2011). Toward Automatic Analysis of Czech Verse.

In B. P. Scherr, J. Bailey & E. V. Kazartsev (Eds.), Formal Methods in Po-etics. Lüdenscheid: RAM, 295–305.

Plecháč, P.  & Ibrahim, R. (2013). Phonological and Morphological Means Compensating for Non-Metricality in 19th Century Czech Verse. Prace Filologiczne, 59 (3), 31–50.

Plecháč, P. & Říha, J. (v tisku). Measuring the Euphony. In Brikovskije čteni-ja: Metodologija i praktika russkogo formalizma.

Wimmer, G., Altmann, G., Hřebíček, L, Ondrejovič, S. & Wimmerová, S. (2003). Úvod do analýzy textov. Bratislava: VEDA.

Alena PolickáMasarykova univerzita [email protected]

K možnostem zkoumání (identitární) neologie v korpusechNeologie je bezpochyby koncept obtížně uchopitelný v synchronní dynami-ce jazyka (Rey 1976, Martincová 1983, Ziková 2001, Boulanger 2010), jak de-finičně, tak i obsahově. Avšak neologický pocit čtenáře či posluchače (Gar-din et al. 1974, Sablayrolles 2000) je prokazatelně faktorem, který motivuje

168

lingvisty v otázkách anachronické reflexe nad kreativně či degenerativně chápanými lexikálními inovacemi (Odaloš 2005: 6, Polická 2012). V případě lavinového šíření neologismu vede tato reflexe k potřebě zaznamenat uhníz-děný novotvar lexikograficky (Hladká & Martincová 2012), přičemž naděje, které lexikografové vkládají do již existujících korpusů, jsou uspokojeny jen částečně (Šulc 2001). V otázce reprezentativnosti jsou do centra problemati-ky kladeny stylové faktory, sociální původ mluvčích, aj. Pro různé kategorie neologického lexika (neologismy literární, žurnalistické, profesně odborné a substandarně identitární) je pak možné pozorovat jak různou rychlost šíření vůči autoritativnímu centru (Eckert 1997), tak i různou míru zachytitelnos-ti těchto jevů v rámci stávajících korpusů. Tento příspěvek si klade za cíl srovnat různé typy neologismů z hlediska sociolingvistického, na materiálu psanách i mluvených korpusů obecných (série SYN a ORAL) a specializova-ných (PMK, BMK). Okrajově bude zmíněn i aspekt překladový, konkrétně na materiálu francouzsko-českého subkorpusu paralelního korpusu InterCorp a interního korpusu rapových písní RapCor. Právě identitárně příznakové neologismy (generačně či zájmově podmíněné) se zdají být kategorií, která si zaslouží zvýšenou pozornost jak v oblasti dezambiguace častých séman-tických neologismů, tak i v oblasti lematizace graficky neukotveného lexi-ka. Příspěvek poukáže na zkušenosti s těmito jevy v kontextu francouzské lingvistiky a jejích mluvených korpusů. Řešeny budou vybrané lexémy no-vějšího i staršího data s přihlédnutím k aktuálně řešenému projektu neolo-gických výpůjček.

LiteraturaBoulanger, J.-C. (2010). Sur l’existence des concepts de „néologie“ et de „néo-

logisme“. Propos sur un paradoxe lexical et historique. In M. T. Cabré et al. (Eds.), Actes del I Congrés Internacional de Neologia de les Llengües Romàniques. Barcelona: IULA, Sèrie activitats, 22, 31-73.

Gardin, B. et al. (1974). A propos du „sentiment néologique“. Langages, 36, 45-52.

Hladká, Z. & Martincová, O. (2012). Slova v soukromých dopisech: lexiko-grafická sonda. Brno: Masarykova univerzita.

Martincová, O. (1983). Problematika neologismů v současné spisovné češti-ně. Praha: Univerzita Karlova.

169

Odaloš, P. (2005). Slang a argot v 20. a 21. storočí. In Sborník přednášek z VII. konference o slangu a argotu v Plzni 24.–25. září 2003. 1. vyd. Plzeň: Fraus, 6–11.

Polická, A. (2012). O současném francouzském slangu a slangové lexikogra-fii. Cizí jazyky, 56 (2), 13–16.

Rey, A. (1976). Néologisme – un pseudo-concept? Cahiers de lexicologie, 28 (1), 3-17.

Sablayrolles, J.-F. (2000). La néologie en français contemporain. Paris: Ho-noré Champion.

Šulc, M. (2001). Tematická reprezentativnost korpusů. Slovo a slovesnost, 62 (1), 53–61.

Ziková, M. (2001). Ke třem zdrojům lexikálních inovací (Na materiálu sub-stantivních neologismů). In Sborník prací filozofické fakulty brněnské univerzity. Brno: Masarykova univerzita, 157–167.

Alena PoncarováÚstav českého jazyka a teorie komunikace FF UK [email protected]

Sestavování korpusu pro syntaktickou anotaci – práce na celý život?Projekt syntaktické analýzy češtiny z  hlediska centeringové teorie (např. Grosz et al. 1995, Walker et al. 1998) je založen na  částečně automatické, částečně manuální anotaci tzv. center pozornosti (Sidner 1981, Brennan et al. 1987).

Aby bylo možné nárokovat platnost výsledků následné analýzy vzhledem k českým textům obecně, je nutné nejprve sestavit (nejen žánrově) vyvážený korpus autentických českých textů. Není možné využít korpusy již existující (ČNK, PDT) jinak než jako zdroj jednotlivých textů, neboť cílem projektu Centering a čeština – syntaktická analýza je postihnout obecné principy vý-

170

stavby českého textu bez ohledu na mluvenost vs. psanost, připravenost vs. nepřipravenost, oficiálnost vs. neoficiálnost apod.

Centeringová teorie, na jejímž základě bude anotace probíhat, vykazuje několik základních rysů, které jsou určujícími kritérii pro parametry takové-ho korpusu. Prvním z nich je fakt, že centering se zaměřuje na modelování lokálních vztahů v textu, tj. zaměřuje se na vztahy mezi bezprostředně sou-sedícími výpověďmi, přičemž jsou vždy modelovány zpětně: značkování ak-tuální výpovědi vychází ze syntaktického a textového uspořádání výpovědi předcházející. Z toho vyplývá požadavek kladený na korpus, který výrazně ovlivní jeho velikost – kritické výpovědi tvoří pouze polovinu pozic korpusu (ve smyslu počtu výpovědí, je zřejmé, že mezi dvěma bezprostředně násle-dujícími výpověďmi nemusí panovat z hlediska délky, počtu slov, symetrie), zbytek tvoří pro anotaci nezbytné bezprostředně předcházející výpovědi, které ale nelze považovat za  kritické položky analýzy, neboť k  nim není k  dispozici bezprostředně předcházející výpověď.  Další charakteristikou, která ovlivňuje sestavovaný korpus, je metodologický postup, který cente-ringová teorie uplatňuje – při určování vztahů mezi výpověďmi se zaměřuje na jejich jmenné části (označujeme je jako jmenné fráze i v případech, kdy formálně jde o předložkové fráze, pronominalizované subjekty apod.). Kro-mě těchto dvou základních kritérií vyplývajících z aplikované teorie existují další otázky – na základě jakého přístupu (Jedlička et al. 1970, Chloupek et al. 1991, Čechová et al. 2003) stanovit škálu žánrů, funkčních stylů apod., které do korpusu zahrnout; jak technicky zpracovat korpus z hlediska spo-jování textů označkovaných v rámci PDT s texty korpusů ČNK, například z mluvených korpusů; kolik pozic má korpus mít, aby byla zajištěna jeho vý-povědní hodnota a zároveň bylo možné ruční anotaci provést; na které sty-lové distinkce je možné rezignovat v zájmu usnadnění zpracování a které je naopak nutné zachovávat; apod.

Všechny tyto problematické oblasti bych ve svém příspěvku ráda zachyti-la, pokusím se představit i parametry a postup sestavování korpusu, ke kte-rému se přikláníme. 

LiteraturaBrennan, S., Friedman, M. & Pollard, C. (1987). A centering approach to pro-

nouns. In Proceedings of the 25th Annual Meeting of the ACL. Stanford: Association of Computational Linguistics, 155–162.

Čechová, M. et al. (2003). Současná česká stylistika. Praha: ISV, 93–105.

171

Grosz, B., Weinstein, S. & Joshi, A. (1995). Centering: A Framework for Mo-deling the Local Coherence of Discourse. Computational Linguistics, 2, 203–225.

Chloupek, J. et al. (1991). Stylistika češtiny. Praha: SPN, 38–45.Jedlička, A. et al. (1970). Základy české stylistiky. Praha: SPN, 22–53.Mikulová, M. et al. (2005). Anotace na  tektogramatické rovině Pražského

závislostního korpusu. Anotátorská příručka. Praha: ÚFAL MFF UK.Nědolužko, A. (2011). Rozšířená textová koreference a  asociační anafora.

Koncepce anotace českých dat v Pražském závislostním korpusu. Praha: ÚFAL MFF UK.

Sidner, C. (1981). Focusing for Interpretation of Pronouns. American Journal of Computational Linguistics, 7, 217–231.

Walker, M., Joshi, A. & Prince, E. F. (1998). Centering in Naturally-Occuring Discourse: An Overview. In M. Walker, A. Joshi & E. F. Prince (Eds.), Centering Theory in Discourse. Oxford: Oxford University Press (Cla-rendon), 1–25.

Petr PořízkaKatedra bohemistiky FF UP [email protected]

Olomoucký mluvený korpus – pilotní verzePříspěvek představí dlouhodobý projekt (vznikající od r. 2003 dosud) a pilot-ní verzi Olomouckého mluveného korpusu (dále OMK). Prostor bude věnován jak teoretickým aspektům (struktuře korpusu, způsobu zpracování tran-skriptů ad. aspektům), tak praktickým demonstracím (zvolenému korpuso-vému manažeru, možnostem vytěžování dat atp.). Představen bude rovněž formát transkriptů i tzv. SVIFT parser, který je určen pro konverzi z textové-ho formátu do XML. Tento korpusový XML formát je základem pro pozdější praktické využití korpusu – vytěžování dat, neboť umožňuje strukturovat

172

a hierarchizovat jak samotná autentická data, tak transkripty anotovat přiřa-zenými metadaty. Tato metadata jsou důležitou součástí transkriptů, neboť jejich prostřednictvím je možno data (transkripty) filtrovat podle různých kritérií, nejčastěji sociolingvistických parametrů.

Jedním z cílů projektu bylo od počátku vybudovat takovou databázi mlu-vené češtiny, která by pokud možno co nejkomplexněji a neredukcionistic-ky odrážela fakticitu i specifika mluvených komunikátů. Transkripty OMK proto existují ve dvou verzích – je pořizována tzv. duální forma přepisu, (1) přepis fonetický (reflexe skutečného znění komunikátů: detailní zachycení segmentální roviny, vč. hláskových změn v proudu řeči; základní aspekty roviny suprasegmentální: zejm. pauzy a  intonační typy z  hlediska komu-nikačně významového) a  (2) přepis ortografický (pro potřeby lingvistické anotace: např. pro pozdější lemmatizaci či další lingvistickou anotaci, zejm. morfologické značkování):

příkladORT  protože on si si fakt myslel , že musím mít důvodFON  p+že von s+ si fag+ mis+e:l ->/ že musím _ míd _ dúvot

Oběma textovým formám je předřazena tzv. hlavička dokumentu, v níž jsou zachyceny (krom jiných aspektů) především sociolingvistické parame-try a  tematická struktura komunikátů. Mezi sociolingvistické parametry mluvčích, s nimiž se v OMK pracuje, patří: pohlaví, věk a věkové kategorie, vzdělání, povolání, místo původu, všechny místa pobytu (vč. časového údaje o délce pobytu v daných lokalitách), nářeční oblast původu, nářeční oblast nejdelšího pobytu mluvčího. Se všemi parametry lze při vyhledávání v OMK pracovat a používat je jako vyhledávací filtry. K těmto parametrům jsou při-řazeny další údaje – rok pořízení komunikátu, jednotlivá témata (fungující v transkriptu na dílčí tematické sekce) a další relevantní poznámky ke ko-munikátům: např. vztah mezi mluvčími, popis komunikační situace (je-li pro komunikát relevantní).

OMK sestává z dvou obsahově i časově odlišných částí:

1. OMK-OL: sběr z  let 2003–2007 – nahrávky a  transkripty olomouc-ké městské mluvy; FOR+NEFOR komunikáty (podobně jako v  PMK a BMK - je tu tedy jistá kompatibilita)

173

2. OMK-CZ: sběr z  let 2008–dosud – komunikáty s celého území Čech, Moravy i Slezska

 Základním formátem transkriptů je tzv. formát SVIFT (Structured Vertical

and Interlinear Format of Transcription): text v prostém .TXT, strukturovaný a  vícevrstvý, schopný zachytit podstatné aspekty mluvených komunikátů v samostatných vrstvách. Tento textový formát je konvertován prostřednic-tvím parseru (svift2xml-parser; http://corpus.upol.cz/svift2xml-parser) do fi-nální podoby anotovaného a strukturovaného XML dokumentu (SVIFT-XML formát).

Důležitým aspektem kterékoli jazykové databáze je nástroj umožňující její vytěžování. Z důvodů jisté kompatibility s mluvenými korpusy ČNK jsme se rozhodli zveřejnit OMK i ve verzi pro korpusový manažer Manatee/(Boni-to, NoSketchEngine), přestože implementace do systému Manatee vyžaduje jisté (redukcionistické) úpravy a práce s paralelním přepisem není v  tom-to systému ideální. V systému Manatee jsou např. omezené možnosti práce s paralelním (interaktivním) vyhledáváním dat; není možno v něm zobrazit komunikát v úplnosti nebo např. vizualizovat „replikovost“ mluvených ko-munikátů, vč. onoho typické překrývání replik. Tato verze OMK tedy – po-dobně jako ostatní české mluvené korpusy v systému Manatee – umožňuje především využívat možností typického konkordančního nástroje.

Hlavním korpusovým nástrojem, který byl pro vytěžování OMK vybrán, je EXMARaLDA (http://www.exmaralda.org/en_index.html); nástroj, který adekvátně vizualizuje dialogický charakter komunikátů, vč. specifik mlu-venosti (simultánnost/překrývání replik, nonverbální komunikace, kontex-tová sémantika, metatext), a který zároveň nabízí dostatečné možnosti pro vytěžování dat. Použit je tzv. partiturní způsob zápisu. Tento multimodální nástroj je součástí sady nástrojů, která tvoří velmi komplexní korpusový manažer - viz součásti systému EXMARaLDA:

• CoMa: korpusový manažer, nástroj pro tvorbu korpusu• Exact: nástroj pro vytěžování dat (vč. filtrování, práce s metadaty, po-

kročilého dotazovacího jazyka - reguláry, XSL i XPath)• Partitur Editor: nástroj pro přepis komunikátů• EXMARaLDA je navíc kompatibilní s většinou podobných multimo-

dálních nástrojů (např. Transana, ELAN, ANVIL, Transcriber) – umož-ňuje pracovat s transkripty ve formátech jiných partiturních multimo-dálních nástrojů, příp. umožňuje export; implementován je i fonetický

174

nástroj Praat (což je pro foneticky orientovaný korpus velká deviza); samozřejmostí tohoto softwaru je možnost integrace audia/videa k jed-notlivým transkriptům

Potřebám projektu OMK bude sloužit webový portál http://corpus.upol.cz.

LiteraturaPořízka, P. (2009). Transkripce a sběr dat v korpusech mluvené češtiny. Di-

sertační práce (rkp.). Olomouc.Pořízka, P. (2009). Olomouc Corpus of Spoken Czech: characterization and

main features of the project. Linguistik online, 38 (2).Pořízka, P. (2008). Olomoucký mluvený korpus – stav, metodologie, charak-

teristika. In F. Štícha & M. Fried (Eds.), Grammar and Corpora / Grama-tika a korpus 2007. Praha: Academia, 191–198.

Pořízka, P. (2008). Anotace orálních korpusů. Olomoucký mluvený korpus jako model. In M. Kopřivová & M. Waclawičová (Eds.), Čeština v mluve-ném korpusu. Praha: NLN, 177–189.

175

Olga RichterováÚstav Českého národního korpusu FF UK [email protected]

Anna ČermákováÚstav Českého národního korpusu FF UK [email protected]

Jak malá je malá místnůstka? Korpusová studie deminutivnosti se zaměřením na sémantické aspekty.Potenciál vytvářet deminutiva v češtině je obrovský a představuje jednu z je-jích svébytných charakteristik: v tomto rozsahu ho najdeme pouze u něko-lika málo dalších jazyků. Škála morfologických možností tvoření deminutiv je podrobně popsána v hlavních mluvnicích češtiny (Havránek & Jedlička 1981, Daneš et al. 1987, Grepl et al. 1995, Štícha et al. 2013), avšak sémantic-kým aspektům tohoto jevu se věnuje pozornosti poměrně málo. Nejpodrob-něji se jim věnuje Štícha et al. (2013), avšak ani zde se nenabízí systematič-tější pohled. V zásadě se u všech autorů, s většími či menšími podrobnostmi, jedná o konstatování, že deminutiva vyjadřují jednak menší míru vlastnosti, jak naznačuje jejich název, a dále nabízejí možnost určitého subjektivního hodnocení (tj. vyjádření pragmatického rozměru). Deminutivní sufixy jsou také slovotvorné – jde o případy, kdy dochází ke zřetelnému posunu význa-mu (srov. rameno – ramínko).

Tato studie se věnuje specifickému jevu, kdy dochází ke dvojitému zdrob-nění a setkává se vedle sebe deminutivní forma morfologická a analytická, vyjádřená samostatným lexémem. V jakých případech nastává souběh těch-to dvou forem a co vyjadřuje z hlediska sémantiky? To je výchozí otázka představovaného výzkumu. Pro podrobnou korpusovou analýzu tohoto jevu bylo zvoleno spojení malá místnůstka. Deminutivnost není v korpusech ČNK označkována a pouhé vyhledání jednotlivých forem si u některých sufixů žádá časově náročnou manuální analýzu. Infix –ůst- (-ost + -ka) je jedním z těch případů, kdy výsledky získáváme s vysokou přesností; byl proto zvo-len pro podrobnější zkoumání. Objevuje se především u abstrakt (radůstka, libůstka, slabůstka, drobnůstka, blbůstka, tajnůstka atd. s více než 40 hapaxy

176

– bizarnůstka, chytrůstka atd.) a méně u konkrét (což je samo o sobě nety-pické, srov. Daneš et al., MČ 2, str. 301). Konkréta spojující se s tímto infixem v SYNu* frekventovaněji byla pouze čtyři: místnůstka (208 výskytů), pevnůst-ka (40 výskytů), kůstka (31 výskytů) a  bytůstka (19 výskytů). Nápadným rysem deminutivní místnůstky je přitom častá modifikace adjektivem malý (a dalšími deminutivními adjektivy: malinká, maličká, nejmenší, menší, ma-loulinká, malinkatá, případně miniaturní).

Výsledky podrobné, a z hlediska korpusových dat vyčerpávající, séman-tické analýzy spojení malá místnůstka budou dále ověřeny z kontrastivního pohledu na datech InterCorpu ve třech jazycích (angličtina, němčina, finšti-na) (viz také Káňa 2011), z nichž ani jeden nedisponuje příliš bohatým mor-fologickým systémem pro tvorbu deminutiv. Hlavním cílem práce je tedy v rámci podrobné případové studie popsat některé ze sémantických funkcí deminutiv v češtině, jasněji viditelné prostřednictvím dvojitého zdrobnění. Kombinace morfologického a  analytického vyjádření deminutivnosti pak, nahlédnuta prizmatem překladových řešení, ukáže, zda jsou tyto funkce na-tolik výrazné, aby byly v překladu (systematičtěji) reflektovány.

LiteraturaDaneš, F. et al. (1987). Mluvnice češtiny 2. Praha: Academia.Grepl, M. et al. (1995). Příruční mluvnice češtiny. Praha: NLN.Havránek, B. & Jedlička, A. (1981). Česká mluvnice. Praha: Státní pedagogic-

ké nakladatelství.Káňa, T. (2011). Deminutiva a  deminutivní vyjádření v  češtině, němčině

a angličtině – hledání hranic. In Korpusová lingvistika Praha 2011 – 1 InterCorp. Praha: NLN, 168–185.

Štícha, F. a kol. (2013). Akademická gramatika spisovné češtiny. Praha: Aca-demia.

* Korpus SYN v době vyhledávání – prosinec 2013 – obsahoval následující korpusy: SYN2000, SYN2005, SYN2010, SYN2006pub, SYN2009pub a dosahoval velikosti 1 568 079 272 pozic.

177

Alexandr RosenÚstav teoretické a komputační lingvistiky FF [email protected]

Michala AdamováÚstav Českého národního korpusu FF [email protected]

Martin VavřínÚstav Českého národního korpusu FF [email protected]

Extrakce lexikálních ekvivalentů z paralelního korpusuParalelní korpusy skrývají velké množství informací, které se vyjeví teprve při srovnání dvou nebo více verzí daného textu. Informace z více verzí se navzájem doplňují, takže např. víceznačnost obsaženou ve výrazu jednoho jazyka lze vyřešit pomocí jednoznačného ekvivalentu v jazyce druhém.

Běžně se pracuje se zarovnáním paralelních textů na úrovni vět, které umožňuje relativně pohodlné kontrastivní zkoumání nejrůznějších jevů na konkordancích ve dvou a více jazycích způsobem obvyklým u jednojazyko-vých korpusů. Zarovnání na úrovni vět je však pro řadu účelů příliš hrubé. I metody a nástroje dostupné uživateli jednojazykového korpusu prostřed-nictvím běžného korpusového manažeru předpokládají práci na úrovni slov-ních forem, lemmat a morfosyntaktických značek. Pro srovnatelné využití potenciálu paralelního korpusu tak chybí odpovídající anotace (zarovnání na úrovni podvětných celků) i nástroje. Trpí tím zejména kontrastivní vý-zkum lexika.

Automatické metody zpracování paralelních textů však už dnes nabízejí řešení. Kromě automatického zarovnání po větách lze zarovnávat i kratší celky, nejčastěji rovnou textová slova (Och & Ney 2003). Přes problémy s překladem pomocných slov, složenin, víceslovných výrazů, volných parafrá-zí a podstatných slovosledných změn jsou metody k tomu užívané pro řadu účelů dostatečně spolehlivé. Slouží např. k automatickému hledání lexikál-ních překladových ekvivalentů (Tiedemann 2000) nebo promítání anotace z jednoho jazyka do druhého (Padó & Lapata 2009). Automaticky extrahované

178

překladové ekvivalence tak mohou pomáhat jednak lexikografům, překlada-telům i běžným uživatelům lépe porozumět výrazům a jejich užití, ale po-sloužit i dalším automatickým nástrojům.

V rámci pilotní studie na beletristických textech česko-polské části para-lelního korpusu (asi 12 mil. slov v každém jazyce) bylo zarovnáno 8,7 mil. dvojic lemmat, z toho 528 tisíc dvojic bylo různých (Kaczmarska & Rosen 2013). Výsledný slovník (dostupný on-line na adrese http://utkl.ff.cuni.cz/~rosen/public/cspl_lex/ ) lze třídit a filtrovat podle různých kritérií, včet-něfrekvence dvojice lemmat v korpusu. Zatím byl využit pro kontrastivní analýzu deminutiv, identifikaci chybějících pojmů ve druhém jazyce a hle-dání ekvivalentů obtížně přeložitelných lexémů.

V tomto příspěvku se věnujeme extrakci překladových ekvivalentů ze všech česko-cizojazyčných částí korpusu InterCorp, které obsahují nadlimit-ní počet slov (limit bude ověřen empiricky – je dán vztahem mezi úspěšností zarovnání po slovech a objemem zpracovávaných textů). Výsledek bude au-tomaticky očištěn od nežádoucích ekvivalencí, které lze detekovat automa-ticky (např. čísla, interpunkce). Filtrováním podle frekvence lze dále zvýšit přesnost metody, ale ve výsledku se pak neobjeví také méně frekventované, ale náležité ekvivalence. Ve výsledných slovnících, dostupných na základě licence Creative Commons, budou uvedeny frekvence dvojic ekvivalentů odděleně pro jednotlivé typy textů (beletrie, publicistika, právnické texty, filmové titulky).

Uživatelům může přinést ještě větší užitek integrace vygenerovaných le-xikálních ekvivalencí s vyhledávacím rozhraním. Kromě prostého vyhledá-vání ekvivalentů v druhém jazyce (spolu s frekvencemi/procenty podle typů textu) a zvýraznění ekvivalentu klíčového slova v paralelních konkordan-cích bude možné si slovník v rámci webové služby nechat vygenerovat na přání z vlastního subkorpusu.

Ukázky využití vygenerovaných slovníků pomocí vyhledávacího rozhra-ní budou součástí prezentace.

LiteraturaKaczmarska, E. & Rosen, A. (2013). Między znaczeniem leksykalnym a wa-

lencją – próba opracowania metody ekstrakcji ekwiwalentów na pod-stawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej, 48, 103–121.

179

Och, F. J. & Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1), 19–51.

Padó, S. & Lapata, M. (2009). Cross-lingual annotation projection of semantic roles. Journal Artificial Intelligence Research, 36, 307–340.

Tiedemann, J. (2000). Automatical lexicon extraction from aligned bilingual corpora. Master’s thesis, Otto-von-Guericke-Universität Magdeburg.

Hana SkoumalováÚstav teoretické a komputační lingvistiky FF UK [email protected]

Jiří ZnamenáčekFilozofická fakulta Univerzity Karlovy [email protected]

Vladimír PetkevičÚstav teoretické a komputační lingvistiky FF UK vladimí[email protected]

Využití valenčních slovníků při tvorbě českého treebankuV projektu Treebank češtiny na základě gramatiky budujeme rozsáhlý kor-pus syntakticky anotovaných textů. Syntaktickou anotaci provádí stochas-tický MaltParser, který označuje závislosti v syntaktickém stromě a u jed-notlivých uzlů vyznačuje jejich syntaktickou funkci. Stochastický parser při své práci využívá pouze to, co se naučil při tréninku na trénovacích datech a nijak naopak nevyužívá lingvistické znalosti. V našem projektu jsme se rozhodli využít existující elektronické valenční slovníky k tomu, abychom jednak určili typ příslovečného určení a jednak abychom provedli kontrolu správného označení objektů a příslovečných určení.

180

K  dispozici máme tyto valenční slovníky: VALLEX – velmi podrobný slovník, který obsahuje rámce tří a půl tisíce českých sloves; PDT-Vallex – slovník obsahující valenční rámce pěti a půl tisíce sloves a dále rámce sub-stantiv a adjektiv vyskytujících se v korpusu PDT. Třetím zdrojem je slovník vznikající jako vedlejší produkt při pravidlovém značkování Českého národ-ního korpusu. Tento slovník nemá podobu klasického slovníku, ve kterém jsou sepsána hesla a u každého je soupis jeho vlastností, ale je naopak řazen podle jednotlivých vlastností (např. sloveso je tranzitivní, vyžaduje objekt v dativu apod.) a u každé takovéto vlastnosti je seznam sloves s příslušnou vlastností. Slovníky se pochopitelně překrývají, ale jejich sjednocení obsa-huje popis cca 10 tis. sloves.

Výstup z MaltParseru je převeden do formátu PAULA XML, který je jed-nak jedním ze standardů pro lingvistickou anotaci, jednak slouží jako možný vstupní formát pro konverzi do korpusového manažeru ANNIS, ve kterém zpřístupňujeme náš korpus. Během této konverze kontrolujeme správnost lingvistických funkcí přiřazených jednotlivým uzlům a  dále zjemňujeme označení příslovečných určení – místo značky Advb přiřadíme informaci, zda jde o časové, místní/směrové, kauzální nebo způsobové příslovečné ur-čení. V budoucnosti je možné pak toto určení ještě dále zjemňovat na další podtypy těchto určení.

Kontrola lingvistických funkcí a přiřazení typu u adverbiálií se provádí takto: V analyzovaném stromě zjistíme, jaká je povrchová realizace předpo-kládaného objektu nebo příslovečného určení, tzn. jaký má tento člen pád, pád s předložkou, nebo zda je to vedlejší věta, infinitiv atd. Potom ve slov-níku vyhledáme všechna doplnění příslušného slovesa, která mohou být re-alizována příslušným způsobem. Pokud je takový člen pouze jeden a  jeho lingvistická funkce uvedená ve slovníku se shoduje s  lingvistickou funkcí v analyzovaném stromě, znamená to, že lingvistická funkce byla analyzová-na správně. Pokud jedné povrchové realizaci odpovídá několik členů rámce ve slovníku a přiřazená lingvistická funkce je v této množině, považujeme přiřazení lingvistické funkce za správné. V ostatních případech přepíšeme lingvistickou funkci množinou (disjunkcí) vyhovujících lingvistických funk-cí ze slovníku.

Přiřazení typu adverbiále se provádí takto: Nejdříve se snažíme určit, anebo vyloučit časové určení, které je oproti jiným adverbiáliím specifické v povrchové realizaci – součástí takového příslovečného určení je obvykle slovo, které má význam časového okamžiku nebo úseku (hodina, den, rok,

181

Vánoce atd.). Při práci na pravidlové desambiguaci českých textů byl pořízen vyčerpávající seznam takovýchto slov a je při tomto určování použit. Pokud nebylo tímto způsobem určeno časové adverbiále, vyhledají se ve slovníku (stejně jako bylo popsáno výše) všechny typy příslovečných určení, které odpovídají dané povrchové realizaci. Protože slovníky z řady Vallex obsahují mnohem podrobnější klasifikaci adverbiálií, než jakou chceme používat my, sloučíme „příbuzné“ typy do obecnějších nadtypů (adverbiále času, místa, způsobu, kauzální) a  lingvistickou funkci Advb nahradíme množinou vý-sledných typů.

LiteraturaJelínek T. (2011). Systém pro syntaktické značkování velkých korpusů. In A.

Rosen & V. Petkevič (Eds.), Korpusová lingvistika Praha 2011. 3 Gramati-ka a značkováníkorpusů. Praha: Nakladatelství Lidové noviny.

Jelínek T., Petkevič V., Rosen A. & Skoumalová H. (2012). Czech Treeban-king Unlimited. In Proceedings of the META-RESEARCH Workshop on Advanced Treebanking 2012. Istanbul: ELRA.

Lopatková M., Žabokrtský Z. & Kettnerová V. (2008). Valenční slovník čes-kých sloves. Praha: Nakladatelství Karolinum.

Urešová Z. (2011). Valenční slovník Pražského závislostního korpusu (PDT-Vallex). Praha: Dizertační práce MFF UK.

182

Tess SlavíčkováSUNY Empire State College / University of New York in Prague [email protected]

Investigating nepřizpůsobivý (inadaptable) as a keyword in critical analysis of Czech press reports on RomaMedia play an important role, not only in setting the agenda for public di-scussion of the issues of the day, but also in determining the language and argumentation strategies that are deployed in such discussion. The linguistic analysis on which this paper is based (Slavíčková & Zvagulis 2014) considers rhetorical media representations of actors, processes and actions on “the Roma issue”, and the authors argue that dysphemistic language and other exclusionary journalistic practices often pertain to reporting on Roma citi-zens. In this conference paper, the author looks at the representation of the Roma minority in the Czech print press , integrating the research discipline of Critical Discourse Analysis (CDA) (see Reisigl & Wodak 2001) backed up with data from SYN2013PUB of the Czech National Corpus, as a means of determining the extent to and ways in which Roma are otherized linguisti-cally.

Corpus data are an invaluable resource whose verifiability provide va-luable support to the more speculative and selective analysis of CDA (see Hardt-Mautner 1995; Gabrielatos & Baker 2008). Such data play an impor-tant role at the initial stages of research, by highlighting patterns of salient keywords and collocations in large quantities of text; and secondly, at a later stage, by enabling the researcher to focus on these patterns in their actual context, which can help with empirically valid selection of a much smal-ler number of texts for closer examination using CDA. SYN2013PUB also enables cross-checking of keywords across different newspapers to identify variation in journalistic style. It could also, for example, be used diachroni-cally, either using filters within the same corpus, or contrastively with older corpora to detect consistency, change or temporary fluctuation in language use over time.

In this paper, I will present some of the outcomes of a short CDA study that was initiated by corpus work surrounding the keyword přizpůsobivý

183

(adaptable) and its far more frequently and controversially deployed anto-nym nepřizpůsobivý (inadaptable) as a typical noun/adjectival descriptor for Roma (and, to a lesser extent, other socially excluded minorities), and com-mon collocations of its wide range of forms in the Czech print media. This small example keyword can be used as evidence that, while the concept of dysphemism typically encompasses explicitly derogatory and usually pro-scribed naming strategies, at the micro-text level it can also include more common “acceptable” (i.e. legally or ethically permissible, or euphemistic/dysphemistic) stereotyping devices. The use of a  corpus can also provide information such as whether a keyword occurs predominantly in quotati-ons used by journalists as informants or in other unattributed contexts, or whether it is used more frequently in some newspapers rather than others. As a component of CDA, corpus data can be seen as an empirical tool that functions as a basis for further extended media research. This can include the semantic analysis of, for example, inclusionary/exclusionary pronoun use, topoi, weak modality or stylistic features such as metaphor and cliché, as well as broader text-related issues such as narrative structure. In this way, a  single keyword can open up for analysis a more manageable but safely representative range of relevant texts. 

ReferencesReisigl, M. & Wodak, R. (2001). Discourse and Discrimination: Rhetorics of

Racism and Anti-semitism. London: Routledge.Gabrielatos, C. & Baker, P.  (2008). Fleeing, Sneaking, Flooding: A  Corpus

Analysis of Discursive Constructions of Refugees and Asylum Seekers in the UK Press, 1996–2005. Journal of English Linguistics, 36 (1), 5–38.

Hardt-Mautner, G. (1995). Only connect: Critical Discourse Analysis and Corpus Linguistics. UCREL Technical Papers, vol. 6, UCREL-University of Lancaster, UK.

Slavíčková, T. & Zvagulis, P. (2014, forthcoming). Monitoring anti-minority rhetoric in the Czech print media: A critical discourse analysis. Journal of Language and Politics.

184

Jindra SvětláÚstav pro jazyk český AV ČR [email protected]

Uvádění stupňovaných tvarů u adjektiv a adverbií v novém všeobecném výkladovém slovníku češtinyV roce 2012 byly zahájeny práce na Akademickém slovníku současné češtiny (ASSČ), který má obsahovat 120 000 až 150 000 slovníkových hesel. Ve slov-níku je omezeno hnízdování (přihnízdovány jsou pouze zdrobněliny a jmé-na přechýlená); všechna adjektiva (včetně vztahových) a  adverbia budou zpracována jako samostatná hesla. Každé heslo obsahuje strukturovaný vý-klad významu, přiměřeně bohatou exemplifikaci dokumentující typická užití dané lexikální jednotky, propracovaný popis základních sémantických vzta-hů i rozšířený popis gramatických vlastností. Konkrétně u adjektiv to zna-mená, že vedle údaje o slovním druhu uvádíme navíc též informace o stup-ňování. Slovník spisovného jazyka českého (SSJČ) a Slovník spisovné češtiny (SSČ) uváděl pouze nepravidelné tvary, popř. specifika některého významu; poprvé je důsledně uvádí Slovník súčasného slovenského jazyka (SSSJ), a to v záhlaví, pokud platí pro všechny významy, nebo u konkrétního významu.

V Akademickém slovníku současné češtiny u stupňovatelných adjektiv uvá-díme 2. stupeň (včetně kodifikované variantní podoby) v rámci tvaroslovné charakteristiky, a to nejen na základě Internetové jazykové příručky – vše zároveň ověřujeme na materiálu psaných textů, zda je to opravdu doloženo (a  v  některých případech nejsme s  IJP v  souladu); u  adjektiv vztahových uvádíme tento údaj v  případě lexikalizace kvalifikačního významu (k  zá-kladním typovým kvalifikačním významům primárně vztahových adjektiv patří význam charakteristické vlastnosti a význam podobnosti; indikátorem kvalifikačních významů je právě stupňovatelnost). Stejná pravidla platí pro příslovce, avšak u nich informaci o stupňovatelnosti uvádíme pouze tehdy, je-li tvar 2. nebo 3. stupně v námi používaných zdrojích opravdu doložen. Na základě podrobné analýzy materiálu u zpracovaných hesel z písmen A, B jsme došli k závěru, že u všech polysémních hesel je navíc třeba vyhodno-covat, zda lze adjektivum opravdu stupňovat ve všech významech, a podle toho se teprve rozhodujeme, kam příslušný údaj uvedeme. Tvar 2. stupně se tedy uvádí v záhlaví, pokud se vztahuje k celé lexikální jednotce, tj. platí pro

185

všechny významy. Pokud platí jen pro některý význam polysémního slova, uvádí se v tvaroslovné charakteristice na úrovni významu. Takové případy (platnost jen pro některý význam) důsledně exemplifikujeme. U ostatních stupňovatelných adjektiv rozhodujeme o uvedení příkladů na  stupňované tvary v příkladové části hesla (exemplifikaci) na základě různých faktorů, nejen podle doloženosti 2. či 3. stupně v korpusu syn či jinde (Newton, inter-net), ale i podle celkové frekvence daného lemmatu, podle počtu a charakte-ru jeho významů, podle vhodnosti dokladů pro slovníkové heslo z hlediska jejich délky, typičnosti, jednoznačnosti atd. Důležitým aspektem je i časová náročnost výběru a ověřování vhodných příkladů ve vztahu k celkové zpra-covatelské normě na jedno slovníkové heslo.

Při analýze materiálu vycházíme především z korpusových zdrojů. Základní materiálovou základnou pro zpracování hesel v připravovaném Akademickém slovníku současné češtiny je synchronní korpus psaných textů SYN (ÚČNK). V případě nedostatečnosti korpusového materiálu pro naše potřeby, tj. doklá-dání úzu, čerpáme i z elektronického archivu společnosti Newton Media, a. s. (archivu celostátních i regionálních tištěných periodik a přepisů publicistických pořadů z televize a rozhlasu), v nezbytných případech dohledáváme potřebná data i na internetu (pomocí vyhledávače Google). Práce s korpusovým mate-riálem je při zpracování hesla založena v zásadě na kombinaci dvou postupů:

1. práce s náhodným vzorkem 300 konkordancí, na jejímž základě vyhod-nocujeme sémantickou strukturu lexému v porovnání se slovníkovými zdroji; pro málo či nedostatečně doložené významy zadáváme speciál-ní dotazy, nebo tyto významy ověřujeme a dohledáváme k nim vhodné doklady v jiných zdrojích;  u lemmat s nižší frekvencí (do 400/500 vý-skytů v korpusu SYN) prohlížíme všechny konkordance;

2. práce s nástrojem Word Sketch (dále WS) aplikace The Sketch Engine, na jejímž základě vyhodnocujeme typické kolokace a kandidáty na ví-ceslovná pojmenování a frazémy;

3. Základní zpracování hesel vychází z analýzy konkordancí vztahujících se k lemmatu, kdežto pro vyhodnocení stupňovatelnosti adjektiv pou-žíváme navíc blíže specifikované dotazy.

V příspěvku se dále budeme podrobněji zabývat těmito tématy:• frekvence 2. a 3. stupně v korpusu a dalších zdrojích;• vhodnost korpusových dokladů pro slovníkové heslo (problémy s vý-

běrem příkladů pro exemplifikaci, nejčastější konstrukce v použitých

186

příkladech, jednoznačnost příkladů se stupňovanými tvary v  rámci konkrétního významu);

• stupňovatelnost u polysémních hesel (platnost informace o stupňování na úrovni celého hesla, nebo jednotlivých významů);

• paralelnost zpracování dvojic adjektivum – adverbium v rámci slovo-tvorného hnízda (do jaké míry bývá stupňování doloženo v úzu);

• na  závěr příspěvku se zaměříme na  problematiku adjektiva brzký a vztahu mezi tvary brzčejší a dřívější (gramatické příručky a jednotlivé výkladové slovníky k nim přistupují různě).

LiteraturaBozděchová, I. (1990). Ke stupňování složených přídavných jmen. Naše řeč,

73, 241–248.Buzássyová, K. (1989). Potencie a smery pohybov v adjektívnej lexike. In Dy-

namika slovnej zásoby súčasnej slovenčiny. Bratislava: VEDA, 169–179.Cvrček V. a kol. (2010). Mluvnice současné češtiny. Praha: Karolinum.Jarošová, A. (2008). Spracovanie adjektív v Slovníku súčasného slovenské-

ho jazyka s osobitným zretelom na andektíva vzťahové. In Lexikografie v kontextu informační společnosti. Praha: ÚJČ AV ČR, 59–72.

Karlík, P. & Hladká, Z. (2004). Kam s ním? (Problém stupňování adjektiv). In Život s morfémy. Brno: MU, 73–93.

Kopřivová, M. (2005). Malé adjektivní korpusové pozorování. In Jazyky a ja-zykověda. Praha: FF UK – ÚČNK, 307–312.

Křivan, J. (2012). Komparativ v korpusu: explanace morfematické struktury českého stupňování na základě frekvence tvarů. SaS, 1, 13–45.

Nábělková, M. (2008). Futbalový, futbalovejší a iné… In Lexikografie v kon-textu informační společnosti. Praha: ÚJČ AV ČR, 73–93.

Nábělková, M. (1997). Slovotvorná potencialita a  lexikálna norma. In Slo-venčina na konci 20. storočia, jej normy a perspektívy. Sociolinguistica slovaca 3. Bratislava: VEDA.

Nábělková, M. (1993). Vzťahové adjektíva v slovenčine. Bratislava: VEDA.Panevová, J. (2007). Stupňování adjektiv a valence. In Gramatika a korpus.

Praha: ÚJČ AV ČR, 197–205.Štícha, F. a kol. (2013). Akademická gramatika spisovné češtiny. Praha: Academia.

187

Karel ŠebestaÚstav českého jazyka a teorie komunikace FF UK [email protected]

Využití speciálních korpusů Českého národního korpusu pro výzkum jazykového vývoje žákůMezi synchronními korpusy zařazenými do  Českého národního korpusu v posledních letech najdeme i specifickou skupinu speciálních korpusů za-měřených na jazyk osob, které si češtinu (dosud) neosvojily na úrovni odpo-vídající úrovni dospělého rodilého mluvčího.

Jde primárně o korpusy (a) jazyka mládeže ve věku školním, a  to mlu-vy vernakulární i mluvy zachycené v prostředí oficiálním či polooficiálním a rovněž písemných projevů různého stupně formálnosti, (b) jazyka nero-dilých mluvčích (dětí, mládeže i  dospělých, opět zachyceného v  různých prostředích), (c) jazyka osob vyrůstajících v sociokulturně znevýhodňujícím prostředí; připravují se a v různém stavu rozpracovanosti jsou korpusy (d) jazyka dětí předškolního věku a (e) jazyka osob s jazykovými poruchami.

Sekundárně patří do  této skupiny speciálních korpusů rovněž korpusy zachycující jazyk komunikace, která je s  jazykovým vývojem uvedených skupin osob přímo spjata, jako jsou (a) rozhovory rodičů s  dětmi, přede-vším předškolního věku, (b) pedagogická komunikace ve  škole mateřské, v základních školách i v dalších typech a stupních škol, (c) komunikace v ja-zykové třídě (zvláště při vyučování cizího jazyka) či jazyk učebnic, zvláště jazykových.

Korpusy uvedeného typu mají význam ne pouze pro lingvisty a badatele v oblasti osvojování jazyka a jazykového vývoje (viz H. Behrens), ale rovněž pro psychology, pedagogy a sociology se zájmem o příslušné skupiny osob, resp. různé typy pedagogické komunikace, a ovšem také pro edukační praxi – zde lze uvést např. přípravu učebních materiálů, slovníků a učebnic pro žáky, které by byly lépe přizpůsobeny jejich úrovni a specifickým potřebám, přípravu testů, ale i přímé využití při výuce (viz např. A. O´Keeffe; M. Mc-Carthy; R. Carter).

Zatím bylo (resp. k datu konání konference bude) zveřejněno šest těch-to korpusů: korpus přepisů nahrávek vyučovacích hodin na  českých zá-kladních a středních školách SCHOLA 2010, dále korpus písemných prací

188

českých žáků základních a středních škol, a to jednak v základní verzi, bez chybového značkování (SKRIPT 2012), jednak s provedenou chybovou ano-tací (SKRIPT 2014), nereferenční korpus psaného jazyka nerodilých a zčásti rodilých mluvčích CZESL-PLAIN bez metadat, rozšířený korpus písemných projevů nerodilých mluvčích s metadaty a nezbytnou anotací CZESL 2013 a korpus písemných projevů žáků ze sociokulturně znevýhodněných komu-nit uvedených souběžně s písemnými projevy žáků týchž věkových skupin z většinové, nehandicapované komunity ROMi 2014.

Příspěvek se pokusí ukázat na dvou příkladech, jaké nové možnosti po-znání jazykového vývoje žáků ve věku školní docházky zveřejněné korpusy nabízejí. Půjde zejména:

• o zkoumání vývoje v oblasti psané syntaxe, kde máme možnost porov-nání s analogickými výzkumy zahraničními (R. Berman, M. Nippold apod.) i s některými staršími výzkumy domácími, které se ovšem ne-mohly opírat o využití elektronických korpusů (např. M. Klimeš, M. Kala/M. Benešová apod.);

• o zkoumání toho, jak se s věkem žáka mění jeho způsob práce s někte-rými variantními prostředky češtiny, především s prostředky označo-vanými jako spisovné a obecněčeské.

Příspěvek zároveň ukáže na  některá omezení zatím zveřejněných spe-ciálních korpusů, založených v  zásadě na  sběrech transverzálních a pseu-dolongitudinálních, a představí nový, aktuálně probíhající projekt budování longitudinálních korpusů psané a mluvené češtiny školní mládeže, rodilých i nerodilých mluvčích, s důrazem na nové prvky, které tyto korpusy v po-rovnání s  korpusy dosud existujícími přinášejí. Vedle povahy jazykového materiálu a částečně odlišné struktury metadat půjde zejména i o nový typ zpracování jazykových dat, který otevře, jak doufáme, i nové možnosti ba-datelského využití.

LiteraturaBehrens, H. (Ed.) (2008). Corpora in language acquisition research. History,

methods, perspectives. Amsterdam: John Benjamins.Berman, R. A. (Ed.) (2004). Language development across childhood and ado-

lescents. Trends in language acquisition research: Vol. 3. Amsterdam: John Benjamins.

Kala, M. & Benešová, M. (1989). Písemný a mluvený projev žáků ZŠ. Olo-mouc: Pedagogická fakulta Univerzity Palackého v Olomouci.

189

Klimeš, L. (s. n.). Vývoj písemných projevů žáků ZDŠ. Habilitační práce, ne-publ.

Nippold, M. A. (1998). Later language development: The school age and ado-lescent years. 2nd ed. Austin, TX: Pro-Ed.

O´Keeffe, A., McCarthy, M. & Carter, R. (2007). From corpus to classroom. Language use and language teaching. Cambridge: Cambridge University Press.

Magda ŠevčíkováÚstav formální a aplikované lingvistiky MFF UK [email protected]

Přípona -ství/-ctví v současné češtině (korpus jako zdroj dat pro zkoumání slovotvorby)V  příspěvku na  příkladu přípony -ství/-ctví představíme možnosti slovo-tvorného výzkumu založeného na korpusových datech, navazujeme přitom na novější práce českých lingvistů z oblasti slovotvorby. Přípona -ství/-ctví je zajímavá jak z hlediska distribuce (odvozuje od adjektivních i substantiv-ních základů domácího i cizího původu) i z hlediska sémantiky (vyjadřuje více významů než např. přípona -ost, která zkoumané příponě konkuruje ve  významu vlastnosti).

Při naší analýze vycházíme z popisu této přípony ve slovotvorných příruč-kách. Přípona -ství/-ctví bývá řazena mezi transpoziční přípony odvozující názvy vlastností (Dokulil 1962: 43n., Cvrček et al. 2010: 85, Čermák 2012: 249), a to od adjektiv s příponou -ský/-cký, zřídka od jiných adjektiv (př. bohatství, lakomství; Daneš et al. 1967, Hauser 1986: 128, Grepl et al. 2000: 138n.). Někte-ré deriváty (př. opilství / opilectví) jsou některými autory interpretovány jako produkty desubstantivní derivace, názory jednotlivých autorů se zde ovšem různí (srov. Šmilauer 1971: 63, Dokulil et al. 1986: 297n., Cvrček et al. 2010: 95, Čermák 2012: 74n., Štícha et al. 2013: 140n.). Kromě významu vlastnosti

190

se řada substantiv s touto příponou specializuje na označení oboru činnosti, povolání, prodejny či provozovny, rodinného stavu, území, myšlenkových, uměleckých, politických a náboženských směrů ad. (př. řeznictví, instalatér-ství, hutnictví, sochařství, manželství, království, křesťanství). Z hlediska pro-duktivity je analyzovaná přípona v kategorii názvů vlastností řazena na dru-hé místo, za příponou -ost (Dokulil a kol. 1986: 297, Hauser 1986: 128).

Naši analýzu zakládáme na datech z  reprezentativních korpusů češtiny (SYN2000, SYN2005 a SYN2010), pro doplnění a komparaci využíváme kor-pusy publicistických textů (SYN2006PUB, SYN2009PUB a  SYN2013PUB). Korpusové doklady derivátů s příponou -ství/-ctví  analyzujeme především z  hlediska sémantického (vedle významu vlastnosti vymezujeme několik nekvalitativních významů, frekventovaný je význam myšlenkových, umě-leckých, politických a náboženských; řada derivátů význam vlastnosti nevy-jadřuje) a stylového. Podrobně se zabýváme stanovením základového slova: kromě derivátů, které lze vztáhnout k  adjektivnímu i  substantivnímu zá-kladu, si všímáme derivátů, jejichž základem mohou být dvě adjektiva (př. těhotenství: těhotný / těhotenský), a derivátů, k nimž základové adjektivum neexistuje nebo je řídké (a lze ho spíše interpretovat jako derivát substanti-va na -ství/-ctví; př. výtržnictví: výtržník / ?výtržnický). Pozornost věnujeme také původu základového slova.

Tato analýza je doplněna analýzou kvantitativních údajů: zjišťujeme po-čet výskytů slov obsahujících zkoumanou příponu, celkový počet odpovída-jících lemmat a také počet lemmat, která mají v korpusových datech jediný výskyt (tedy lemmata doložená jedinou formou, tzv. „hapax legomena“, Baa-yen 1992). Na základě těchto údajů je s použitím etablovaných kvantitativ-ním měr (míry P a P*, Baayen 1992, 1993; míra P je nově implementována v aplikaci Morfio pracující s daty ČNK, Cvrček & Vondřička 2013) stanovena produktivita přípony -ství/-ctví a porovnána s dalšími příponami uplatňují-cími se (mimo jiné) v názvech vlastností, konkrétně s příponami -ost, -ismus a -ita. Podle míry P, která je vypočtena jako poměr počtu hapax legomena s daným formantem k celkovému počtu forem s tímto formantem v daném korpusu, je přípona -ství/-ctví méně produktivní než přípona -ost, ale také než -ismus. Na základě míry P* (poměr hapax legomena s daným forman-tem k počtu všech hapax legomena v daném korpusu) se přípona -ství/-ctví v porovnávané čtveřici řadí za příponu -ost na druhé místo. V příspěvku po-ukážeme na problémy tohoto kvantitativního přístupu k  slovotvorné pro-duktivitě – vedle obecnějších výhrad důkladně diskutovaných v evropské

191

lingvistice (srov. např. Štekauer & Lieber 2005, Bauer 2001) uvedeme i pro-blémy specifické pro češtinu – a produktivitu zkoumané přípony se pokusí-me posoudit na základě kombinace analýzy systémových aspektů s kvalita-tivními charakteristikami (srov.  Štícha 2012, 2007; Lüdeling & Evert 2005). Zabýváme se rovněž dvojicemi (až čtveřicemi) slov, která jsou od stejných základů derivována konkurujícími si příponami (př. zoufalství vs. zoufalost, pastafariánství vs. pastafarianismus, intelektuálství vs. intelektuálnost vs. in-telektualismus vs. intelektualita). Korpusový materiál ukazuje, že přípona -ství/-ctví se prosazuje i v kombinaci s cizími základy (př. pastafariánství), a to i v případech, kdy byla do češtiny převzata varianta se sufixem cizího původu (užívaná v cizích jazycích: pastafarianismus).

Grantová podpora:Tento příspěvek vznikl za podpory projektu GA ČR P406/12/P175.

LiteraturaBaayen, H. (1992). Quantitative aspects of morphological productivity. In G.

E. Booij & J. van Marle (Eds.), Yearbook of Morphology 1991. Dordrecht: Kluwer, 109–149.

Baayen, H. (1993). On frequency, transparency, and productivity. In G. E. Booij & J. van Marle (Eds.), Yearbook of Morphology 1992. Dordrecht: Kluwer Academic Publishers, 181–208.

Bauer, L. (2001). Morphological Productivity. Cambridge: Cambridge Uni-versity Press.

Cvrček, V. , Kodýtek, V., Kopřivová, M., Kováříková, D., Sgall, P., Šulc, M., Táborský, J., Volín, J. & Waclawičová, M. (2010). Mluvnice současné češ-tiny. Praha: Karolinum.

Cvrček, V. & Vondřička. P.  (2013). Nástroj pro slovotvornou analýzu jazy-kového korpusu. In Grammar & Corpora / Gramatika a  korpus 2012. Hradec Králové: Gaudeamus.

Čermák, F. (2012). Morfématika a slovotvorba češtiny. Praha: NLN.Český národní korpus – SYN2000. (2000). Praha: Ústav Českého národního

korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.Český národní korpus – SYN2005. (2005). Praha: Ústav Českého národního

korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.Český národní korpus – SYN2010. (2010). Praha: Ústav Českého národního

korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.

192

Český národní korpus – SYN2006PUB. (2006). Praha: Ústav Českého národ-ního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.

Český národní korpus – SYN2009PUB. (2009). Praha: Ústav Českého národ-ního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.

Český národní korpus – SYN2013PUB. (2013). Praha: Ústav Českého národ-ního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>.

Dokulil, M. (1962). Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakladatelství ČSAV.

Dokulil, M., Horálek, K., Hůrková, J., Knappová, M., Petr, J. et al. (1986). Mluvnice češtiny 1. Fonetika, fonologie, morfonologie a  morfematika, tvoření slov. Praha: Academia.

Daneš, F., Dokulil, M. & Kuchař, J. (1967). Tvoření slov v češtině 2: Odvozo-vání podstatných jmen. Praha: Nakladatelství ČSAV.

Grepl, M., Hladká, Z., Jelínek, M., Karlík, P., Krčmová, M., Nekula, M., Rusí-nová, Z. & Šlosar, D. (2000). Příruční mluvnice češtiny. Druhé, opravené vydání. Praha: NLN.

Hauser, P. (1986). Nauka o slovní zásobě. Druhé vydání. Praha: SPN.Lüdeling, A. & Evert, S. (2005). The emergence of productive non-medical

-itis. Corpus evidence and qualitative analysis. In S. Kepser & M. Reis (Eds.), Linguistic Evidence. Empirical, Theoretical and Computational Perspectives. Berlin – Boston: Mouton De Gruyter, 351–370.

Šmilauer, V. (1971). Novočeské tvoření slov. Praha: SPN.Štekauer, P. & Lieber, R. (Eds.). (2005). Handbook of Word-Formation. Dord-

recht: Springer.Štícha, F. (2007). Korpusové statistiky a slovotvorná produktivita. In F. Štícha

& J. Šimandl (Eds.), Grammar & Corpora / Gramatika a  korpus 2005. Praha: Academia, 250–257.

Štícha, F. (2012). Jak v epoše elektronických korpusů následovat Miloše Do-kulila (Miloši Dokulilovi ke stému výročí narození). Jazykovědné aktu-ality, 49, 95–107.

Štícha, F., Vondráček, M., Kolářová, I., Hoffmannová, J., Bílková, J. & Svobo-dová, I. (2013). Akademická gramatika spisovné češtiny. Praha: Acade-mia.

193

Mária ŠimkováSlovenský národný korpus JÚĽŠ SAV [email protected]

Predložky s časovým významom v slovenčine a v češtineNa vyjadrenie časových významov slúžia v jazyku rôzne prostriedky, v rám-ci lexikálnych prostriedkov aj predložky. Predložkové systémy a podsysté-my zároveň predstavujú dôležitú tému v oblasti porovnávacích výskumov, zisťovania jazykových univerzálií, ako aj zhôd a  rozdielov v  príbuzných jazykoch. V príspevku porovnávame podsystém predložiek s časovým vý-znamom v slovenčine a v češtine na základe slovníkových a gramatických opisov a na základe fungovania v rovnakých textoch v paralelnom sloven-sko-českom a česko-slovenskom korpuse.

Slovenčina a  čeština disponujú pomerne stabilným a do značnej miery podobným inventárom prvotných predložiek (napr. do, z, v, na, k, u, s, pred/před, za, po, o), viaceré z nich slúžia aj na vyjadrenie časových vzťahov. Ich konkrétne významy a použitia však nie sú v týchto jazykoch vždy totožné, napr. sl. o chvíľu – čes. za chvíli, sl. o šiestej – čes. v šest, čes. o Vánocích – sl. na Vianoce, cez Vianoce. Kým „o Vianociach“ v časovom význame (= počas Vianoc) sa v slovenčine nepoužíva, predložkové spojenia „za chvíľu, za ho-dinu, za  tri minúty sedem“ môžeme zaradiť medzi kontaktové javy, ktoré slovenskí hovoriaci používajú, hoci sú sústavne upozorňovaní, aby na dané vyjadrenie časového významu uplatňovali náležitú predložku o. Zároveň však v slovenčine funguje v časovom význame aj predložka za, ktorou sa vyjadruje v spojení s niektorými substantívami v G časový priebeh (za noci, za mlada) a v A časový rozsah (urobiť niečo za chvíľu = rýchlo // prísť o chvíľu = po uplynutí chvíle).

V  obidvoch jazykoch sa časové významy môžu vyjadrovať predložko-vými väzbami aj príslovkovými výrazmi utvorenými pomocou predpôn (napr. za  rána, zrána). V paralelných korpusoch sa neraz vyskytuje kríže-nie potenciálnych zhodných ekvivalentov v rovnakých textoch, napr. oproti sl. za rána je čes. zrána, sl. k večeru – čes. navečer a opačne oproti sl. zrána je čes. za rána, sl. podvečer/navečer – čes. k večeru. Môžeme pri týchto prípad-och uvažovať o snahe prekladateľa nepoužiť v preklade formálne rovnaký

194

jazykový prostriedok, hoci je systémový aj funkčný (v slovenčine a češtine ako blízkopríbuzných jazykoch je takýchto slov značné množstvo), ale aspoň trochu odlíšiť, variovať preklad oproti originálu.

V rámci druhotných predložiek sledujeme výraznejšiu tendenciu k dife-rencovanosti, keď oproti jednému výrazu v jednom jazyku stoja/používajú sa viaceré výrazy alebo opisné spôsoby, alebo aj nulové vyjadrenia v druhom jazyku. Napr. na mieste predložky počas, ktorá sa v  tejto forme vyskytuje iba v  slovenčine, sa v  paralelných českých textoch nachádzajú predložky a spojenia v(e), za, během, při, Ø, po čas, mezi, o. K uvedeným českým pred-ložkám existujú v spisovnej slovenčine príslušné pendanty okrem kontak-tového „behom“, ktoré v časovom význame odporúčajú slovenské slovníky nahradiť slovenskými predložkami v priebehu, počas, cez, za. Pri prekladoch nastávajú aj situácie, keď výpoveď v origináli neobsahuje časovú predložku, autor pracuje s významom miery, no prekladateľ vsunutím časovej predlož-ky posunie význam výpovede:

V treskúcej zime , v ktorej dokonca zamrzol Dunaj tak , že sa po ňom dalo prejsť , zvolil snem za uhorského kráľa Mateja Huňadyho , zvaného Korvín , podľa havrana v znaku . -- V třeskuté zimě , během níž dokonce zamrzl Dunaj tak , že se po něm dalo přejít , zvolil sněm za uherského krále Matyáše Hunyada , zvaného Korvín , podle havrana ve znaku .

Pre slovenčinu typické podvojné (poza, popred), ba aj potrojné predložky (spopod, spopred) nemajú spravidla v českom jazyku zodpovedajúci jedno-slovný ekvivalent, v prekladoch slovenských textov do češtiny sa musia na-hrádzať jednoduchými predložkami alebo rôznymi opismi:

Julčine vety v ňom znovu najprv nechtiac privolávali pachy spred desaťročí … -- Julčiny věty mu znovu , zprvu nechtěně přivolávaly pachy staré několik desetiletí …

195

Jana ŠindlerováÚstav formální a aplikované lingvistiky MFF UK [email protected]

Alternace aktoru a instrumentu v paralelním česko-anglickém korpusuV příspěvku se budeme zabývat jedním typem rozdílu v zachycení valenč-ních struktur v českém a anglickém valenčním slovníku a paralelním česko-anglickém syntakticky anotovaném korpusu. Syntakticky jde o konstrukce, které se projevují např. v tzv. alternaci subjektu a instrumentu (Instrument-Subject Alternation) (1), alternaci subjektu a  abstraktní příčiny (Abstract Cause-Subject Alternation) (2) nebo alternaci subjektu a  locata (Locatum Subject Alteranation) (3) (Levin 1993). Vzhledem k  hloubkové valenci jde o dvojí možnou valenční strukturaci slovesa, přičemž vnější (non-core) ar-gument přechází do pozice vnitřního (core) argumentu, a zároveň dochází k dekauzativizaci významu, tj. odsunutí původního aktora do pozadí situač-ní perspektivy.

(1a) Pavel otevřel dveře čipovou kartou.(1b) Čipová karta otevřela dveře.(2a) Pavel ohromil Petra svými znalostmi.(2b) Pavlovy znalosti Petra ohromily.(3a) Pavel zaplnil krabici věcmi.(3b) Věci zaplnily krabici.Vycházíme z  dlouhodobého výzkumu rozdílů valence sloves v  češtině

a angličtině na materiálu paralelního Pražského česko-anglického závislost-ního korpusu (Hajič et al. 2011), s využitím doplňkových zdrojů valenčních charakteristik českých a anglických sloves, jmenovitě elektronických valenč-ních slovníků PropBank (Kingsbury et al. 2002), Verbnet (Schuler 2005), Fra-menet (Ruppenhoffer et al. 2006), VALLEX (Lopatková et al. 2008), Engvallex (Cinková 2006) a PDT-Vallex (Urešová 2011b). Při syntakticko-sémantické analýze valenčních vztahů budeme vzhledem k charakteru korpusových dat používat zejména terminologii funkčního generativního popisu (FGP) (Ure-šová, 2011a) a doplňkově též terminologii běžně užívanou v dalších známých přístupech k teorii argumentové struktury.

196

Konstrukce alternujícího aktoru (ACT) a instrumentového doplnění (ME-ANS) představují specifický problém v rámci vzájemného mapování valenč-ních struktur v paralelním korpusu. Zatímco model FGP při zpracování čes-kých závislostních dat nepočítá s rozdílem mezi alternujícími vyjádřeními tohoto druhu jakožto se signifikantním rozdílem vynucujícím zachycení dvěma samostatnými valenčními rámci, a tudíž přiřazuje ve slovníku PDT-Vallex strukturám typu (1a) i (1b) tentýž valenční rámec ACT PAT (v případě slovníku VALLEX pak ACT PAT MEANStyp), anglický valenční slovník En-gvallex, konvertovaný do modelu FGP z původního amerického valenčního slovníku PropBank Lexicon, tento rozdíl zachycuje dvěma valenčními rámci, ACT PAT vs. ACT PAT ?MEANS. Je proto možné v datech nalézt ekvivalent-ní překlady věty typu (4a) větami typu (4b) a  (4c), v nichž při zachycová-ní propojení valenčních struktur dochází ke konfliktu vzhledem k premise, že při propojování dvou konkrétních rámců lze nalézt pouze jediné možné namapování jednotlivých doplnění rámce. Tato premisa vychází z  pojetí, v  němž se rozlišuje strukturní a  situační význam slovesa, přičemž jedno-mu situačnímu významu lze přiřadit více významů strukturních, které se liší např. pravdivostními podmínkami a jsou jednoznačně určeny valenčním rámcem. Změny ve valenci jsou pak vždy indikátorem změny strukturního a/nebo situačního významu.

(4a) Paul astonished Peter with his knowledge.(4b) Pavel ohromil Petra svými znalostmi.(4c) Pavlovy znalosti Petra ohromily.Přitom je nutno mít na paměti, že existují slovesa, v  jejichž případě je

instrumentálem vyjádřený situační participant považován i  v  teorii FGP za argument (vnitřní doplnění slovesa), na rozdíl od doplnění typu MEANS, jež jsou v  teorii FGP považována vždy za  adjunkt. V  takových případech pak ve valenčním slovníku existují dva samostatné valenční rámce, viz (5a) a (5b).

(5a) Tomáš.ACT nahradil manželku.PAT milenkou.EFF.(5b) Milenka.ACT nahradila (Tomášovi.ADDR) manželku.PAT.Specificky se rozdílné mapování projevuje i  v  pasivních konstrukcích

typu (6), kde při syntaktických anotacích anglických vět není jasné, zda je participant vyjádřený instrumentálem původním aktorem (ACT) nebo in-strumentem (MEANS), tj. je-li podkladovou strukturou pro pasivizaci věta (1a), či (1b).

(6) Dveře byly otevřeny čipovou kartou.

197

V článku se budeme věnovat detailnímu rozboru konstrukcí s alternací doplnění ACT a MEANS z hlediska syntaktického a sémantického. Zaměří-me se na analýzu jednotlivých situačních participantů a jejich syntaktických ekvivalentů, zejména v pozici „neagentního subjektu“ (Alexiadou et al. 2006) a  v  pozici předložkové fráze v  pasivní konstrukci (s  přihlédnutím k  typu a sémantice užitých předložek). Výše zmíněné konstrukce porovnáme s dal-šími blízkými strukturami, např. obsazením aktorové pozice nepersonálním původcem děje (7a, b).

(7a) Petra zabil blesk.(7b) Petr byl zabit bleskem.Pokusíme se stanovit a zdůvodnit, zda se jedná o dvě instance jednoho

valenčního rámce (jak je to v současnosti zachyceno ve slovníku PDT-Val-lex), nebo je-li vhodné na úrovni valenčních rámců obě alternující struktury rozlišovat (varianta dle Engvallexu), a jak tato otázka souvisí s otázkou „ar-gumentnosti“/valenčnosti doplnění typu MEANS u sloves určitých séman-tických tříd.

Alternující konstrukce typu ACT-MEANS mohou mít různé pravdivost-ní podmínky dané různým dosahem slovesného děje. Ve větě (8a) je cílem negativní evaluace celá osoba jménem Pavel, zatímco ve větě (8b) je cílem pouze dílčí akt Pavlovy odpovědi a vztah Jany k Pavlovi jako k osobě nelze spolehlivě vyvodit.

(8a) Pavel naštval Janu svou odpovědí.(8b) Pavlova odpověď Janu naštvala.To nás vede k domněnce, že se jedná o tzv. lexikalizované alternace, tj.

sémanticky blízká užití jednoho slovesa mající stejný situační obsah, ale roz-dílný strukturní význam (Kettnerová 2012).

LiteraturaAlexiadou, A. & Schäfer, F. (2006). Instrument subjects are agents or causers.

In D. Baumer, D. Montero & M. Scanlon (Eds.), Proceedings of WCCFL, Vol. 25. Somerville, 40–48.

Cinková, S. (2006), From Propbank to Engvallex: Adapting the PropBank-Le-xicon to the Valency Theory of the Functional Generative Description. In Proceedings of the Fifth International Conference on Language Resour-ces and Evaluation (LREC 2006), Genova, Italy.

Hajič, J., Hajičová, E., Panevová, J., Sgall, P., Cinková, S., Fučíková, E., Mi-kulová, M., Pajas, P., Popelka, J., Semecký, J., Šindlerová, J., Štěpánek, J.,

198

Toman, J., Urešová, Z., & Žabokrtský, Z. (2011). Prague Czech-English Dependency Treebank 2.0.

Kettnerová, V. (2012). Lexikálně-sémantické konverze ve valenčním slovní-ku. Dizertační práce. Prague: Charles University, Czech Republic.

Kingsbury, P. & Palmer, M. (2002). From Treebank to Propbank. In Procee-dings of the 3rd International Conference on Language Resources and Evaluation (LREC-2002). Citeseer, 1989–1993.

Levin, B. (1993). English verb classes and alternations: A preliminary inves-tigation. Chicago: University of Chicago press.

Lopatková, M., Žabokrtský, Z. & Kettnerová, V. (2008). Valenční slovník čes-kých sloves. Praha: Nakladatelství Karolinum.

Ruppenhofer, J., Ellsworth, M., Petruck, M., Johnson, Ch. R., & Scheffczyk, J. (2006). Framenet II: Extended theory and practice.

Schuler, K. K. (2005). VerbNet: A broad-coverage, comprehensive verb lexi-con. PhD thesis. Philadelphia: University of Pennsylvania.

Urešová, Z. (2011a). Valence sloves v Pražském závislostním korpusu. Stu-dies in Computational and Theoretical Linguistics. Praha: Ústav formální a aplikované lingvistiky.

Urešová, Z. (2011b). Valenční slovník Pražského závislostního korpusu (PD-TVallex). Studies in Computational and Theoretical Linguistics. Praha: Ústav formální a aplikované lingvistiky.

199

Svatava ŠkodováTechnická univerzita v Liberci [email protected]

Michaela KuchařováTechnická univerzita v Liberci [email protected]

Václav LábusTechnická univerzita v Liberci [email protected]

Jasňa PacovskáTechnická univerzita v Liberci [email protected]

Reflexe proměn užívání češtiny na základě mluveného korpusu zpravodajského vysílání Českého rozhlasu v letech 1969–2005 Příspěvek představuje kvantitativní a kvalitativní proměny mluvené češtiny na základě korpusu automaticky přepsaných zpravodajských pořadů České-ho rozhlasu.

Výzkum, který prezentujeme v  tomto příspěvku, je součástí rozsáhlého projektu podpořeného Ministerstvem kultury České republiky. Jeho cílem je zpřístupnění archivu historických a současných nahrávek Českého rozhlasu s možností sofistikovaného vyhledávání v automaticky přepsaných textech těchto nahrávek [1].  

Použitý korpus obsahuje největší kolekci dokumentů nahraných za po-sledních 90 let a  je na  něm možno doložit vývoj vybraných jevů jazyka v tomto období. Daný korpus je specifický paralelním uložení textů na dvou rovinách: jednak samotných nahrávek pořadů, jednak příslušných přepisů těchto pořadů; v korpusu je tak možné zároveň vyhledávat v textech i pří-slušných zvukových záznamech.

V úvodu příspěvku prezentujeme aplikaci použitou pro transkripci audiál-ního materiálu. Mezi nejznámější dostupné aplikace patří Transcriber AG, kte-rý však postrádá některé rysy, které byly pro transkripci rozhlasových pořadů

200

a následné vyhledávání v textech nezbytné, např. podpora pro text a foneticku transkripci v jednom dokumentu; časové dorovnávání na úrovni slova gene-rované rozpoznávačem řeči a další. Z tohoto důvodu byl pro transkripci roz-hlasových pořadů vyvinut speciální nástroj pojmenovaný Nano Trans [2, 3].   

Pro jazykovou analýzu jsme vybrali zpravodajské relace Českého rozhla-su období 1969–2005, tj. období výrazných politických a sociálních proměn v České republice, které jsou reflektovány i v jazyce. Dané období jsme pro potřeby kvantitativního i kvalitativního popisu proměn rozdělili do pětile-tých úseků (a zbývajícího úseku dvouletého), které umožňují i v takto dlou-hém období vytvářet přehledné tabulky pro prezentaci výsledků.

  Zahrnutý materiál pochází z  hlavní zpravodajské relace Českého roz-hlasu z let 1969–2005 a Československého rozhlasu před rokem 1993, které podrobujeme analýze dlouhodobě [4]. Jmenovitě byly do výzkumu zahrnu-ty pořady Rozhlasové noviny (1969–1993) a Ozvěny dne (1993–2005), které shrnují domácí a zahraniční události.  Ačkoliv se jedná o jeden typ pořadu, můžeme jej považovat za jazykově heterogenní: textově převažují tradiční čtená zpravodajství ve studiu (tj. typově psaná řeč realizovaná audiální for-mou), kromě nich se zde však vyskytují i záznamy řeči nahrávané mimo stu-dio, a to spontánní mluvené řeči (krátká interview a spontánní komentáře) a připravená mluvená řeč (nahrávky veřejných vystoupení a připravené ko-mentáře). Analýza tedy zahrnuje projevy profesionálních, ale i neprofesio-nálních mluvčích.

Výzkum prezentuje jednak proměny jazykových jevů z  hlediska kvan-titativního, které je podporováno možnostmi automatického přepisu řeči; ale také kvalitativní analýzy vybraných jevů. Celkový objem dat zahrnu-tých do  analýzy tohoto příspěvku představuje statisticky reprezentativ-ní množství, opíráme se o 6 580 hodin rozhlasových nahrávek a v přepisu o 48 721 952 oddělených lexikálních jednotek.

Do samotných sledovaných jevů dokladujících řečové proměny v daném období jsou zahrnuty nejen jevy v úzkém slova smyslu jazykové, ale i jevy vázané na jazykové vysílání a produkci textu jako takovou.  Statisticky do-kládáme proměny rychlosti pronesení promluv v celém období; mapujeme proměny ve stylizaci úvodních a finálních frází pořadů, dále proměny v po-užívání subordinačních a koordinačních spojovacích prostředků. Nejrozsáh-lejší část práce je věnována proměnám nejfrekventovanějších lexikálních sémanticky samostatných jednotek, které jsou mapovány z hlediska statis-tického, na  jehož základě je jejich užití vybraných jednotek interpretová-

201

no s ohledem na socio-politické události daného období. Do této lexikální analýzy zahrnujeme nejen dílčí lexikální jednotky, ale i zkratky a zkratková slova a vybrané metafory (v širokém slova smyslu).

LiteraturaBohac, M., Blavka, K., Kucharova, M. & Skodova, S. (2012). Post-processing

of the Recognized Speech for Web Presentation of Large Audio Archive. TSP 2012, 441–445.

Kucharova, M., Skodova, S., Seps, L., Labus, V., Nouza, J. & Bohac, M. (2013). On the Quantitative and Qualitative Speech Changes of the Czech Radio Broadcasts News within Years 1969–2005. TSD 2013, 360–368.

Nouza, J., Blavka, K., Cerva, P., Zdansky, J., Silovsky, J., Bohac, M. & Prazak, J. (2012). Making Czech Historical Radio Archive Accessible and Sear-chable for Wide Public. Journal of Multimedia, 7 (2), 159–169.

Skodová, S., Kucharova, M. & Seps. L. (2012). Discretion of Speech Units for the Text Post-processing Phase of Automatic Transcription (in the Czech Language). TSD 2012, 446–455.

Michal ŠkrabalFilozofická fakulta Univerzity Karlovy [email protected]

Lubomír Ďuroš[email protected]

Cizojazyčné protějšky slov druh a soudruh: situace v lotyštině a slovinštiněV dnešní češtině představují slova druh (se svými synonymy přítel, kamarád, společník) a soudruh („označení a vzájemné oslovení komunistů“ – SSČ) dva samostatné lexémy. Dřívější stav, zachycený ještě v SSJČ (2. …  (též †spo-

202

ludruh, †spoludružka)  poněk. zast., kniž.  druh v  zaměstnání n. v  zábavě; kamarád, přítel 1, druh 1, společník 1), nicméně odpovídá současné situaci v mnoha jiných jazycích, např. lotyštině či slovinštině, kde obě skutečnosti vyjadřuje společný lexém (lot. biedrs, sl. tovariš).

Polysémní charakter těchto slov včetně mnoha drobných významových nuancí je zjevný při nahlédnutí do aktuálních výkladových slovníků:

Slovník současného lotyšského jazyka (http://www.tezaurs.lv/mlvv/; vzniká od r. 2003 revizí dosavadních dvou výkladových slovníků s přihlédnutím k in-ternetovým a korpusovým datům; předpokládaný rozsah: cca 60 tisíc hesel):

biedrs 1. Partner při práci či studiu, s nímž existují věcně přátelské vzta-hy // Spoluúčastník nějakého dění či události, za nějakých okolností // Člo-věk mající blízké názory, podobné životní podmínky apod.; 2. Člen (poli-tické strany, společnosti apod.); 3. V sovětském zřízení – oslovovací forma občanů, rovněž zdvořilostní forma, připojovaná před něčí jméno, příjmení či označení funkce

Slovník spisovného slovinského jazyka (http://bos.zrc-sazu.si/sskj.html; on-line verze pětisvazkového slovníku vycházejícího v letech 1970–91, poslední aktualizace 2008, celkem více než 93 tisíc hesel):

tovariš 1. Osoba ve vztahu k druhé osobě, se kterou společně něco dělá // Osoba ve vztahu k ženě, se kterou žije ve společném svazku // Osoba ve vzta-hu k druhé osobě, se kterou je společně vůbec; 2. Osoba ve vztahu k druhé osobě, která patří ke stejnému společenství, má stejné povolání, stejnou po-zici // Osoba ve vztahu k druhé osobě, která má stejné společenské posta-vení // Osoba ve vztahu k druhé osobě, která je ve stejné situaci; 3.  Osoba ve vztahu k druhé osobě, se kterou je v přátelském vztahu; 4. Titul dospělého muže [… jako oslovení, přístavek ke jménu, povolání] // hovorově Politický funkcionář; 5. školní žargon Učitel, profesor; [6.] zastarale Společník

Nakolik však tento slovníkový popis, neopírající se o korpusová data, od-povídá situaci v dostupných korpusech (lotyšských, slovinských a také pa-ralelních)? Právě v nich budeme pátrat po distribuci jednotlivých významů a změnách v  jejich frekvenci za poslední dvě až tři desetiletí. Zajímat nás budou rovněž nejčastější kolokační partneři (a jim odpovídající české ekvi-valenty), neboť kolokační profil slova je pro jeho význam určující. Pohled do českých korpusů (série SYN, ale především k. Totalita, vzniklý na základě cílených sond /roky 1952, 1969 a 1977/ do komunistického tisku a  ideolo-gicky zatížených publikací) by nám zase mohl naznačit, nakolik bylo slovo soudruh, jakožto jedno ze „slov společensky klíčových“ (Filipec 1992, 3; srov.

203

též Dokulilova /1951, 121/ „slova kádrová“), komunistickým režimem deval-vováno a jaké zaujímá postavení v jazyce dnes.

V  druhé, aplikované části – vycházejíce ze svých vlastních zkušeností dvojjazyčných lexikografů i ze zkoumaných korpusových dat – navrhneme, jak by mělo vypadat ideální zpracování daného lemmatu v chystaném lotyš-sko-českém, respektive slovinsko-českém slovníku. To pochopitelně nemů-že vzniknout prostým překladem hesla ve výkladovém slovníku zdrojového jazyka, ale musí vycházet z členění významového spektra v jazyce cílovém.

LiteraturaČermák, F., Cvrček, V. & Schmiedtová, V. (Eds.) (2010). Slovník komunistické

totality. Praha: Nakladatelství Lidové noviny.Dokulil, M. (1951). Nová skutečnost v  zrcadle slovní zásoby češtiny. Naše

řeč, 35, 121–131.Fidelius, P. (2002). Řeč komunistické moci. Praha: Triáda.Filipec, J. (1992). Naše současná společnost, slovní zásoba a slovníky. Naše

řeč 75, 1–11.Mūsdienu latviešu valodas vārdnīca (http://www.tezaurs.lv/mlvv/).Slovar slovenskega knjižnega jezika (http://bos.zrc-sazu.si/sskj.html).Slovník spisovného jazyka českého. (1989). Praha: Academia.Schmiedtová, V. (2013). Malý slovník reálií komunistické totality. Praha: Na-

kladatelství Lidové noviny.Korpusy: Řada SYN, InterCorp, Totalita; Latviešu valodas korpuss LVK2013;

Gigafida.

204

Jitka ŠonkováThe University of Iowa [email protected]

Rozdíly v rozsahu slovní zásoby v Pražském mluveném korpusu: Kdo má bohatší slovník – junioři, senioři, muži nebo ženy? Jedním z cílů vybudování jazykového korpusu mluveného jazyka bylo srov-nání jazykových prostředků mluvčích různého pohlaví, věku a úrovně vzdě-lání. Následující příspěvek se zabývá variabilitou slovní zásoby mluveného jazyka zachyceného v  Pražském mluveném korpusu (ČNK – PMK, 2001). Tento mluvený korpus je založen na více než 100 hodinách nahrávek 504 mluvčích a obsahuje 548 091 slovních tvarů a 25 537 lemmat. Zkoumání jazy-kových rozdílů v rámci jednotlivých sociolingvistických kategorií bylo pro-vedeno pomocí kvantitativní analýzy současné mluvené češtiny a využívalo programového prostředí Sketch Engine v rámci Českého národního korpusu.

Do výzkumu bylo zařazeno celkem 504 mluvčích, z toho 217 mužů a 287 žen. Na základě pohlaví byli mluvčí zvoleni tak, aby zastoupení slov pou-žitých muži a ženami bylo zhruba vyvážené. Pro potřeby tohoto příspěvku byly výsledky dále normalizovány, aby bylo umožněno přesné srovnání je-jich relativních četností. Dalšími proměnnými byl věk a stupeň ukončeného vzdělání. Skupina 310 mladších mluvčích byla ve věkovém rozmezí 18 až 35 let a skupina 194 starších mluvčích v rozmezí 36 až 65 let. Skupinu mluvčích se středním vzděláním, které zahrnovalo učební obory i maturitu, tvořilo 268 osob a s vysokoškolským vzděláním 236 osob.

Velikost slovníku mluvčích jednotlivých sociolingvistických katego-rií byla založena na celkovém množství slovních lemmat použitých všemi mluvčími určité kategorie. Z  porovnání velikosti aktivně použité slovní zásoby mluvčích v kategorii žen a mužů vyplývá, že ženy použily celkem 18 010 lemmat, zatímco muži 16 370 lemmat.  Velikost aktivního slovníku žen byla tedy větší, než tomu bylo u mužů. Poměr rozdílu je více méně za-chován i tehdy,  jestliže vyloučíme lemmata, jež se vyskytovala jen ojedině-le, například zaměříme-li se na  lemmata s četností výskytu převyšující 10 v obou kategoriích. Velikost takto specifikovaného slovníku žen obsahuje 1965 lemmat a ve slovníku mužů 1727 lemmat. Z následné analýzy výsledku

205

vyplývá, že poměrně velká část aktivního slovníku je užívána pouze ženami nebo pouze muži.  Například z 25 tisíc lemmat, která se v PMK vyskytují, je jen 9 tisíc lemmat společných mužům i ženám. Zatímco ženy použily dalších 9 tisíc odlišných lemmat, v promluvách mužů se vyskytlo  dalších 7 tisíc lemmat, která se neobjevila v  promluvách druhého pohlaví.  Pro lemma-ta s  četností výskytu přesahující počet 10 obsahuje slovník relativně ma-lou společnou část 600 lemmat. Ženy použily dalších různých 1400 lemmat a muži dalších  odlišných  1100 lemmat. V konečném příspěvku se budeme věnovat i ostatním sociolingvistickým kategoriím a uvedeme další podrob-nosti, grafy a srovnání.

LiteraturaČeský národní korpus – PMK. Ústav Českého národního korpusu FF UK,

Praha 2001. http://www.korpus.czKilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). The Sketch Engine.

EURALEX 2004 Proceedings, Lorient, France, 105–116.

Jovanka ŠotolováÚstav translatologie FF UK [email protected]

Olga NádvorníkováÚstav románských studií FF UK [email protected]

Za hranice větyNázory překladatelů literárních textů na to, jak nakládat s větou, jsou růz-né – od přístupu vycházejícího z pojetí věty jako autorsky daného (a pro překlad tedy závazného) strukturního a  logického prvku až po  názor, že jednoznačně nadřazeným motivem řešení je cílový jazyk a  jeho zvyklosti.

206

Řešením je tedy buď takřka přesné kopírování věty originálu jako ohrani-čeného, významového celku, anebo volné přestylizování, často i bez ohledu na hranice věty.

Strategie nakládání s větou při překladu není teoreticky popsána a v praxi se neprosazuje jednotný názor (absence normativní opory); překladatel pro-to vychází především z vlastní zkušenosti s texty. Přístup se pohybuje mezi nevědomým – podvědomým řešením (překladatel se nad problematikou do-sud nezamýšlel, postupuje víceméně instinktivně, nechá se „vést“ zdrojovým textem nebo svým citem pro jazyk, do něhož překládá) až po promyšlenou metodiku. Promyšlený přístup má ale různé podoby: vychází z interpretace zdrojového textu, ze znalosti kontextu daného žánru či tvorby autora, ale často také z přijaté argumentace okolního prostředí (kolegové překladatelé, redaktoři, znalosti ze školy), jež však může mít i charakter předsudku.

V  našem příspěvku se na  základě dat z  paralelního korpusu InterCorp pokusíme zjistit, jakým způsobem překladatelé ve francouzsko-české a čes-ko-francouzské části korpusu nakládají s členěním textu na věty. Výzkum bude sledovat dva směry: 1. zda je v tomto ohledu jazyk překladu odlišný od jazyka zdrojového, a 2. do jaké míry se věta jako strukturně-logický pr-vek originálu otiskuje i do překladu. Pokusíme se popsat různorodost pře-kladatelských přístupů a komentovat jejich důvodnost či bezdůvodnost (viz také Levého pojem překladovost či nověji definovaný efekt translationese).

Nejprve definujeme principy, na jejichž základě automatické segmentátory člení texty vkládané do korpusu, a pokusíme se určit nejvýraznější případy, kdy je tato segmentace v rozporu s obvyklou lingvistickou definicí věty. Au-tomatický segmentátor např. považuje středník za  hranici věty; bude tedy nutné identifikovat a kvantifikovat tyto případy a zjistit, kdy podobný názor zastávají také překladatelé. Z našich předchozích dílčích studií přitom vyply-nulo, že například středník jako členící znaménko někteří překladatelé pova-žují za znak závazný (a přípustný pro převod do češtiny), jiní ho ve svých tex-tech zcela (bez srovnatelné náhrady) eliminují nebo hledají zástupná řešení.

Na základě tohoto porovnání technického a lingvistického přístupu vy-mezíme jednotky, jež budeme považovat za věty, a provedeme statistickou analýzu počtu vět   v  originálních a  odpovídajících překladových textech ve francouzsko-české a česko-francouzské části paralelního korpusu Inter-Corp. Získané výsledky porovnáme jednak  s dostupnými referenčními jed-nojazyčnými korpusy (zejména Český národní korpus a  FRANTEXT), ale také s daty obsaženými v novém korpusu překladového jazyka Jerome.

207

Tato hrubá statistická data následně upřesníme podrobnou analýzou pří-padů, kdy jednomu segmentu ve výchozím jazyce odpovídá více segmentů v jazyce cílovém a vice versa. Při těchto analýzách se pokusíme brát v úvahu co nejvíce faktorů, které ovlivňují volbu strategie, případně samotný pro-ces překladu, zejména pokud jde o  záměr a možnost/nemožnost zachovat specifika stylu výchozího díla (jeho dobové, žánrové, autorské charakteristi-ky). Pokusíme se odhadnout a kvantifikovat také vliv idiolektu překladatele. Naším cílem bude vytvořit typologii případů, kdy se text členěním na věty v originále a v překladu liší, a zjistit, zda jednotlivé typy nějak odrážejí spíše specifika jazyka překladu, anebo přístupu či idiolektu určitého překladatele, anebo zda se jedná o skutečná specifika cílového jazyka.

Technicko-lingvistická analýza tak bude doplněna o  pohled translato-logický. V poslední fázi budou teoretická východiska výzkumu a statistic-ká data rozšířena ještě o anketní šetření mezi překladateli a redaktory. To sice pro účely této práce poslouží pouze jako dokreslení a  dokumentace nejednotného přístupu překladatelů v  běžné praxi a  zmíněné neexistence preskriptivních modelů; anketa však bude důležitou pomůckou pro šíření závěru výzkumu mezi samotné překladatele. Tím, že je přizveme k diskusi o problematice, vzbudíme v nich snad i zájem o závěry našich rešerší – a tím se celý korpusový výzkum otevře jako užitečný příspěvek k praxi.

LiteraturaBaker, M. (1996). Corpus-based translation studies: The challenges that lie

ahead. In H. Somers (Ed.), Terminology, LSP and Translation: Studies in language engineering, In honour of Juan C. Sager. Amsterdam: John Benjamins, 175–186.

Levý, J. (1998). Umění překladu. Praha: Ivo Železný.Olohan, M. (2004). Introducing Corpora in Translation Studies. London /

New York: Routledge.Ponge, M. (2011). Pertinence linguistique de la ponctuation en traduction

(français – espagnol). La Linguistique, 2 (47), 121–136.Rosen, A. & Vavřín, M. (2012). Building a multilingual parallel corpus for hu-

man users. In: N. Calzolari et al. (Eds), Proceedings of the Eighth Interna-tional Conference on Language Resources and Evaluation (LREC´12). In-stanbul: European Language Resources Association (ELRA), 2447-2452.

Seguin, J.-P. (1999). Points, phrases et style dans le texte L’Esprit des lois. Revue Montesquieu, 3, 79–98.

208

Šotolová, J. (2013). Sur le point-virgule et autres détails éphémeres. Etudes Romanes de Brno, 1 (34), 28–40.

Tournier, C. (1980). Histoire des idées sur la ponctuation, des débuts de l‘im-primerie à nos jours. Langue française, 45, 28–40.

Vavřín, M. & Rosen, A. (2008). InterCorp: A  Multilingual Parallel Corpus Project. In Proceedings of the International Conference Corpus Linguis-tics - 2008, St. Petersburg State University, 97–104. ˂http://utkl.ff.cuni.cz/~rosen/public/2008_intercorp_peterburg.pdf˃.

Védénina, L. G. (1980). La triple fonction de la ponctuation dans la phrase : syntaxique, communicative et sémantique. Langue française, 45, 60-66.

Barbora ŠtindlováFakulta přírodovědně-humanitní a pedagogická Technické univerzity v Liberci [email protected]

Veronika ČurdováÚstav jazykové a odborné přípravy Univerzity Karlovy [email protected]

David BenešÚstav jazykové a odborné přípravy Univerzity Karlovy [email protected]

Merlin: Multilingvální platforma pro evropské referenční úrovněAutoritativním dokumentem v oblasti výuky a testování evropských jazyků jako jazyků cizích je od roku 2001 tzv. Společný evropský referenční rámec pro jazyky (SERR, angl. CEFR). SERR definuje 6 úrovní ovládání jazyka, resp. deskriptory reflektující míru osvojení cizího jazyka, tj. zdatnost v porozu-mění psanému či mluvenému projevu a  schopnost aktivního vyjadřování.

209

V  návaznosti na  úrovně definované podle SERR se v  současnosti vytváří učební materiály, sylaby, kurikula i  certifikované zkoušky hodnotící jazy-kové schopnosti studenta. Z toho důvodu je nutné co nejpřesněji jednotlivé úrovně charakterizovat a odlišit a především poskytnout konkrétní jazyková data odpovídající požadavkům, které by měl student na jednotlivých úrov-ních osvojení jazyka splňovat.

Potřeba dostatečně ilustrovat úrovně vymezené v  SERR byla motivací vzniku mezinárodního projektu Merlin: Multilingvální platforma pro ev-ropské referenční úrovně: Výzkum jazyka studentů v  kontextu (2012–2014). Základem této primárně didakticky orientované platformy je trojjazyčný korpus němčiny, italštiny a  češtiny jako cizích jazyků budovaný od  roku 2012 ve spolupráci institucí v Německu, Rakousku, Itálii a České republice. Korpus obsahuje autentické písemné projevy studentů daných jazyků jako jazyků cizích, které vznikly při standardizovaných testech v rámci certifiko-vaných zkoušek (telc, UNIcert, CCE). V současnosti je k dispozici přibližně 200 textů pro každou referenční úroveň (A1 - C1) a jazyk.

V první fázi zpracování dat jsou rukopisy přepisovány v souladu s po-drobnými transkripčními pravidly, která umožňují zachytit i vnější charakter textu, např. vsuvky, škrty, nečitelné části, emotikony, obrázky ap. Následně jsou data lingvisticky anotována. Anotační schéma odráží zásadní koncept projektu Merlin, a to chápání žákovského jazyka jako samostatného dyna-mického jazykového systému, tzv. interlanguage (Corder 1981). Základem anotace textů je široká škála indikátorů, které umožňují popsat komplexní charakter žákovského jazyka, jeho standardní i nestandardní aspekty. Množi-na ortograficky, gramaticky, lexikálně a sociolingvisticky orientovaných in-dikátorů byla vymezena na základě charakteristik úrovní uváděných v SERR i v sekundární literatuře (CEFR-derived indicators; research-based indicators), podle předběžné analýzy písemných projevů studentů (inductively derived indicators), ale také v  souvislosti s  dotazníkovým šetřením mezi budoucí-mi uživateli korpusu, tj. učiteli, hodnotiteli, studenty (user-based indicators). Anotace korpusu MERLIN kombinuje značkování založené na  formálních typech alternace zdrojového textu (chybějící element, přebývající element, chybně spojené elementy ap.) a hierarchicky strukturovanou lingvistickou klasifikaci. Proces anotace je rozdělen do několika fází – v první řadě je pro-váděna analýza a značkování na rovině ortografické a gramatické, následně pak na rovinách vyšších (lexikologická rovina, rovina sociolingvistkých as-pektů a rovina koheze a koherence textu). V rámci každé anotační fáze je

210

nejprve stanovena tzv. cílová hypotéza (target hypothesis) neboli rekonstruk-ce promluvy studenta v cílovém jazyce s minimálními zásahy (Ellis 1994: 54). Následné přiřazování tagů (tj. chybová anotace, error annotation) probíhá až na základě srovnání studentova textu s příslušnou cílovou hypotézou.

Výstupem projektu bude trojjazyčný korpus zpřístupněný přes webové rozhraní, které poskytne vyučujícím i studentům vhled do písemných pro-jevů studentů a možnost vyhledávat konkrétní jazykové rysy typické pro úrovně A1–C1 podle SERR.

Příspěvek si klade za cíl představit projekt Merlin a jeho technické zázemí a poukázat na specifičnost anotace textů, která spočívá nejen v jejich cizo-jazyčném charakteru, ale také v orientaci na SERR a ve snaze o stanovení indikátorů do  jisté míry univerzálních pro tři různé jazyky – germánský, románský a slovanský.

LiteraturaCorder, S. P. (1981). Error Analysis and Interlanguage. Oxford: Oxford Uni-

versity Press.Council of Europe (2001). The Common European framework of reference

for languages: Learning, teaching, assessment. Cambridge: Cambridge University Press.

Ellis, R. (1994). The study of Second Language Acquisition. Oxford: Oxford University Press.

Reznicek, M., Lüdeling, A., Krummes, C., Schwantuschke, F., Walter, M., Schmidt, K., Hirschmann, H. & Andreas, T. (2012). Das Falko-Handbuch. Korpusaufbau und Annotationen. Version 2.01. HU Berlin.

Wisniewski, K., Schöne, K., Nicolas, L., Vettori, C., Boyd, A., Meurers, D., Abel, A. & Hana, J. (2013). MERLIN: An online trilingual learner corpus empirically grounding the European Reference Levels in authentic lear-ner data. In ICT for Language Learning, Conference Proceedings 2013. Libreriauniversitaria.it Edizioni.

Hana, J., Rosen, A., Štindlová, B. & Feldman, A. (2013). Evaluating and au-tomating the annotation of a  learner corpus. Language Resources and Evaluation, 1–28.

Štindlová, B., Škodová, S., Rosen, A. & Hana, J. (2013). A learner corpus of Czech: Current state and future directions. In S. Granger, G. Gilquin & F. Meunier (Eds.), Twenty Years of Learner Corpus Research: Looking

211

back, Moving ahead. Corpora and Language in Use – Proceedings 1. Louvain-la-Neuve: Presses universitaires de Louvain, 2013, 435–446.

Tamás TölgyesiUniverzita v Segedíně, Filozofická fakulta, Slovanský ústav, Katedra slovanské filologie [email protected]

Německé přejímky v běžně mluvené češtině na základě korpusu ORAL2013V  příspěvku zkoumám přejatá slova z  němčiny v  dnešní běžně mluvené češtině na základě ORAL2013. V korpusu jsem vyhledával lexikální germa-nismy, které mám doložené ze svých dvou terénních výzkumů, a německé výpůjčky, které se nacházejí ve studii Deutsche Lehnwörter in der heutigen tschechischen Umgangssprache českého germanisty Emila Skály.

V roce 2004 jsem uskutečnil svůj první kontaktovělingvistický výzkum exploračně sociolingvistický u rodilých Čechů ve městech Kyjov, Rýmařov a Šumvald. Druhý terénní výzkum jsem provedl o tři roky později v Praze, Brně a ve Valašském Meziříčí.

Výzkum jsem konal sám, a to výlučně podle zásad vědecké metodologie sociolingvistické: jeden explorátor, jeden informátor. Pro posouzení vývo-jových trendů přejímek v  novém jazykovém prostředí jsem svůj výzkum aplikoval příslušníkům tří různých generací, vždy v  rámci téže rodiny: 1. generace mladá (do 30 let), 2. generace střední (do 60 let), 3. generace stará (nad 60 let). Nejmladší respondent výzkumu měl tehdy 14 roků, nejstaršímu informátorovi bylo 78 let. Výzkumu se zúčastnili muži i ženy se základním nebo středním či vysokoškolským vzděláním.

Skála představuje ve  své stati z  roku 1968 téměř 300 germanismů jako nejfrekventovanější německé výpůjčky v  běžně mluvené češtině. Zhruba třetina zkoumaných slov se v korpusu ORAL2013 vůbec nevyskytuje.

212

Při výzkumu jsem valnou měrou pomíjel ty přejaté výrazy, které se v no-vém jazykovém prostředí časem staly nedílnou složkou celonárodní podoby národního jazyka českého, např. č. taška ze sthn. tasca, dnes Tasche. Sestavil jsem soupis německých přejímek, které se alespoň pětkrát vyskytují v kor-pusu ORAL2013. Tomuto kritériu vyhovělo celkem 100 germanismů (45 z mých terénních výzkumů a dalších 55 ze článku prof. Skály):

furt (3098), akorát (1503), barák (900), kafe (428), fajn (276), flaška (171), krám (151), bordel (137), hajzl (132), holt (124), policajt (119), paráda (115), trefit (se) (98), hadry (81), bacha (62), ksicht (62), deka (60), fabrika (57), kšeft (54), šutr (53), flek (52), pauza (52), kór (50), štrúdl (37), frajer (33), šachta (33), špunt (31), mašina (30), helma (29), plac (28), hergot (28), šňůra (28), buřt (23), flákat (se) (23), špek (23), pasovat (22), fešák (18), hic (18), kravál (18), pantofle (18), šuple (18), bunkr (17), kredenc (17), finta (16), špitál (16), fest (15), kára (15), šrot (15), flinta (14), fofr (14), fotr (14), halda (14), špajz (14), hever (12), machr (12), šichta (12), blinkr (11), cimra (11), roura (11), futro (10), kantýna (10), knajpa (10), lautr (10), špagát (10), erteple (9), fošna (9), kanape (9), klika (9), kriminál (9), kšilt (9), pingl (9), futrál (8), háklivý (8), lump (8), flák (7), koštovat (7), aušus (6), kastrol (6), kauf (6), kvartýr (6), randál (6), sichr (6), štamgast (6), štos (6), trucovat (6), dekl (5), fasovat (5), fuška (5), grunt (5), ksindl (5), lák (5), loch (5), mančaft (5), mašle (5), pres (5), ruksak (5), škatule (5), šlak (5), šperk (5)

Dané výrazy jsem podrobněji analyzoval podle sociologických faktorů: věk, pohlaví, vzdělání a  původ. Ukázalo se například, že mladá generace již neužívá výrazu cimra (z raně nhn. zimmer, dnes Zimmer ,pokoj‘). Slovo erteple (z něm. dial. erdepfel, nhn. Erdapfel ,brambor‘) používají starší lidé ve  věku kolem 80 let. Mančaft (z  nhn. Mannschaft ,mužstvo‘) říkají muži. Pracovní směnu označují výrazem šichta (z rak.-něm. Schichte, nhn. Schicht) především lidé se středoškolským vzděláním. Ohebné tvary fajny, fajna, faj-ne původně nesklonného adjektiva fajn (z  nhn. fein ‘jemnýʼ) se používají ve Slezsku.

LiteraturaBělič, J. (1969). Poznámky o postavení německých přejatých slov v dnešní češ-

tině. In W. Krauss, Z. Stieber, J. Bělič & V. I. Borkovskij (Eds.), Slawisch-deutsche Wechselbeziehungen in Sprache, Literatur und Kultur. Hans Holm Bielfeldt zum 60. Geburtstag. Berlin: Akademie-Verlag, 7–18.

213

Český národní korpus – ORAL2013 (2013). Praha: Ústav Českého národního korpusu FF UK. Dostupné z webové stránky: http://ucnk.ff.cuni.cz

Eisner, P. (1996). Čeština poklepem a poslechem. Praha: Pražské nakladatel-ství Jiřího Poláčka a nakladatelství B. Just.

Eisner, P. (2002). Rady Čechům, jak se hravě přiučiti češtině. Praha: Academia.Hugo, J. et al. (2006). Slovník nespisovné češtiny. Praha: Maxdorf.Jodas, J. (2006). Šlofík a klika. Časopis pro moderní filologii, 88, 32–35.Kluge, F. (2002). Etymologisches Wörterbuch der deutschen Sprache. Berlin:

Walter de Gruyter.Kraus, J. et al. (2006). Nový akademický slovník cizích slov. Praha: Academia.Machek, V. (1971). Etymologický slovník jazyka českého. Praha: Academia.Newerkla, S. M. (2004). Sprachkontakte Deutsch – Tschechisch – Slowa-

kisch. Wörterbuch der deutschen Lehnwörter im Tschechischen und Slowakischen: historische Entwicklung, Beleglage, bisherige und neue Deutungen. Schriften über Sprachen und Texte 7. Frankfurt am Main: Peter Lang Verlag.

Ouředník, P. (2005). Šmírbuch jazyka českého. Slovník nekonvenční češtiny. Praha: Paseka.

Rejzek, J. (2001). Český etymologický slovník. Praha: Leda.Skála, E. (1968). Deutsche Lehnwörter in der heutigen tschechischen Um-

gangssprache. In B. Havránek & R. Fischer (Eds.), Deutsch-tschechische Beziehungen im Bereich der Sprache und Kultur. Aufsätze und Studien II. Berlin: Akademie-Verlag, 127–141.

Tölgyesi, T. (2008). Lexikální germanismy v dnešní mluvené češtině na zá-kladě dat z  korpusu ORAL2006. In M. Kopřivová & M. Waclawičová (Eds.), Čeština v mluveném korpusu. Praha: Nakladatelství Lidové no-viny, 243–248.

Tölgyesi, T. (2008). Ke vztahu mezi hláskovou podobou a citovou zabarve-ností lexikálních germanismů v češtině. In V. P. Polách (Ed.), Jazyková interakce a jazykové rozhraní a strategie „cutting-edge”. Olomouc: Uni-verzita Palackého, 259–262.

Tölgyesi, T. (2009). Lexikální germanismy v dnešní češtině. Studie kontakto-vělingvistická. Piliscsaba: PPKE BTK. Dostupné z webové stránky Széche-nyiho národní knihovny v Budapešti: http://mek.oszk.hu/08400/08488/

Tölgyesi, T. (2009). Vojenské výrazy přejaté z němčiny v českém, slovenském a maďarském jazyce. In S. Ondrejovič (Ed.), Varia XVI. Bratislava: Slo-venská jazykovedná spoločnosť pri SAV, 500–506.

214

Tölgyesi, T. (2009). Středoevropská kuchyně jako zrcadlo kontaktů interkul-turních. Bohemica Olomucensia 3 Philologica Juvenilia, 145–150.

Tölgyesi, T. (2010). Náboženské výrazy řecko-latinského původu přejaté prostřednictvím němčiny do českého, slovenského a maďarského jazy-ka. In S. Ondrejovič (Ed.), Varia XVII. Ružomberok: Katolická univerzita v Ružomberku, 470–474.

Tölgyesi, T. (2010). K německé řemeslnické terminologii v českém, sloven-ském a maďarském jazyce. In J. Hladký & Ľ. Rendár (Eds.), Varia XIX. Trnava: Trnavská univerzita v Trnavě, 390–393.

Tölgyesi, T. (2011). Lexikální germanismy v původní české verzi Haškova románu Osudy dobrého vojáka Švejka za světové války a jejich ekviva-lenty v německém a maďarském překladu na základě InterCorpu. In F. Čermák (Ed.), Korpusová lingvistika Praha 2011 – 1 InterCorp. Praha: Nakladatelství Lidové noviny, 29–44.

Tölgyesi, T. (2011). (Ne)přítomnost mluvčího a  adresáta v komunikaci 21. století. Bohemica Olomucensia 2 Philologica Juvenilia, 234–237.

Tölgyesi, T. (2011). K  vojenskému názvosloví habsburské armády (1620-1918). Acta Universitatis Szegediensis. Dissertationes Slavicae: Sectio Linguistica XXIX, 71–79.

Trost, P. (1974). Slova fucmuc a fucek, flák a flek. Naše řeč, 57, 36–38.Vašek, A. (1996–97). Kontaktová lingvistika a její perspektivy I-II. Češtinář

VII, 13–21, 33–44.

215

Marie VachkováÚstav germánských studií FF UK [email protected]

Paradigmatika a syntagmatika v překladovém slovníkuAutorka sumarizuje zkušenosti z tvorby a revizí adjektivních hesel Velké ně-mecko-české lexikální databáze, výzkumného projektu, který od roku 2006 využívá korpusově analytických metod vyvíjených na Institutu pro němec-ký jazyk v německém Mannheimu, a jehož dlouhodobým cílem je vytvořit Velký německo-český akademický slovník  (VNČAS) se 130 000 hesly, jehož adresátem je vzdělaný uživatel a překladatel jak odborných, tak literárních textů. Krátkodobými cíli je postupné zpracovávání terminologií a vytváření menších speciálních překladových slovníků na straně jedné, dílčí korpuso-vé rešerše a  metalexikografický výzkum na  straně druhé. Paradigmatické a  syntagmatické vztahy jsou tak včetně jejich lexikografického uchopení zkoumány na materiálu všeobecné i odborné slovní zásoby. Důležitou roli hraje fakt, že VNČAS vzniká postupným zpracováním jednotlivých slovních druhů. Slovnědruhová specifika se tak projeví ostřeji v souvislosti nejen se zde tematizovanými vztahy, ale i např. s problematikou slovotvornou. Nej-zřetelněji se pak projeví ve  struktuře položek tvořící organizaci té které slovnědruhové databáze. 

Práce na  tvorbě databázových vstupů se neobejdou ani bez analýz ně-mecko-českého paralelního korpusu InterCorp. Získávané informace jsou porovnávány s nabídkou největších současných slovníků, především elek-tronické verze slovníku Duden Universalwörterbuch online (www.duden-online). Z porovnávání vyplývají velmi často otázky týkající se především nevyhovujících teoretických východisek, pokud jde např. o optimální pojetí stále diskutované systematizace paradigmatických vztahů, především v ob-lasti opozitnosti na bázi parole. Prolínání syntagmatické a paradigmatické osy je při rozboru kookurenční analýzy tak nápadné, že ho praktická lexi-kografie nemůže opomenout. Tento fakt staví moderní slovníkáře před nové výzvy.

Na ukázkách několika typických zástupců adjektivních hesel, která pre-zentují různé adjektivní třídy a  rozmanité slovotvorné modely, chce pří-

216

spěvek předvést možnosti a limity způsobů,   jimiž   lze do makrostruktury i  do  jednotlivých částí mikrostruktury adjektivních hesel zapracovat co nejvíce   informací nejen o  syntagmatice (kolokabilitě) slova, ale i  o  jeho paradigmatických vazbách. Cílem je nejen zkvalitnit informační nabídku slovníku, ale pokusit se aplikovat teoretické poznatky tradiční i korpusově pojaté lexikologie a lexikografie německé, britské, švédské, slovenské a čes-ké. Příspěvek se dotýká především diskutabilních bodů, typických dilemat s  výběrem položek, jejich mnohdy sporného rozsahu a  verbalizuje hlavní problémy, které jsou často diskutovány v užším redakčním kruhu v rámci prvního a druhého kola revizí, jako např.:

Které historické impulzy z jednojazyčné německé lexikografie lze pova-žovat za první krok k podchycení asociačních vazeb? Jaké bylo jejich teo-retické zázemí?  Které závěry moderní lexikologie lze zúročit v oblasti mo-derní elektronické lexikografie? Které současné jednojazyčné a překladové slovníky se snaží o  zapracování paradigmatiky a  syntagmatiky a  s  jakým úspěchem?  O jaké argumenty se opírají ti, kdo kritizují zapracování anto-nym v nich? Jaká očekávání artikulují uživatelé slovníků? Které metody jsou pro ztvárnění paradigmatických vztahů zvláště vhodné pro slovník jedno-jazyčný a překladový? Jak lze pro zapracování antonym a synonym využít kookurenčních profilů a která úskalí se při jejich vyhodnocování objevují? Jak lze naznačit prolínání paradigmatické a  syntagmatické roviny na  ko-lokacích a které syntaktické struktury se objevují ve vstupech nejčastěji? Jak se k těmto strukturám při internetové rešerši dostat? Které problémy se vyskytují při výběru a řazení synonym při analýze kookurenčních profilů, porovnáváme-li jejich rozsah s nabídkou jiných internetových zdrojů?  S jak velkou důsledností má autor hesla zohledňovat účast slovotvorných regu-larit při zapracovávání antonym ? Jakou měrou má lexikograf respektovat blízká synonyma a konstrukce, v nichž se vyskytují?  Která pozitiva a nega-tiva přináší využití kookurenční analýzy v kontrastivním pohledu?  Jaká je role synonymie a antonymie v české části databázového vstupu?

LiteraturaFellbaum, Ch. (1995). Co-occurrence and Antonymy. International Journal of

Lexicography, 8 (4), 281–303.Jones, S., Paradis, C., Murphy, M. L. & Willners, C. (2007). Googling for ́ oppo-

sites´: a web-based study of antonym canonicity. Corpora, 2 (2), 129– 54.

217

Justeson, J. S. & Katz, S. M. (1991). Co-occurrences of Antonymous Adje-ctives and Their Contexts. In Computational Linguistics, 17 (1), acl.ldc.upenn.edu/J/J91/J91-1001.pdf (9.2.2014)

Marková, V. (2012). Synonyme unter dem Mikroskop. Eine korpuslinguis-tische Studie. Gunter Narr Verlag. Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache. Bd. 2.

Paradis, C. & Willners, C. (2006). Selecting antonyms for dictionary entries: methodological aspects. In Working Papers, 6, 95–106.

Kateřina VeselovskáÚstav formální a aplikované lingvistiky MFF UK [email protected]

Sestry manžel byl kamaráda bratr – ke slovoslednému postavení neshodného atributu vyjádřeného substantivem v genitivuPříspěvek bude věnován problematice neshodného genitivního přívlastku, konkrétně možnostem jeho pronikání do  antepozice. V  české lingvistické tradici se často uvádí, že základním, ustáleným postavením neshodného atri-butu je těsná postpozice vzhledem k dominujícímu substantivu (MČ3, 1987). Uhlířová (1988) dokonce konstatuje, že „základní slovosledné pravidlo o po-stavení nehodného přívlastku ve větě říká, že přívlastek stojí ZA svým řídícím podstatným jménem … Pozice přívlastku ve 2. pádě se považuje ve spisovné češ-tině za závaznou a odchylky od ní za chybu.“ Novější příručky (Grepl & Kar-lík 1998) neshodný přívlastek v antepozici připouštějí, považují jej však za hovorový úkaz. V úvodu příspěvku porovnáme jednotlivé výklady tohoto jevu napříč odbornou literaturou se zaměřením na názory týkající se jeho případné spisovnosti.

V hlavní části se pak chceme věnovat kategorizaci neshodných genitiv-ních přívlastků vyskytujících se v antepozici. Analýza dat Českého národní-

218

ho korpusu není v tomto případě vhodná: dotaz na jmenné struktury s ge-nitivem  (byť s omezením na těsnou antepozici před nominativem) je příliš obecný. V Pražském závislostním korpusu (PDT, verzi 2.5) je možno přísluš-né genitivní přívlastky vyhledat dotazem kombinujícím charakteristiky uzlů ze všech dostupných rovin s požadavky na pozici uzlu ve stromě. Přesto jsme v těchto datech nalezli pouze třicet odpovídajících příkladů. Zajímavější vý-sledky (ale i více chybných struktur) přineslo prohledávání Pražské databáze mluvené češtiny (PDTSC, verze 1.0), respektive závislostních stromů, které byly automaticky vygenerovány z mluvených dat. Zkoumaná data byla dále doplněna o ručně sesbírané příklady pocházející převážně z denního tisku.

Nalezené výskyty lze rozdělit do čtyř základních skupin, z nichž nejmenší představují ojedinělé struktury obsahující genitiv celkový, který se do an-tepozice dostává vlivem aktuálního členění: U nás jsou sněhu hromady! Dru-hou tvoří bezpříznakově vnímané tradicionalismy zastoupené především spojením v  pravém/dobrém/jistém slova smyslu. Za  bezpříznakové bývají považovány rovněž přivlastňovací genitivy tvořené od vlastních jmen s ad-jektivním skloňováním, např. Heyrovského ulice, Palackého most apod.   Je pozoruhodné, že ve zkoumaných datech z PDT jsou tyto genitivy tvořeny výhradně od  maskulin (z  nichž množství pochází z  oblasti sportu: Pelého pohár reprezentantů nad 35 let, Železného jablonecká euforie aj., což je prav-děpodobně dáno původem textů). Čtvrtou skupinou jsou pak přivlastňovací genitivy tvořené od apelativ ženského a mužského rodu, které v rámci an-tepozice dosud nebyly v gramatikách češtiny popsány. V korpusu PDTSC (tedy v datech obsahujících výpovědi lidí, kteří přežili holokaust) jsme našli množství příkladů typu dcery manžel, babičky bratr, manžela otec, kamarád-ky dceruška apod. V rozporu s akademickou mluvnicí nejsou tyto neshodné genitivní přívlastky vždy v kontaktním postavení – nalezli jsme i příklady typu Uprostřed je muže Milady otec.

Tyto výstupy budou dále podrobeny detailnější analýze. Zdá se, že v ne-shodném genitivním přívlastku s přivlastňovací funkcí figurují často sub-stantivizovaná adjektiva typu hajný a průvodčí, která se v postpozici chova-jí stejně jako substantiva (otec rozhodčího x otec zámečníka). Jakmile se ale substantiva dostanou do antepozice, transformují se v posesivní adjektiva a přívlastek se stává shodným (otec zámečníka → zámečníkův otec). Substan-tivizovaná adjektiva s tvrdou ani měkkou deklinací takovou možnost pose-sivity nemají – tvar se tedy dostává do antepozice nezměněn a zachovává neshodnost (rozhodčího otec). Je otázkou, jak dalece toto tvrzení platí i pro

219

feminina – výskyty typu Krásnohorské ulice se v korpusových datech neob-jevily. Mezi ručně sebranými příklady nalezneme například spojení Němcové Babička nebo Kvitové brejkbol, obecně je však výskyt tohoto typu mnohem řidší. U běžných substantiv se zná být poměr maskulin a feminin pronikají-cích do antepozice vyrovnán.

V příspěvku se dále chceme věnovat otázce příznakovosti slovosledného postavení neshodného přívlastku, potažmo jeho vlivu na sémantickou struk-turu věty. Nastíníme také souvislost mezi pozicí neshodného genitivního přívlastku a aktuálním členěním a rozebereme syntaktickou strukturu vět s anteponovanými neshodnými atributy.

LiteraturaGrepl, M. & Karlík, P. (1998). Skladba češtiny. Olomouc: Votobia.Mluvnice češtiny 3. Skladba. (1987). Praha: Academia.Pražská databáze mluvené češtiny, verze 1.0. Ústav formální a aplikované lin-

gvistiky MFF UK, Praha 2009. Dostupná z WWW http://ufal.mff.cuni.cz.Pražský závislostní korpus, verze 2.5. Ústav formální a aplikované lingvisti-

ky MFF UK, Praha 2012. Dostupný z WWW http://ufal.mff.cuni.cz.Uhlířová, L. (1988). Knížka o slovosledu. Praha: Academia.

Pavel VondřičkaÚstav Českého národního korpusu FF UK [email protected]

InterText: upečte si vlastní paralelní korpusInterText je softwarový nástroj, který vznikl v rámci projektu InterCorp pro účel jednoduchého zarovnávání a korektury paralelních textů. Od té doby se však vyvinul v nástroj obecnější, který může napomoci i s přípravou osob-ního paralelního korpusu či překladatelské databáze pro nástroje CAT či pro strojový překlad (SDL Trados, Okapi, Apertium, OmegaT atd.).

220

Vedle původní centrální aplikace s webovým rozhraním, dnes nazývané InterText server, vznikla také zcela nazávislá jednouživatelská desktopová aplikace InterText editor, kterou je možné si nainstalovat na lokálním počí-tači. Obě aplikace jsou navíc schopny navzájem spolupracovat, takže Inter-Text editor je možné použít také v roli externího editoru pro InterText server, v němž je možné texty editovat i bez nutnosti permanentního připojení k in-ternetu.

Společným rysem obou aplikací je schopnost pracovat prakticky s libo-volnými dokumenty XML a díky podpoře Unicode i  s  libovolnými jazyky. Zarovnávat mezi sebou lze libovolné jazykové páry stejného textu. Počet textů ani jejich jazykových verzí není nijak omezen. Předpokládá se zarov-návání po větách, avšak InterText je schopen pracovat s libovolnými texto-vými jednotkami – vždy však jen na jedné úrovni. InterText nejprve provede automatické zarovnání zvoleného páru paralelních textů pomocí některého externího automatického zarovnávače (hunalign či TCA2) a výsledek nabíd-ne prostřednictvím editoru k ruční kontrole a korekturám – jak zarovnání, tak i samotného obsahu textu či jeho segmentace na věty (či jiné jednotky). Aplikace přitom automaticky kontroluje, aby změnou segmentace nedošlo k  porušení konzistence nějakého jiného zarovnání téhož textu. Taktéž se sama stará o aktualizaci (přečíslování) identifikátorů jednotlivých zarovná-vaných textových elementů. Spojovat či rozdělovat je však možné i texto-vé struktury přímo nadřízené zarovnávaným textovým jednotkám (typicky tedy odstavce). V případě větších lakun v jednom z textů je možné provést opakovaně dodatečné automatické zarovnání jen určité části textu. Výsled-né, ručně zkontrolované zarovnání se ukládá ve formě samostatného sou-boru (stand-off) ve formátu TEI XML. V zarovnání je možné si zakládat zá-ložky pro pozdější revizi a  sledovat stav jednotlivých segmentů (zda byly zarovnány automaticky či ručně zkontrolovány). Samozřejmostí je podpora vyhledávání v  textech (včetně regulárních výrazů) a  vyhledávání typicky problematických typů segmentů. Texty je možné exportovat i v podobě for-mátu používaného programem ParaConc.

Specifikem verze InterText server je její zaměření na více uživatelů, roz-vrstvených přístupovými právy k textům do tří skupin na základě struktury projektu InterCorp: administrátory, koordinátory a editory. Jednotlivým edi-torům (resp. jim přiděleným zarovnáním) lze navíc individuálně dle potře-by a jejich kompetence upravovat práva ke změnám obsahu zrovnávaných textů. Stav zpracování jednotlivých zarovnání je možné sledovat a při jeho

221

změně je možné automaticky spouštět další externí nástroje či skripty (např. pro verifikaci formální správnosti či provedení vyúčtování odvedené práce). Pro účely kontroly jsou také evidovány všechny změny obsahu a struktury textů. InterText server je navíc vybaven i prostředky pro snadný hromadný import a export textů a vytváření zarovnání mezi nimi.

Novinky v desktopové aplikaci InterText editor se naopak orientují na jed-nouživatelské, osobní využití. Díky tomu, že se jedná o nativní aplikaci, je možné uživateli značně zpříjemnit práci s ním a nabídnout vícero možností způsobů práce – ať už pomocí myši nebo klávesnice. Nabízí se také možnost vracení posledních změn (undo/redo) či hromadné vyhledávání a nahrazo-vání v textech. Aplikaci je také možné snadno nastavit podle přání uživatele (např. typ a velikost fontu, barvy textu a pozadí, zvýraznění netriviálních segmentů, nastavení vlastních klávesových zkratek, ikon na nástrojové liště atd.). InterText editor je schopen stahovat si zarovnání z centrálního InterText serveru a následně na nich pracovat i bez potřeby neustálého připojení k in-ternetu. Výsledek je po dokončení možné odeslat zpět na server. Pokud je v průběhu práce některý text změněn jiným editorem na serveru, je o tom uživatel informován a může si provedené změny synchronizovat i do své lo-kální pracovní kopie. Za přítomnosti internetového připojení InterText editor také umí průběžně zabránit provádění změn, které by porušily konzistenci jiných zarovnání téhož textu na straně serveru (tj. při spojování textových segmentů) a které by server proto nemohl později přijmout.

Hlavní potenciál aplikace InterText editor však spočívá v rozšiřování mož-ností pro osobní tvorbu paralelních korpusů či překladatelských databází. InterText editor nabízí i možnost importu hrubých textů, které dokáže sám přeformovat do XML dokumentu a segmentovat na věty pomocí vestavěné-ho segmentátoru založeného na uživatelsky konfigurovatelných pravidlech. I  v případě neznalosti regulárních výrazů si uživatel může alespoň edito-vat seznam výjimek, kdy tečka v jeho jazyce zlom věty netvoří (typicky u zkratek). Výsledné zarovnání textů lze také exportovat do téměř libovolného textově založeného formátu, jaký si uživatel dokáže v konfiguraci nadefino-vat. Mezi přednastavenými konfiguracemi je mimo jiné i možnost exportu do formátu TMX, používaného překladatelskými nástroji CAT či programy pro strojový překlad.

Díky těmto bohatým možnostem se InterText začíná ujímat i v jiných za-hraničních projektech a především v osobních projektech studentů i vědec-kých pracovníků nejen v oboru korpusové lingvistiky, ale též translatologie.

222

V současné době je v nějaké podobě aktivně používán přinejmenším na ně-kolika univerzitách v Itálii, Španělsku, Velké Británii, Německu a Polsku a je prezentován i v několika univerzitních kurzech.

Uliana YazhinovaHumboldt University of Berlin [email protected]

Syntactic reduplication in Czech and Slovak (corpus-based approach)Reduplication is a universal mechanism which is present in every human language and can be used at all levels of linguistic structure  (Maas 2005: 395; cf. also Pott 1862). In the last 30 years, there has been a great amount of studies and special research projects on reduplication in various languages (Graz Projekt and Database on reduplication, Hladký (1996); Minlos (2004), Antoniak (2005), Rubino (2005); Wang (2005), Hurch & Mattes (2009), Ander-sen (2007),  Stolz et al. (2011), etc.). The traditional view of reduplication in west and east Slavic languages is that it has a productive system of morpho-phonological reduplication, which could have different grammatical functi-ons and an expressive connotation (Maranzt 1982, Inkleas & Zoll 2005). This paper will deal with another form of reduplication – syntactic reduplication, which does play a significant role and is used also widely in Slavonic lan-guages. In this study, following the terminology of T. Stolz (2009, 2011), it will be distinguished between “syndetic” (Xi Xi) and “asyndetic” (Xi a Xi) types of total reduplication. In his study (Stolz 2009) are represented some results to distribution of syndetic and asyndetic reduplicative patterns in the languages of Europe, which based on the analysis of two large parallel literary corpora. According to the results of Stolz´s work (2009), Slovak and Czech belong to two different groups: Czech is a language with “high-degree

223

syndesis”  while Slovak is a language with “middle or low-degree syndesis” (like Russian) (2009:109-110) and this assertion will then be an analytic star-ting point for the present paper. The aim of this work is, on one hand, to find out if that hypothesis could be proved on the basis of authentic samples from large linguistic corpora CNC (http://www.korpus.cz) and SNK (http://kor-pus.juls.savba.sk). On the other hand, in the present study different patterns of syntactic reduplicative constructions will be discussed: their frequency, percentage coverage,  their co-existence or competition and functionality in different discourse types in both languages. In the end a basic typology of Czech syntactic reduplication will be presented.

ReferencesAndersen, H. (2007). Reduplication in Baltic and Slavic: Loss and Renewal.

Graz Reduplication Conference 2007, University of Graz.Antoniak D. (2005). Reduplication as a Language universal. Investigationes

Linguisticae, Volume XII, 2005, 1–16Hladký J. (1996) Zdvojování jako slovotvorný prostředek v češtině a anglič-

tinĕ. ČMF, 78 (2), 79–87.Hurch, B. & Mattes, V. (2009). Typology of Reduplication: The Graz Database.

In M. Everaert, S. Musgrave & A. Dimitriadis (Eds.), The Use of Data-bases in Cross-Linguistic Research. Empirical Approaches to Language Typology (41). Berlin: Mouton de Gruyter, 301–327.

Inkelas, Sh. & Zoll, Ch. (2005). Reduplication: Doubling in Morphology. (Cam-bridge Studies in Linguistics 106). Cambridge: Cambridge University Press.

Maas, U. (2005). ‚Syntactic Reduplication in Arabic‘. In B. Hurch (Ed.)Studies on Reduplication. (Empirical Approaches to Language Typology 28). Berlin: Mouton de Gruyter, 395–429.

Minlos, P. (2004). Reduplikacija i parnie slova v vostochnoslavjanskix jazy-kax. (Diss.) Moskva.

Pott, A. F. (1862). Doppelung (Reduplikation, Gemination) als eines der wichtigsten Bildungsmittel der Sprache, beleuchtet aus Sprachen aller Welttheile. Lemgo & Detmold: Meyer.

Rubino, C. (2005). Reduplication. In M. Haspelmath et al. (Eds.), The World Atlas of Language Structures. Oxford: Oxford University Press, 114–117.

Stolz, Th. (2009). Syndetic vs. Asyndetic Reduplication in Europe. Graz Redu-plication Conference 2007.

224

Stolz, Th., Stroh, C. & Urdze, A. (2011). Total Reduplication: The Areal Linguis-tics of a Potential Universal. (Studia Typologica 8). Berlin: Akademie Verlag.

Wang, Shih-Ping. (2005). Corpus-Based Approaches and Discourse Analysis in Relation to Reduplication and Repetition. In Journal of Pragmatics 37, 505–540

Anna ZitováÚstav Českého národního korpusu FF UK [email protected]

Martin StlukaÚstav Českého národního korpusu FF UK [email protected]

K některým morfologickým zvláštnostem starších českých textů (především 19. století)Příspěvek se zabývá vytipovanými morfologickými jevy ze starších vývo-jových fází češtiny a prostřednictvím jejich analýzy se vztahuje i k širším otázkám možností a mezí výzkumu založeného na existujících diachronních korpusech.

Úsilí diachronní složky Ústavu Českého národního korpusu je a v několi-ka následujících letech ještě bude zaměřeno na zpracovávání českého jazyka 19. století a první poloviny století dvacátého. Texty tohoto časového období procházejí procesem postupné lemmatizace, která probíhá na základě před-běžné analýzy textů pomocí automatických procedur (morfologické analýzy a disambiguace) určených pro současné texty (korpus SYN aj.). Primárním cílem využití těchto nástrojů je v aktuální fázi práce facilitace přiřazování adekvátních lemmat slovním tvarům, má však i  zajímavé vedlejší efekty: mezi nerozpoznanými tokeny se pravidelně objevují skupiny tvarů s morfo-logickými formanty, které se už v nové češtině nepředpokládají, tj. formanty

225

příznakové pro starší vývojová období. Zároveň je možné zpracovávané tex-ty v interním korpusu 19-pol20 alespoň částečně (byť s velkou nepřesností) prohledávat pomocí morfologických značek.

Výskyt specifických tvaroslovných prostředků, na něž v textech devate-náctého a první poloviny 20. století upozornila automatická lemmatizace, vede k otázkám, jakým způsobem se tyto prostředky uplatňují i dříve v mi-nulosti a zda je, na druhou stranu, můžeme sledovat až do naší současnosti. Jazyk 19. století je v mnoha ohledech spojovníkem mezi staršími vývojový-mi fázemi a vlastním novočeským stavem, zároveň však, vzhledem k urči-tým sociálním aj. faktorům, představuje svébytnou vývojovou etapu.

Materiál ke konfrontační analýze nabízejí v současnosti korpusy diakorp, interní korpus 19-pol20 a  reprezentativní synchronní korpusy. Vzhledem ke skutečnosti, že diachronní korpusy zatím v dostatečné míře nepokrývají žánrové rozpětí textů ze starších období a nejsou kromě zmíněné provizorní automatické lemmatizace označkovány, spočívá metoda analýzy z větší části v ručním třídění dokladů a registraci konkrétních děl, z nichž doklady po-cházejí. Automatická morfologická analýza a statistické a filtrovací funkce manažeru Bonito, který je dosud jediným rozhraním, které ruční procházení konkordance umožňuje, však práci značně urychlují.

Mezi jazykové jevy podrobené konfrontační analýze patří zejména dis-tribuce z  dnešního pohledu příznakových koncovek nominativu, genitivu a lokálu plurálu maskulin a instrumentálu plurálu všech rodů (srov. potoko-vé, komisařův, krbích, nožemi, rtoma aj.), u nichž lze předpokládat jak odraz staršího jazykového stavu, tak dobové inovace. Pozornost je dále věnována slovesům (s jejichž taggováním mají automatické procedury největší problé-my) – zaměřujeme se na distribuci nepůvodního zakončení -ejí/-ějí u tvaru 3. os. pl. sloves 4. infinitivní třídy k různým lemmatům a ověřujeme možnost jejího ovlivnění slovním kontextem, frekventovaností lemmatu a  dalšími faktory. Zaměřujeme se také na jev, jehož povaha je na hranici morfologie a syntaxe: na užívání nesamostatné částice -ť, která se pojí s různými slov-ními druhy a dosud nejsou zcela jasné všechny její funkce. Je více méně jen naší domněnkou, že se její funkce alespoň částečně v průběhu historického vývoje češtiny proměňovala. S jistotou lze jen tvrdit, že její výskyt v textech je až do konce 19. století poměrně častý.  

Výsledkem analýzy je jednak popis jazykových jevů, vycházející z kvanti-tativních i kvalitativních informací vytěžitelných z korpusů, a jednak získá-

226

ní dalších hypotéz, které bude možné na doplněném historickém materiálu zkoumat.

LiteraturaČejka, M., Šlosar, D. & Nechutová, J. (1991). Gramatika Jana Blahoslava.

Brno: Masarykova univerzita v Brně.Gebauer, J. (1963, 1960, 1958, 2007). Historická mluvnice jazyka českého. Pra-

ha: Academia.Hanka, V. (1831). Grammatika čili Mluvnice českého jazyka podlé Dobrov-

ského: dílem skrácena, dílem rozmnožena. Praha: http://vokabular.ujc.cas.cz/moduly/mluvnice

Koupil, O. (2007). Grammatykáři. Praha: Univerzita Karlova v Praze.Kučera, K. & Stluka, M. (2012). iPRESS 2012 Proceedings of the 9th Internati-

onal Conference on Preservation of Digital Objects, 217–220.Rosa, J. V. (2008). Thesaurus Linguae Bohemicae. Praha: http://vokabular.ujc.

cas.cz/nezapojene.aspx?idz=eRosaThesNStluka, M. (2006). Příklonné částice v textech počátků české prózy. In F. Čer-

mák, K. Kučera & V. Petkevič (Eds.), Korpusová lingvistika: Stav a mode-lové přístupy. Praha: Nakladatelství Lidové noviny, 314–329.

Thám, K. H. (1801). Böhmische Grammatik zum Gebrauche der Deutschen, wodurch sie diese Sprache auf eine leichte Art in kurzer Zeit gründlich erlernen können; nebst verschiedenen böhmisch-deutschen Gesprächen, auserlesenen Histörchen, Erzählungen, Fabeln, dann eigenen Namen der Länder, Städte, Flüsse, Völker, Orden, Sekten, Männer, Weiber und der heidnischen Gottheiten. Praha: http://vokabular.ujc.cas.cz/moduly/mluvnice

Tomsa, J. T. (1782). Böhmische Sprachlehre. Praha: http://vokabular.ujc.cas.cz/moduly/mluvnice (elektronická edice)

227

Richard ZmělíkFilozofická fakulta Univerzity Palackého [email protected]

Možnosti jazykového korpusu pro literárněvědnou analýzu na příkladu autorského slovníku Jana Čepa„Autorská lexikografie“ (Autorenlexikographie) náleží pod obecnou lexiko-grafii, avšak zejména v  českém prostředí jí nebyla věnována zvláštní po-zornost. Zejména od 2. poloviny 20. století se (nejen) v této oblasti začíná hojně uplatňovat strojové zpracování přirozeného jazyka, což pro autorskou lexikografii představuje nové možnosti. Ačkoli stanoviska některých za-hraničních lexikografů vůči kvantitativním metodám nejsou příliš vstřícná – např. H. E. Wiegand, který nechápe autorské slovníky budované na bázi formální analýzy lexikálních jednotek (Formwörterbücher) za plnohodnotný lexikografický výstup, ale za meziprodukt (Zwischenprodukt), který má plnit zejména heuristickou funkci, zatímco finálním výsledkem má být výkladový typ autorského slovníku – moderní vývoj nejen v lingvistice klade naopak důraz na  využití exaktních matematických (statistických) postupů, které jsou dostupné pro zpracování čím dál většího objemu jazykových dat díky zapojení počítačové technologie do společenskovědného výzkumu.

V českém prostředí existuje několik málo autorských slovníků, které vy-užily strojové analýzy jazykových dat (J. Štindlová, P. Holman, F. Čermák), či studií zaměřených podobným směrem (M. Těšitelová). Posledními tako-vými lexikografickými pracemi jsou Slovník Bohumila Hrabala (2007) a Slov-ník Karla Čapka (2009), jež představují typ frekvenčního lexikostatistického slovníku poskytujícího řadu důležitých formálních informací o jazyce auto-rů. Metodologicky se obě publikace zakládají na moderních lexikostatistic-kých metodách a respektují princip, na kterém je budován ČNK spočívající ve vyváženosti jednotlivých textových množin (subkorpusů). Z hlediska li-terárněvědného užití ovšem takováto distribuce může způsobovat problém, a  to zejména v  nepřesném vymezení jednotlivých subkorpusů, které jsou v obou slovnících definovány na základě „žánrových“ kritérií a délky textů. Tyto kategorie jsou relevantní z  pozice korpusového, nikoli literárněvěd-ného přístupu. Oba výše jmenované slovníky tak slouží především lingvis-tickým potřebám, které jsou soustředěny na autorský jazyk jako na jednu z funkčních a stylových oblastí národního jazyka.

228

Jak dokládá především současný zahraniční výzkum v oblasti kvantita-tivní lingvistiky (Wilson 2009, Peng & Hengartner 2002, Kaplan & Blei 2007, Hoover 2008, Stewart 2003, Burrows 1992 ad.) lze jejího potenciálu a metod využívat rovněž v oblasti literárněvědného bádání. Jedná se např. o sledová-ní podobností mezi texty a jeho částmi, o intertextuální vztahy nebo o zjiš-ťování atribuce textu za pomocí statistického měření a analýzy (PCA – Prin-cipal Components Analysis, Discriminant Analysis apod.).

Domníváme se, že korpusové nástroje, které jsou běžně využívané pro výzkum přirozeného jazyka, mohou být efektivně využity i v literární vědě. Jednou z  možností je např. speciálně navržený autorský slovník. Vlastní téma konferenčního příspěvku bude zaměřeno na koncepci autorského slov-níku Jan Čepa, který bude zpracován korpusovými metodami, avšak primár-ně bude tento slovník orientován tak, aby reflektoval literárněvědné aspekty. Projekt je založen na  myšlence propojit formální analýzu jazykových dat s požadavky, které jsou uplatňovány z pozice strukturálně-sémioticky ori-entované literární vědy. Navrhovaný model autorského slovníku se pokouší skloubit oba tyto aspekty do funkčního celku tak, aby přitom zůstaly zacho-vány základní hodnoty epistemologických referencí obou metodologických postupů, tj. jazykové analýzy prováděné na  bázi korpusu a  jeho nástrojů a analýzy literárněvědné. Finálním cílem je především podpořit exaktnost literárněvědné analýzy, která se díky strojově zpracovaným jazykovým da-tům může zakládat nejen na úplné excerpci (v našem případě beletristické) tvorby autora (popřípadě skupiny autorů), ale současně je schopna se opírat o výsledky exaktní kvantitativní a korpusové analýzy účelově distribuované a segmentované jazykové materie literárních uměleckých textů.

V příspěvku podrobně představíme především vlastní koncept slovníku, způsob jeho navržení a strategii a první rámcové výsledky. Na tomto pozadí pojednáme o možnostech, které se nabízí pro vzájemný kontakt korpusové lingvistiky a literární vědy, představíme a podrobně okomentujeme výchozí literárněvědný model narativní analýzy a ukážeme, do jaké míry je potřeba daný model transformovat a jaké důsledky to s sebou nese pro sledovaný cíl.

Hlavní požadavek při koncipování Čepova slovníku nevyplývá (jako v případě obou výše jmenovaných autorských slovníků) ze zásad struktu-race ČNK, ale z literárněvědných aspektů, které tvoří vývojová chronologie autorova díla a možnosti jeho jemnější stratifikace, konkrétně na úrovni na-rativních promluvových pásem. Výsledný model, který respektuje jak re-lativní chronologii autorova díla, kterou představují jednotlivé subkorpusy

229

(zhruba identické s hranicemi Čepových povídkových souborů, což ovšem neplatí absolutně), tak distribuci lexikálních jednotek (type, token) do jed-notlivých narativních pásem, představuje možnosti využití korpusových metod i v jiné než čistě lingvistické oblasti, čímž výrazně rozšiřuje kompe-tence autorské lexikografie pro oblast literární vědy.

Za hranicemi tohoto konkrétního projektu, na obecné rovině lze uvažovat o vybudování speciálně anotovaných korpusů české beletrie 19. a 20. sto-letí, které by sloužily dvěma aspektům: lingvistickému a literárněvědnému bádání s tím, že by umožňovaly na bázi korpusových dat generalizovat ně-které z literárněvědných oblastí, např. typy narativních výpovědí, tematiku, intertextuální a textologické otázky, atribuci či genezi textu atd. (Podobně zaměřený projekt by mohl najít uplatnění rovněž v praktické didaktice.)

LiteraturaBurrows, J. F. (1992). Computers nad the Study of Literature. In C. S. Butler

(Ed.), Computers and Written Texts. Oxford: Blackwell, 167–204.Čermák, F. (2009). Slovník Karla Čapka. Praha: Nakladatelství Lidové noviny. Čermák, F. & Cvrček, V. (2007). Slovník Bohumila Hrabala. Praha: Naklada-

telství Lidové noviny.Doležel, L. (2014). Narativní způsoby v české literatuře. Praha: Pistorius &

Olšanská.Holman, P. (1993). Frequenzwörterbuch zum lyrischen Werk von Otokar

Březina. Köln – Weimar – Wien – Böhlau: Bausteine zur Slavischen Phi-lologie und Kulturgeschichte: Reihe A, Slavistische Forschungen, Neue Folge; Bd. 4(64).

Hoover, D. L. (2008). Quantitative Analysis and Literary Studies. In R. Sie-mens & S. Schreibman (Eds.), A Companion to Digital Literary Studies. Oxford: Blackwell.

Kaplan, D. M. & Blei, D. M. (2007). A Computational Approach to Style in Maerican Poetry. Seventh IEEE Interantional Conference on Data Mi-ning 7, 553–558.

Peng, R. D. & Hengartner, N. W. (2002). Quantitative Analysis of Literary Styles. The American Statistician, 56 (3), 175–185.

Stewart, L. L. (2003). Charles Brockden Brown: Quantitative Analysis and Li-terary Interprettion. Literary and Lingusitic Computing, 18 (2), 129–138.

230

Štindlová, J. (1957). Konkordanční a frekvenční index k Slezským písním Pe-tra Bezruče. Praha: Mechanografiká laborator̆ Ústavu pro jazyk český ČSAV.

Těšitelová, M. (1974). Otázky lexikální statistiky. Praha: Academia.Wilson, A. (2009). Vocabulary Richness and Thematic Concentration in in-

ternet fetish fantasies and literary short storie. Glottotheory: Internatio-nal Journal of Theoretical Linguistics, 2 (2). Trnava: University of Saints Cyril and Methodius, Faculty of Arts, 97–107.