magda Ševčíková sevcikova @ufal.mff.cuni.cz
Post on 12-Jan-2016
45 Views
Preview:
DESCRIPTION
TRANSCRIPT
Anotace souborovosti v datech PDT a PDTSC
Revize modálních významů v PDT: gramatém slovesného způsobu a větné modality
Magda Ševčíkovásevcikova@ufal.mff.cuni.cz
Workshop řešitelského týmu grantu GA ČR P406/10/0875
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Souborovost v datech PDT a PDTSC Revize vybraných modálních významů v PDT
Slovesný způsob Větná modalita
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Singulár a plurál v češtině: forma vs. funkce
morfologická kategorie čísla v češtině singulárové vs. plurálové formy význam singularity (jedna entita) vs. plurality (více než jedna entita, větší
množství entit): jedna hruška, dvě hrušky, ..., pět hrušek jedny nůžky, dvoje nůžky, ..., patery nůžky
plurálová forma někdy neodkazuje k pouhému většímu množství entit, ale k jejich typickému souboru / souborům (souborový význam) př. jedna bota, dvě boty, pět bot – jedny boty, dvoje boty, patery boty pro substantiva ruce, boty, vlasy, sirky ad. souborový význam běžný – jejich
plurálová forma prototypicky označuje právě soubor / soubory jiná substantiva se pro vyjádření souborového významu spojují se
souborovou číslovkou Najdeme-li dvoje velké stopy a mezi nimi jedny menší, řekneme si: „rodina na
výletě“. (SYN2005)
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Souborovost jako význam substantiv souborovost na rozdíl od pomnožnosti není vlastnost lexikální, ale je to gramatikalizovaný
význam pluralia tantum – asymetrie formy a funkce v singuláru souborovost možná u většiny konkrétních substantiv, formálně se projevuje souborovou podobou
číslovky -> zachycovat na tektogramatické rovině (ve FGP, PDT)
souborovost úzce spojena s kategorií čísla opozice singularita (sg) vs. pluralita (pl) v kombinaci s opozicí souborovost (group) vs. význam
plurálu jednotlivin (single) čtyři významy
sg.single … singulárové formy sg.group, pl.single, pl.group … plurálové formy
na rukou měl kožené rukavice.sg.group, prodali mu dvě levé rukavice.pl.single, v obchodě nabízejí nejrůznější rukavice.pl.group
homonymie plurálu – zjednoznačnění souborovou číslovkou – v PDT velmi řídké kontextem, znalostí světa -> ruční anotace
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Ruční anotace souborovosti v datech PDT 2.0
cíl ověřit, zda je souborový význam identifikovatelný zjistit četnost souborového významu v autentických textech
souborový význam potenciálně u všech plurálových forem všech substantiv (60 017 z 833195 tokenů anotovaných na tektogramatické rovině) vzhledem k předpokládané nízké četnosti souborového významu takový
postup neefektivní (odhad na datech SYN2005: souborový význam předpokládán zhruba u 5 % plurálových forem; v datech PDT reálně u 0,5 % plurálů)
pro anotaci vybrány plurálové formy substantiv, pro která je souborový význam prototypický
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Pracovní seznam substantiv k anotaci
zahrnuta substantiva, která se v PDT 2.0 a SYN2005 vyskytla po souborových číslovkách, seznam doplněn na základě mluvnic a introspekce
celkem 141 substantiv:adidaska, bačkora, bačkorka, bačkůrka, běžka, bok, bonbón, bota, botaska, botička, botka, brambor, brambora, brusle, chlup, chodidlo, cigareta, čtyřče, cvička, datle, dlaň, doklad, dřeváček, dřevák, dvojče, fík, iniciála, kanada, kapička, kapka, keks, , kel, klíč, klíček, kolej, koleno, kolínko, končetina, kopačka, kotník, kozačka, křídlo, kroupa, kšanda, kulisa, kyčel, lakýrka, ledvina, lék, lentilka, lodička, loket, lýtko, lyže, makaron, mandle, mentolka, miňonka, mokasína, ňadro, náušnice, nehet, noha, nozdra, nožička, nudle, obočí, očko, oko, oplatek, oplatka, ořech, oříšek, osmerče, pantofle, papuče, parket, parketa, paroh, partyzánka, pata, paterče ,piškot, pistácie, plátěnka, plíce, podešev, podkolenka, ponožka, pouto, prarodič, prášek, prso, prst, punčocha, punčoška, rameno, řasa, ret, rodič, roh, rolnička, rozinka, rtík, ručička, ruka, rukavice, sandál, sardinka, schod, schůdek, sedmerče, šesterče, sirka, škvarek, škvarka, šle, sluchátko, sourozenec, špageta, sparta, stehno, střevíc, střevíček, sušenka, teniska, těstovina, trojče, tyčinka, ubrousek, ucho, vlas, vločka, vráska, zápalka, zápěstí, závora, závorka, žiletka, zoubek, zub
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Ruční anotace souborovosti v datech PDT 2.0
říjen 2010 až leden 2011 paralelní anotace, dvě anotátorky
krátké zaškolení (na dálku), hlavně intuice rodilých mluvčí příprava a vyhodnocení
anotace: Lenka Smejkalová 31 souborů
v každém zhruba 20 plurál. tvarů slov ze seznamu, slova v lineární větě + krátký okolní kontext
mezianotátorská shoda:
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Zachycení souborovosti gramatémem typgroup
význam souborovosti úzce souvisí s kategorií čísla ? včlenění souborovosti do stávajícího gramatému number
změna hodnot gramatému čísla souborovost jako zvláštní gramatém typgroup
provázaný s gramatémem number hodnoty gramatému typgroup
single, group, nr hodnoty gramatémů typgroup a number a anotační možnosti
prostý plurál → typgroup=single, number=pl jeden soubor → typgroup=group, number=sg více souborů → typgroup=group, number=pl jeden nebo víc souborů → typgroup=group, number=nr nerozhodnutelné → typgroup=nr, number=nr
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Včlenění ruční anotace, automatická anotace
uzly se sempos=n.denot|n.denot.neg u uzlů, pro které je k dispozici ruční anotace, hodnoty gramatému
typgroup vyplněny na základě anotace změny v hodnotě gramatému number
uzly, na kterých závisí souborová číslovka, hodnota vyplněna podle dané číslovky
jedny → typgroup=group, number=sg s vyšší hodnotou → typgroup=group, number=pl
u ostatních uzlů vyplnit typgroup=single number beze změny
--> PDT 2.5
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Ruční anotace 1. části dat PDTSC jaro 2011, paralelní anotace (tytéž anotátorky) 585 výskytů
Malach: 359 Companions: 226
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Ruční anotace 2. části dat PDTSC jaro 2012, paralelní anotace (výměna jedné anotátorky) 1957 výskytů (Malach, Companions)
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Publikace
Ševčíková Magda, Panevová Jarmila (2011): Anotace souborového významu substantiv v datech Pražského závislostního korpusu. Ústní prezentace v rámci Semináře formální lingvistiky, ÚFAL MFF UK, 7. března 2011
Panevová Jarmila, Ševčíková Magda (2011): Jak se počítají substantiva v češtině: poznámky ke kategorii čísla. In: Slovo a slovesnost, 72, s. 163–176.
Ševčíková Magda, Panevová Jarmila, Smejkalová Lenka (2011): Specificity of the number of nouns in Czech and its annotation in Prague Dependency Treebank. The Prague Bulletin of Mathematical Linguistics, 96, pp. 27–47.
Panevová Jarmila, Ševčíková Magda (2011): Delimitation of information between grammatical rules and lexicon. In: Proceedings of the International Conference on Dependency Linguistics (Depling 2011), Universitat Pompeu Fabra, Barcelona, pp. 173–182.
Ševčíková Magda, Panevová Jarmila, Žabokrtský Zdeněk (2010): Grammatical number of nouns in Czech: linguistic theory and treebank annotation. In: NEALT Proceedings Series, Vol. 9, Proceedings of the Ninth International Workshop on Treebanks and Linguistic Theories (TLT 2010). Tartu, Estonia, pp. 211–222.
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Slovesný způsob v PDT 2.0
slovesný způsob v PDT 2.0 zachycen gramatémem verbmod hodnoty ind, imp, cdn
rozdíl mezi kondicionálem přítomným a minulým zachycen hodnotou gramatému tense (cdn+sim, cdn+ant)
kondicionál po aby a kdyby anotován jako indikativ – víc než 1600 chybně anotovaných tvarů kondicionálu přítomného (ind+ant)
poloautomatická anotace (ZŽ, MŠ, 2005/6)
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Nový gramatém slovesného způsobu
gramatém verbmod nahrazen gramatémem factmod „factual modality“ / skutečnostní modalita (dizertace 2009): rozdíl
neimperativní formy vs. imperativ použitím neimperativní formy prezentuje mluvčí daný děj jako reálný
(indikativ) nebo podmíněně platný (realizovatelný–kond. přít. vs. nerealizovatelný–kond. min.)
imperativ vyjadřuje rozkaz/žádost/zákaz atd. mluvčího vůči někomu, tj. komunikační funkci výpovědi
pro factmod definovány 3 hodnoty asserted (indikativ), potential (kond. přít.), irreal (kond. min.) imperativ vyřazen
implementace: 4 hodnoty asserted, potential, irreal, appeal (imperativ) --> PDT 3.0
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Vyplňování gramatému factmod
poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) factmod náleží stejným uzlům jako verbmod využívány informace z morfologické roviny, konfrontovány s hodnotami
verbmod gramatém factmod vyplněn „lépe“ než verbmod (př. budiž řečeno jako
imperativ) opraveny jednotlivé chyby v tektogramatické anotaci
manuální kontrola výpisů (př. kondicionál po aby/kdyby s tense=ant)
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Hodnoty gramatému verbmod v trénovacích datech PDT 2.0 vs. factmod v trénovacích datech PDT 2.x
verbmod PDT 2.0 train factmod PDT 2.x train
ind 60 118 asserted 58 834
cdn (+sim) 2 835 potential 4 108
cdn (+ant) 8 irreal 8
imp 286 appeal 293
nil 5 396 nil 5 401
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Větná modalita jako význam věty
modální význam „celé věty“ (česká i zahraniční literatura o modalitě) oznámení vs. otázka vs. rozkaz, popř. další
větná modalita ve FGP a PDT oznámení, otázka, rozkaz, přání, zvolání kombinace formálních prostředků (slovesný způsob, koncová
interpunkce, částice) koordinované klauze mohou mít různou modalitu
př. Ty tam jdi, ale já zůstanu doma. Poprvé jste nastoupil v závěru zápasu v Benešově, jaké to bylo?
gramatém sentmod hodnoty enunc, inter, imper, desid, excl
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Větná modalita v PDT 2.0
poloautomatická procedura (ZŽ, MŠ, 2005/6) sentmod vyplněn
u přímého potomka technického kořene PRED DENOM nodetype=coap
u kořene vsuvky (PAR) př. Pane kolego, věřte.imper nevěřte.imper, počítač nelže.enunc.
u kořene přímé řeči (is_dsp_root=1) př. Kam se poděla.inter má bojovnost? ptala se.enunc po sama sebe po utkání
Martinezová.
„algoritmus“ pokud jeden z analytických protějšků morf. tag Vi.* -> sentmod=imper pokud mezi dětmi analytického protějšku otazník -> sentmod=inter pokud ve větě ať, kéž, nechť nebo na konci otazník -> ruční anotace
(desid/excl/imper; 92 uzlů v trénovacích datech) zbytek uzlů: sentmod=enunc
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Větná modalita nově pro PDT 3.0
gramatém i sada hodnot stejné jako v PDT 2.0 poloautomatická procedura (Jirka Mírovský, MŠ, 2011/12) rozšíření množiny uzlů, u kterých vyplňován sentmod
ze sady kandidátských uzlů přímý potomek technického kořene kořen vsuvky (PAR) kořen přímé řeči (is_dsp_root=1) kořene názvu (ID)
test: každý imperativní slovesný tvar součástí klauze s imperativní větnou modalitou
př. Zítra bude u příležitosti III. výročí české a slovenské edice Playboy otevřena.enunc výstava Pohlad'te.imper si králíčka sestavená z ilustrací pro časopis Playboy.
vyjmuty uzly s nodetype=coap, anotovány zvlášť u uzlů, které nebyly kořenem koordinace, aplikován algoritmus
ruční anotace u 82 uzlů (v trénovacích datech)
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Větná modalita v koordinacích
v trénovacích datech PDT 2.x 7598 coap uzlů řídících 17320 kořenů koordinovaných klauzí (efektivní děti s is_member=1) pokud uzel reprezentuje imperativní slovesnou formu -> sentmod=imper manuální anotace:
kořeny klauzí koordinovaných s imperativními klauzemi kořeny koordinovaných klauzí, které byly součástí vět zakončených
otazníkem otazník se vztahuje jen k poslední klauzi
kořeny koordinovaných klauzí, které byly součástí vět zakončených vykřičníkem nebo obsahovaly ať, kéž, nechť
celkem 268 uzlů, paralelní anotace (shoda 93,7%, kappa 0,89) ostatní věty obsahující koordinované klauze končily tečkou (popř. bez
interpunkce, třemi tečkami apod.) a obsahovaly jen klauze s indikativní nebo kondicionálovou formou
ve 100 náhodně vybraných větách jen klauze se sentmod=enunc automatické přiřazení hodnoty enunc
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Větná modalita v PDT 2.0 a PDT 2.x
sevcikova@ufal.mff.cuni.czWorkshop GA ČR P406/10/0875, 12. dubna 2012
Větná modalita v PDT 2.0 a PDT 2.x
top related