tvorba valenčního slovníku arabských sloves
DESCRIPTION
Tvorba valenčního slovníku arabských sloves. PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK). Osnova. Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje - PowerPoint PPT PresentationTRANSCRIPT
Tvorba valenčního slovníku Tvorba valenčního slovníku arabských slovesarabských sloves
PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK)
RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK)
OsnovaOsnovaÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly
2
ÚvodÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly
3
ÚvodÚvodValenční slovník nejfrekventovanějších
sloves v moderní spisovné arabštině (Bielický and Smrž, 2008; 2009)
Zakotvení ve Funkčním generativním popisu – „arabský VALLEX“
Použití ◦běžný uživatel jazyka◦NLP systémy a aplikace
Pro arabštinu dosud chybí takto komplexní lexikografický zdroj
4
ÚvodObdobné projekty pro arabštinuObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly
5
Semantic Valence of Arabic Verbs Semantic Valence of Arabic Verbs (al-Qahtani, 1988; 2004)(al-Qahtani, 1988; 2004)
200 rámců pro nejfrekventovanější arabská slovesa
W. A. Cook – Case Grammar Matrix Model (1979)◦propoziční pády („essential to the proposition“ →
vynucené sémantickou valencí slovesa): Agent (A), Experiencer (E), Benefactive (B), Object (O),
Locative (L)◦modální pády („optional adjuncts of virtually any
predication“→ volitelné prvky, které nejsou vynuceny sémantickou valencí slovesa): Time, Manner, Instrument, Cause, Result, Purpose, outer
Locative, outer Benefactive6
W. A. Cook – Case Grammar W. A. Cook – Case Grammar Matrix Matrix pádový rámec (case frame):
◦1-3 propoziční pády◦O obligatorní pro všechna slovesa (prší –
prázdný hloubkový pád O)◦E - B - L se vzájemně vylučují◦O více než 1x v jenom rámci◦pořadí pádu v rámci – na prvním místě
povrchový Sub◦později rozšíření o propoziční pád času
(Essential Time case (T))7
Cookův revidovaný maticový Cookův revidovaný maticový model model
Verb Types Basic Experiential Benefactive Locative
1. State Osbe tallOs, Osbe + N
E, Oslike
Os, Ebe boring
B, OshaveOs, B
belong to
Os, Lbe inL, Os
contain
2. Process Odie
O, Obecome
E, OenjoyO, E
amuse
B, Oacquire
O, B…
O, Lmove (intrans.)
L, Oleak
3. Action A, Okill
A, O, Oelect
A, E, Osay
A, O, Eamuse
A, B, Ogive
A, O, Bblame
A, O, Lput
A, L, Ofill
8
* Os – pád Objektu u stativních slovesBasic verbs – pouze A, OExperiential verbs – E, A, OBenefactive verbs – B, A, OLocative verbs – L, A, O
Skryté role (Covert roles)Skryté role (Covert roles)
skryté role hloubkového pádu na povrchové rovině (covert case roles):◦částečně skryté (patrially covert)
vypustitelné (deletable) → fakultativní v FGDwaṣafa Zaydun al-manẓaraZayd described the scene
pádový rámec: waṣaf AEO/E-del (Experiencer je vypuštěn)
valenční rámec (FGP): ACT ADDR PAT
9
Skryté role (Covert roles)Skryté role (Covert roles)◦zcela skryté (totally covert)
koreferenční – kumulace dvou rolí (FGD Ø)darasa Zaydun al-kitābaZayd studie the book
pádový rámec: darasa AEO/A=E (Agent je totožný s Experiencer)
valenční rámec (FGP): ACT PAT lexikalizované – některá role (Obj) inkorporována v
sémantice slovesacamila ZaydunZayd worked = Zayd did some work
pádový rámec: camila AO/O-lex (Objekt je lexikalizován)valenční rámec: ACT 10
Pilot Arabic Propbank (Palmer et Pilot Arabic Propbank (Palmer et al., 2008)al., 2008)
anotace sémantické informace do arabského korpusu (Penn Arabic Treebank)
dvě fáze anotace◦ vytvoření framesetů (rámců) pro jednotlivé lexikální
jednotky (jednotlivé významy slovesa) → uchovány zvlášť
◦ podle framesetů jsou anotovány jednotlivé korpusové výskyty slovesa
typy slovesných doplnění◦ sémanticky vynucená doplnění ARG0 až ARG4 –
proměnné → ve framesetech jsou jim přiděleny sémantické role (experiencer, organizer, event, agent, theme…)
◦ 19 volných doplnění (adjunctive arguments)
11
Arabic Propbank – famesety Arabic Propbank – famesety slovesa slovesa `aqām`aqām
12
význam 1
význam 2
význam 3
Syntactic lexicon of Arabic verbs (Loukil et Syntactic lexicon of Arabic verbs (Loukil et al., 2008)al., 2008)
pouze povrchová syntax → není sémantikastruktura slovníku podle formátu Lexical Markup
Framework (ISO 24613)slovník by měl obsahovat:
◦ charakteristika sloves z hlediska intranzitivity/tranzitivity (přímé i nepřímé přes předložku)
◦ morfematická realizace doplnění (akuzativ; předložka – pouze fī, can, li-, calā, bi-, `ilā, min)
◦ syntaktická funkce doplnění (podmět, předmět)◦ příklad ve větě◦ význam
redundance◦ rozlišování mezi tzv. „slovesnou a jmennou větou“ (vliv
tradičního arabského pohledu na syntax – rozdíl mezi VSO a SVO)
13
sloveso sloveso taḥarrakataḥarraka („pohnout se, pohybovat („pohnout se, pohybovat se“)se“)
14
frame x
frame y
ÚvodObdobné projekty pro arabštinuFunkční generativní popisFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly
15
Funkční generativní popis Funkční generativní popis (FGP)(FGP)valence – schopnost autosémantického slova vázat se s
dalšími slovyFGP – závislostně orientovaný formalismus – člení
popis jazyka do více rovinvalence souvisí s hloubkovou tektogramatickou
rovinou ovšem i s rovinou morfematickou, kde se valenční doplnění realizují/nerealizují v podobě morfémů
typy slovesných doplnění◦ aktanty (vnitřní doplnění) – Aktor (ACT), Patient (PAT),
Adresát (ADDR), Origo (ORIG), Efekt (EFF)◦ volná doplnění – místo, čas, směr, nástroj, příčina, způsob…
fakultativinost/obligatornost doplnění
hlavní inspirací metodologie VALLEXu a PDT-Vallexu16
ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly
17
Nástroje a zdrojeNástroje a zdrojeKorpusové zdroje
◦ Prague Arabic Dependency Treebank (PADT) anotovaný korpus novinových textů - 1 mil. tokenů (připravovaná
verze 2.0; Smrž et al., 2008) tři roviny anotace – funkční morfologie, analytická rovina syntaxe,
tektogramatická rovina zdroj frekvence sloves
◦ Arabic Gigaword (Graff, 2007) novinové texty – plain text
◦ Corpus Linguae Arabicae (CLARA) (Zemánek, 2001) cca 50 mil. slov – plain text texty různého druhu
Tištěné slovníky◦ dvojjazyčné◦ arabské výkladové
18
PADTPADT
19
Arabic GigawordArabic Gigaword
20
CLARACLARA
21
Nástroje a zdrojeNástroje a zdrojeElixirFM (Smrž, 2007)
◦ implementace funkční arabské morfologie◦ základem elektronická lexikální databáze z
Buckwalterova arabského morfologického analyzátoru (Buckwalter, 2002)
◦opravená a rozšířená verze ElixirFM (Smrž and Bielický, 2009)
◦propojení s morfologickou rovinou PADT; práce na propojení s analytikou a tektogramatikou
TrEd◦anotační prostředí pro ElixirFM◦ tvorba valenčních rámců/závislostních stromů
22
ElixirFM Online InterfaceElixirFM Online Interface(http://quest.ms.mff.cuni.cz/cgi-bin/elixir/index.fcgi) Resolve
◦ tokenizace a morfologická analýzaInflect
◦deklinace a konjugaceDerive
◦derivace jmenných tvaru od sloves (pasivní a aktivní participium, podstatné jméno slovesné
Lookup◦vyhledávání derivátů stejného slovního
kořene/kmene◦vyhledávání podle angličtiny
23
ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkoly
24
Charakteristika arabského Charakteristika arabského slovesaslovesakonsonantní kořen
◦diskontinuitní morfém nesoucí význammorfém vokalizaceafix – prefix, sufix, infixkořen + vokalizace (+ afix) → kmenarabské sloveso
◦ trojkonsonantní/čtyřkonsonantní kořen◦ jednoduchý slovesný kmen → kořen + vokalizace◦ rozšířený slovesný kmen → kořen + vokalizace +
afix/dloužení vokálu
25
morfosémantické vzory a jejich morfosémantické vzory a jejich korelacekorelace I jednoduchý slovesný kmen
činnostní – KaTaB psát (často tranzitivní)přechodný stav – FaRiḤ radovat se (někdy tranzitivní)trvalý stav – ḤaSuN být hezký (intranzitivní)
rozšířený slovesný kmenII ḤaSSaN zlepšit (tranz.) – faktitativní/kauzativní, intenzivní, deklarativní,
denom.III QāTaL bojovat (tranz.) – objektový, konfrontační, denominativníIV `aNTaĞ vyrobit (tranz.) – faktitivní/kauzativní, časový/prostorový
aspekt, denom. V taḤaSSaN zlepšit se (intranz.) – reflexivní, pasivní, denominativníVI taRāSaL dopisovat si (intranz.) – reciproční, postupný děj, předstírání
stavuVII inQaSaM být rozdělen (intranz.) – pasivní, reflexivní VIII iḪtaBaR prověřit si (tranz./intranz.) – reflexivní, dativní, pasivní,
denominativníIX iSWaDD zčernat, být černý (intranz.) – od adjektiv – stav/změna stavuX istaḪBaR informovat se (tranz.) – deziderativní, reflexivní, estimativní,
denominativní26
Charakteristika arabského Charakteristika arabského slovesaslovesa není infinitiv vid – rozlišen formou konjugace nebo složeným tvarem →
jinak spíše aktionsart konjugace
◦ sufigovaná (perfektum – ukončený děj)◦ prefigovaná (imperfektum – průběh, opakování)
mody – indikativ, subjunktiv, jusiv, energikus, imperativ verbonominální deriváty
◦ participium aktivní a pasivní, verbální substantivum tzv. introflektivní pasivum (velmi produktivní) – pravidelnou
změnou vokalizace◦ KaTaB napsal → KuTiB byl napsán◦ funkce:
pasivum impersonální konstrukce
27
ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMReprezentace valence v ElixirFMStav projektuDalší úkoly
28
Reprezentace valence v Reprezentace valence v ElixirFMElixirFM
závislostní stromtrojkonzonantní/čtyřkonzonantní slovesný
lexém◦ lemma (3.os. sg. perf.)
lexikální jednotky – jednotlivé významy slovesa definované v podobě valenčního rámce
valenční rámec◦funktory (FGP)◦omezení na morfematické vyjádření slovesného
doplnění◦obligatornost/fakultativnost doplnění
29
tarğamtarğam („přeložit, tlumočit“) („přeložit, tlumočit“)ACT PAT ACT PAT ORIG EFFORIG EFF
30
tarğamtarğam („přeložit, tlumočit“) („přeložit, tlumočit“)ACT PAT ACT PAT ORIG EFFORIG EFF
31
tarğamtarğam („přeložit, tlumočit“) („přeložit, tlumočit“)ACT PAT ACT PAT ORIG EFFORIG EFF
32
Morfematické vyjádření slovesného Morfematické vyjádření slovesného doplněnídoplnění
explicitně zachycené formy◦pádové formy: 1- (nominativ), 2- (genitiv), 4- (akuzativ)◦determinace/indeterminace: -I/-D◦konstrukce s adjektivy: A-◦ forma předložky: bi-, li-, fī, can, calā, `ilā, min,
maca, ḥattā, munḏu, bayna, dūna, ḥawla, taḥta…
◦vedlejší věty obsahové: `inna, `anna, `an, mā `iḏā◦ část frazému◦ podstatné jméno slovesné (podstatné jméno slovesné (maṣdarmaṣdar))◦ slovesné imperfektum slovesné imperfektum - není jasné, o jaký typ doplnění se
jedná → EFF vs. COMPL33
závislá část frazémuzávislá část frazému
34
انشرح له صدريinšaraḥa la-hu ṣadrīpotěšila-se z-toho.CAUS hruď-moje.DPHRPotěšilo mě toDPHR (ḫāṭir|qalb|ṣadr) CAUS (li-)
Morfematické vyjádření slovesného Morfematické vyjádření slovesného doplněnídoplnění
implicitně zachycené formy, např.:◦LOC (místo) – fī, bi-, ḥawla, bayna, calā,
taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa…
◦DIR1 (směr od) – min, min calā, min taḥti, min warā’i, min fawqi…
◦CAUS (příčina) – li-, bi-sababi, bi-faḍli, min `ağli, natīğatan li-, bi-ḥukmi, li-`anna…)
35
implicitně zachycená implicitně zachycená forma LOCforma LOC
36
LOC (místo) – fī, bi-, ḥawla, bayna, calā, taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa…
بدء الحرب وضعه أمام أمر واقعbad`u `l-ḥarbi waḍaca-hu `amāma `amrin wāqicinzačátek války.ACT položil-jeho.PAT před věc reálnou.LOCZačátek války ho postavil před hotovou věcACT PAT (4-) LOC
Slovesa typu „Slovesa typu „prší“ v prší“ v arabštiněarabštině
37
pršet – valenční rámec: Øarabština – vždy ACT, i když je vypuštěný
تمطر } السماء {tumṭiru [`s-samā`u]vyvolávají-déšť nebesa.ACTPrší
ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuStav projektuDalší úkoly
38
Stav projektu – první fázeStav projektu – první fázevytvořeno 3.500 valenčních rámců
◦2.000 vytvořeno automaticky – informace o intranzitivitě v Buckwalterovi
◦1.500 vytvořeno manuálně hlavně základní významy sloves
další kontrola a zjemňování rámců studium literatury → upřesňování a
dotváření teoretických východisek
39
ÚvodObdobné projekty pro arabštinuFunkční generativní popisNástroje a zdrojeCharakteristika arabského slovesaReprezentace valence v ElixirFMStav projektuDalší úkolyDalší úkoly
40
Další úkolyDalší úkolyanotace méně častých významů sloves a frazeologiedořešení statutu některých problematických skupin
sloves (modální, pomocná, impersonální)zavedení informace o pasivizaci, reciprocitě, frekvenci
výskytu (PADT) a sémantické třídědoplnění/propojení s korpusovými příkladykorelace mezi valenčními rámci primárních a
odvozených sloves (?)dopracování a zjemnění českých glosmožnost promítnutí valenčního rámce slovesa do
participií a verbálního substantivakonzultace problematických otázek s rodilým mluvčím
budoucnost – napojit ElixirFM na Arabic Wordnet
41
OdkazyOdkazyAL-QAHTANI, Duleim Masoud. Semantic Valence of Arabic Verbs. Beirut : Libraire du Liban Publishers, 2005.BIELICKÝ, Viktor, SMRŽ, Otakar. Building the Valency Lexicon of Arabic Verbs. In Proceedings of the 6th Conference on
Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008.BIELICKÝ, Viktor, SMRŽ, Otakar. Enhancing the ElixirFM Lexicon with Verbal Valency Frames. In Proceedings of the
Second International Conference on Arabic Language Resources and Tools. Cairo, Egypt, April 22-23, 2009.BUCKWALTER, Tim. Buckwalter Arabic Morphological Analyzer Version 1.0. LDC2002L49, 2-58563-257-0, 2002.COOK, Walter A. Case Grammar : Developement of the Matrix Model (1970-1978). Washington, D.C. : Georgetown
University Press, 1979.GRAFF, David. Arabic Gigaword Third Edition. LDC2007T40, 1-58563-460-3, 2007.LOUKIL, Noureddine, HADDAR, Kais, BEN HAMADOU, Abdelmajid. Towards a Syntactic Lexicon of Arabic Verbs. In HLT &
NPL within the Arabic World : Arabic Language & Local Languages Processing – Status Updates & Prospects. LREC 2008 Conference, Marrakech, Morocco, 2008.
PALMER, Martha, BABKO-MALAYA, Olga, BIES, Ann, DIAB, Mona, MAAMOURI, Mohammed, MANSOURI, Aous and ZAGHOUANI, Wajdi. A Pilot Arabic Propbank. In Proceedings of the 6th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008.
SMRŽ, Otakar. Functional Arabic Morphology : Formal System and Implementation. PhD thesis, Charles University in Prague, 2007.
SMRŽ, Otakar, BIELICKÝ, Viktor. ElixirFM : High-level Implementation of Functional Arabic Morphology. http://sourceforge.net/projects/elixir-fm/. 2009.
SMRŽ, Otakar, BIELICKÝ, Viktor, KOUŘILOVÁ, Iveta, KRÁČMAR, Jakub, HAJIČ, Jan and ZEMÁNEK, PETR. Prague Dependency Arabic Treebank : A Word on the Million Words. In Proceedings of the 6th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008.
ZEMÁNEK, Petr. CLARA (Corpus Linguae Arabicae) : An Overview. In ACL 2001. Workshop Proceedings on Arabic Language Procesing : Status and Prospects. Toulouse, France, 2001, p. 111-112.
42