ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · po číta čové...
TRANSCRIPT
Lingvistická terminologie
Daniel Zeman
http://ufal.mff.cuni.cz/course/popj1/
Počítačové zpracování přirozeného jazyka
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 2
Slovní druhy
slovní druh part of speech
podstatné jméno substantivum noun
přídavné jméno adjektivum adjective
zájmeno pronomium pronoun
číslovka numeralium numeral
sloveso verbum verb
příslovce adverbium adverb
předložka, záložka prepozice, postpozice preposition, postposition
spojka konjunkce conjunction
částice partikule particle
citoslovce interjekce interjection
člen determiner, article
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 3
Rody a čísla
rod genus gender
mužský maskulinum masculine
neživotný inanimatum inanimate
ženský femininum feminine
střední neutrum neuter
číslo numerus number
jednotné singulár singular
dvojné duál dual
množné plurál plural
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 4
Pády a osoby
pád casus case
1. nominativ nominative
2. genitiv genitive
3. dativ dative
4. akuzativ accusative
5. vokativ vocative
6. lokál local
7. instrumentál instrumental
osoba person
1. 1st
2. 2nd
3. 3rd
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 5
Časy, vidy, způsoby
čas tempus tense
přítomný prézens present
minulý préteritum past
budoucí futurum future
neurčitek infinitiv infinitive
vid aspect
dokonavý perfektum perfect
nedokonavý imperfektum imperfect
způsob modus mode
oznamovací indikativ indicative
rozkazovací imperativ imperative
podmiňovací kondicionál conditional
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 6
Slovesné rody, větné způsoby, stupně, zápory
slovesný rod voice
činný aktivní active
trpný pasivní passive
tázací (zájmeno, věta…) interrogativum interrogative
(ne)určitý (in)definite
zápor negativeness
kladný afirmativ affirmative
záporný negativ negative
stupeň degree (of comparison)
1. pozitiv positive
2. komparativ comparative
3. superlativ superlative
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 7
Větné členy
přísudek predikát predicate
podmět subjekt subject
předmět objekt object
příslovečné určení adverbiale adverbial
přívlastek atribut attribute
přechodné sloveso tranzitivní verbum transitive verb
nepřechodné sloveso intranzitivní verbum intransitive verb
Roviny zpracování přirozeného jazyka
Daniel Zeman
http://ufal.mff.cuni.cz/course/popj1/
Počítačové zpracování přirozeného jazyka
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 9
Formální popis jazyka
• Gramatika– soubor pravidel, popisujících, co je v jazyce přípustné
• Klasické gramatiky– určeny lidem, kteří daný jazyk znají
– definice a pravidla na základě příkladů
– (skoro) žádné nástroje pro formalizaci; nelze naprogramovat
• Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, …)– formální popis
– lze naprogramovat a testovat na datech (textech)
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 10
Jazykové roviny
• Základní roviny, víceméně společné všem teoriím– pragmatika (znalost světa…), logika aj., mezivětné vztahy…
– sémantika (hloubková syntaxe, význam)
– syntaxe (povrchová)
– morfologie
– fonologie, morfonologie
– fonetika / pravopis
• Každá rovina má vstupní a výstupní reprezentaci– výstup z nižší roviny je vstup do následující vyšší roviny
– někdy je vhodné některé roviny dále rozdělit, nebo naopak sloučit či přeskočit
anal
ýza syntéza
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 11
Vztahy mezi rovinami
vyšší rovina
nižší rovina
R
Cjednoduchý složený
Nižší je formou vyššího. Vyšší je funkcí nižšího.
Shora dolů = od významu k výrazu (povrchu).
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 12
Fonetická rovina
• Vstup:– akustický signál
• Výstup:– posloupnost fónů (zvuků — vektorů různých charakteristik, rysů,
které lze vysledovat ve vstupním signálu)
• Obsah:– základní: charakteristiky (např. délka samohlásky); silový slabičný
přízvuk, tóny, délka samohlásek
– složené: fóny (kombinace hodnot) zapsané fonetickou abecedou
– suprasegmentální: intonace (větný přízvuk)
– klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod.
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 13
Fonetická rovina
fonetika
akustický signál
Cprys 1 fón
Cprys 2
Cp
rys 3
z b a ņ k o u
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 14
Fonetická rovina
• „Nelingvistická“ rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na řadu charakteristik:– samohláska / souhláska
– dlouhá / krátká
– tón vysoký / nízký / klesající / …
– znělá / neznělá
– nosová / nenosová
• Ne všechny zjištěné rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy.
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 15
Příklad: distinktivní rysy
• Znělost je v češtině distinktivní rys: tři – dři. Odlišuje různé hlásky, zde t/d.
• Podobně v angličtině je distinktivní rys i rozdíl mezi n a ng: thin (tenký) – thing (věc).
• Tento rozdíl však není distinktivním rysem v češtině: rána
– ranka. Nejde o dvě hlásky, ale o dvě poziční varianty jedné hlásky!
• V němčině je distinktivní rys rozdíl mezi ü a ie: Abfahrt
der Züge (odjezd vlaků) – Abfahrt der Ziege (odjezd kozy). V češtině tento rozdíl neodlišuje dvě hlásky, pro nás je obojí í.
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 16
Fonologická rovina
• Vstup:– posloupnost fónů zapsaných ve fonetické abecedě
• Výstup:– posloupnost hlásek (fonémů — zvuků majících „význam“ (funkci),
zapsaných písmeny abstraktní abecedy — třeba podmnožiny té fonetické)
• Obsah:– základní: distinktivní rysy
– složené: hlásky (fonémy)
– vztah R mezi fóny a fonémy (jednotky, které mohou mít nějakou funkci na vyšší rovině)
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 17
Fonologická rovina
fonologie
fonetika
Cpdistinktivní rys 1
foném
Cpdistinktivní rys 2 Cp
distinktivní rys 3
z b a n k o u
z b a ņ k o u
R
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 18
Fonologická rovina
• Žádné složené struktury, jen jednoduché symboly.
• Kromě symbolů, které popisují určitý úsek výpovědi a jdou za sebou, i takové, které se vztahují k celé posloupnosti úseků: větná intonace.
• I u větné intonace pouze takové rysy, které v daném jazyce rozlišují význam.
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 19
Pravopisná rovina
• Vstup:– text (posloupnost písmen — grafémů — symbolů abecedy konkrétního
jazyka)
• Výstup:– posloupnost symbolů abstraktní abecedy, použitelná na fonologické
rovině
• Obsah:– normalizace, interpunkce, konce slov a vět
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 20
Pravopisná rovina
fonologie
pravopis
j a b l o ň e
j a b l o n ě
R
grafémy
fonémy
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 21
Stejné znění, různý zápis
fonologie
pravopis
v i l y
v i l y
R
v i/y l i/y
v i l i
R
fonetika
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 22
Opačný případ: stejný zápis,jiná výslovnost
fonologie
pravopis
r í d
r e a d
R
r í d
r í d
R
fonetika
r e d
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 23
Opačný případ: stejný zápis,jiná výslovnost
fonologie
pravopis
k a t
� � �
R
k u t
a b
u b
psát
knihy
��
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 24
Morfonologická rovina
• Vstup:– posloupnost fonémů zapsaných v abstraktní abecedě
• Výstup:– posloupnost morfonémů členěná do morfů
• Obsah:– základní prvky: morfonémy
– složené prvky: morfy– morfonémů víc než fonémů: vedle k|c|č nadále existuje i k, c a č
– morfy = kmeny a afixy (= koncovky, ale i předpony, přípony a infixy)
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 25
Morfonologická rovina
morfonologie
fonologie m
R
a t k a
m a t c e
m a t č i n
m a t k|c|č …
morfoném
mat(k|c|č) a
morfCs
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 26
Morfematická rovina
• Vstup:– posloupnost morfů
• Výstup:– posloupnost slovních tvarů spolu s lexikální (významovou) a
gramatickou informací
• Obsah:– základní prvek: séma (lexikální nebo gramatické)
– složený prvek: morfém (lexikální / gramatický (skloňovací / časovací))
– složený prvek: formém
– nejen ohýbání, ale i odvozování a skládání
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 27
Morfematická rovina
morfematika
morfonologie
R
k
formém
Cp
nej ne zdrav ější mu
morfy
k nej ne zdrav ější mu
morfémy
rod = M|N
číslo = S
pád = 3sém
ata
[k,R3]
([zdravý,A(M|N)S33N])
Cs
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 28
Morfematická rovina
• Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavně o dvojici [lemma, značka].
• Morfémy jsou lexikální (např. kmen „zdrav“) a gramatické (např. koncovka „ější“).
• Sémata jsou lexikální (např. kmen „zdrav“, slovní druh „přídavné jméno“, „zájmeno osobní“) a gramatická (např. „mužský rod“, „3. stupeň“).
• Morfém někdy ~ 1 séma (aglutinační jazyky), častěji více sémat.
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 29
Odvozování × ohýbání
• Odvozování slov je spolu s ohýbáním součástí morfologie.
• Některé pravidelné způsoby odvozování lze stejně jako skloňování, časování apod. řešit automaticky:– dělat → udělat, předělat, dodělat, oddělat, prodělat, vydělat,
zadělat, přidělat, podělat… — stačí vyjmenovat povolené předpony.
– dělat → dělávat, dělání, dělající, udělavší, udělaný, dělný, dělník → dělníkův, dělnický, dělnice; dílo, dílna → dílnový…
– učit → učitel, ale ne dělat → *dělatel, ani učit → *učitník! (učedník ano, ale význam je jiný než u „dělník“)
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 30
Syntaktická (povrchová) rovina
• Vstup:– posloupnost formémů (obvykle [lemma, značka])
• Výstup:– větná struktura (strom) s označením větných vztahů
• Obsah:– základní prvek: tagmém (větný člen)
– složený prvek: syntagmém (věta: strom + povrchový slovosled)
– vztah mezi morfologickými kategoriemi a větnou strukturou
– syntaktické kategorie (podmět, přísudek, předmět…)
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 31
Syntaktická rovina
syntaxe
morfematika
R
… … … … …
psát
VPS3A
dopis
NIS4A
svůj
PSRMS3
přítel
NMS3A
.
Z
tagmémy
syntagmém
předmět
přísudek
předmět
přívlastek
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 32
Syntaktická rovina
• Tagmém je větný člen, tedy nejen slovo, ale třeba i několik slov: „v domě“, „dělal jsem“.
• Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech — protože nechceme zapomenout informaci z nižších rovin.
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 33
Sémantická (tektogramatická, hloubková) rovina
• Vstup:– větná struktura (strom) s pojmenováním vztahů
• Výstup:– rovněž stromová struktura, ale: hloubkové funkce, odstraněná pomocná
slova
• Obsah:– základní prvek: sémantém (odpovídá tagmému)
• sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace))
• typ doplnění (sémantický větný člen)
– složený prvek: propozice (strom, hloubkový slovosled)
– vztah mezi povrchovými kategoriemi jako „podmět“, „předmět“ a hloubkovými kategoriemi jako „konatel“, „trpitel“
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 34
Tektogramatická rovina
Jana a její bratr, jež založili rodinu, žijí v Praze.
Jana, N, T bratr, N, T
ona, PP, T jenž, WH, T rodina, N, F
založit, V, F
žít, V, F
Praha, N, F
slučovací
koreference
koordinace
36
35 303
23 (v)
druhdoplnění
aktuálníčlenění
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 35
Sémantická rovina
• Koordinace– poměr slučovací (a, i, ani, nebo)
– poměr odporovací (ale, avšak, nýbrž)
– poměr vylučovací (buď-nebo)
• Koreference– něco jako shoda podmětu s přísudkem, ale na jiné úrovni (na
dlouhé vzdálenosti)
– zvratné zájmeno
• Hloubkové × povrchové funkce:
„Pavel viděl Petra.“ „Petr byl viděn Pavlem.“
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 36
Aktuální členění věty
• Věta se dělí na téma (základ, východisko, topic) a réma
(jádro, ohnisko, focus).– Východisko: to, co už víme.
– Ohnisko: to, co o tom známém nového sdělujeme.
• Podrobnější členění: kontextová zapojenost členů frází: východisko je kontextově zapojené, ohnisko je kontextově nezapojené.
• V rámci východiska nebo ohniska se členy řadí do tzv. systémového slovosledu daného daným jazykem.
• Dohromady jde o hloubkový slovosled (× povrchový).
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 37
Rovina diskurzu
• Vstup:– posloupnost vět (propozic) patřících k sobě (např. jeden článek) =
diskurz
• Výstup:– diskurz s vyřešenými mezivětnými vztahy
• Obsah:– např. anafora, katafora:
„Pavel přišel po desáté. Dala jsem mu večeři.“
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 38
Pragmatická (logická) rovina
• Vstup:– hloubková struktura věty (propozice)
• Výstup:– logická forma, která může být vyhodnocena (pravda/nepravda)
• Obsah:– přiřazení objektů reálného světa uzlům větné struktury
– mimolingvistický obsah: znalost světa („oči barvy nebe“)
– kvantif. („mnoho knih čte málo lidí“ × „mnoho lidí čte málo knih“)
– například (já/Sg/Pat/t (vidět(Past/Pred/t) babička/Sg/Ag/f) ~vidět(babička-BN[SSN:…],Němcová[SSN:…])[čas:před 7.10.2016 21:48][místo:mezi (50°20’00”N15°30’00”E,51°00’00”N16°30’20”E)]
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 39
Teorie a praxe
• Některé roviny jsou zbytečně podrobně členěné, aniž to konkrétní aplikace potřebuje: např. skládání morfonémů, pravopisná pravidla ďe = dě apod. lze řešit najednou.
• Některé roviny lze někdy vypustit, např. často máme text a fonetické problémy odpadnou.
• Některá členění přinášejí technické obtíže, např. u syntaktických stromů je lepší pracovat se slovy než s formémy.
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 40
Zjednodušený systém rovin
• tektogramatická– hloubkový slovosled (aktuální členění)
– koordinace
– koreference, doplnění vypuštěných členů, spojování členů
• analytická (syntaktická)– posloupnost dvojic → stromová struktura
• morfologická– slovní tvar → dvojice [lemma, značka]
• předzpracování– posloupnost znaků (písmen) → posloupnost slov (a interpunkce)
Treex: nástroj nejen pro analýzu
• Open-source, napsáno v Perlu
• Webové demo:
https://lindat.mff.cuni.cz/services/treex-web/
4.11.1999 http://ufal.mff.cuni.cz/course/popj1 41