ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · po číta čové...

41
Lingvistická terminologie Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/ Počítačové zpracování přirozeného jazyka

Upload: others

Post on 27-Feb-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

Lingvistická terminologie

Daniel Zeman

http://ufal.mff.cuni.cz/course/popj1/

Počítačové zpracování přirozeného jazyka

Page 2: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 2

Slovní druhy

slovní druh part of speech

podstatné jméno substantivum noun

přídavné jméno adjektivum adjective

zájmeno pronomium pronoun

číslovka numeralium numeral

sloveso verbum verb

příslovce adverbium adverb

předložka, záložka prepozice, postpozice preposition, postposition

spojka konjunkce conjunction

částice partikule particle

citoslovce interjekce interjection

člen determiner, article

Page 3: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 3

Rody a čísla

rod genus gender

mužský maskulinum masculine

neživotný inanimatum inanimate

ženský femininum feminine

střední neutrum neuter

číslo numerus number

jednotné singulár singular

dvojné duál dual

množné plurál plural

Page 4: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 4

Pády a osoby

pád casus case

1. nominativ nominative

2. genitiv genitive

3. dativ dative

4. akuzativ accusative

5. vokativ vocative

6. lokál local

7. instrumentál instrumental

osoba person

1. 1st

2. 2nd

3. 3rd

Page 5: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 5

Časy, vidy, způsoby

čas tempus tense

přítomný prézens present

minulý préteritum past

budoucí futurum future

neurčitek infinitiv infinitive

vid aspect

dokonavý perfektum perfect

nedokonavý imperfektum imperfect

způsob modus mode

oznamovací indikativ indicative

rozkazovací imperativ imperative

podmiňovací kondicionál conditional

Page 6: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 6

Slovesné rody, větné způsoby, stupně, zápory

slovesný rod voice

činný aktivní active

trpný pasivní passive

tázací (zájmeno, věta…) interrogativum interrogative

(ne)určitý (in)definite

zápor negativeness

kladný afirmativ affirmative

záporný negativ negative

stupeň degree (of comparison)

1. pozitiv positive

2. komparativ comparative

3. superlativ superlative

Page 7: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 7

Větné členy

přísudek predikát predicate

podmět subjekt subject

předmět objekt object

příslovečné určení adverbiale adverbial

přívlastek atribut attribute

přechodné sloveso tranzitivní verbum transitive verb

nepřechodné sloveso intranzitivní verbum intransitive verb

Page 8: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

Roviny zpracování přirozeného jazyka

Daniel Zeman

http://ufal.mff.cuni.cz/course/popj1/

Počítačové zpracování přirozeného jazyka

Page 9: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 9

Formální popis jazyka

• Gramatika– soubor pravidel, popisujících, co je v jazyce přípustné

• Klasické gramatiky– určeny lidem, kteří daný jazyk znají

– definice a pravidla na základě příkladů

– (skoro) žádné nástroje pro formalizaci; nelze naprogramovat

• Explicitní gramatiky (CFG, HPSG, závislostní gramatiky, spojové gramatiky, …)– formální popis

– lze naprogramovat a testovat na datech (textech)

Page 10: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 10

Jazykové roviny

• Základní roviny, víceméně společné všem teoriím– pragmatika (znalost světa…), logika aj., mezivětné vztahy…

– sémantika (hloubková syntaxe, význam)

– syntaxe (povrchová)

– morfologie

– fonologie, morfonologie

– fonetika / pravopis

• Každá rovina má vstupní a výstupní reprezentaci– výstup z nižší roviny je vstup do následující vyšší roviny

– někdy je vhodné některé roviny dále rozdělit, nebo naopak sloučit či přeskočit

anal

ýza syntéza

Page 11: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 11

Vztahy mezi rovinami

vyšší rovina

nižší rovina

R

Cjednoduchý složený

Nižší je formou vyššího. Vyšší je funkcí nižšího.

Shora dolů = od významu k výrazu (povrchu).

Page 12: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 12

Fonetická rovina

• Vstup:– akustický signál

• Výstup:– posloupnost fónů (zvuků — vektorů různých charakteristik, rysů,

které lze vysledovat ve vstupním signálu)

• Obsah:– základní: charakteristiky (např. délka samohlásky); silový slabičný

přízvuk, tóny, délka samohlásek

– složené: fóny (kombinace hodnot) zapsané fonetickou abecedou

– suprasegmentální: intonace (větný přízvuk)

– klasifikace hlásek ve vztahu k tvaru a pozici jazyka apod.

Page 13: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 13

Fonetická rovina

fonetika

akustický signál

Cprys 1 fón

Cprys 2

Cp

rys 3

z b a ņ k o u

Page 14: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 14

Fonetická rovina

• „Nelingvistická“ rovina. Nejde o funkci a formu, pouze o konverzi akustického signálu na řadu charakteristik:– samohláska / souhláska

– dlouhá / krátká

– tón vysoký / nízký / klesající / …

– znělá / neznělá

– nosová / nenosová

• Ne všechny zjištěné rozdíly jsou v daném jazyku relevantní. Tedy: ne všechny mají funkci. Ty, které ji mají, nazýváme distinktivní rysy.

Page 15: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 15

Příklad: distinktivní rysy

• Znělost je v češtině distinktivní rys: tři – dři. Odlišuje různé hlásky, zde t/d.

• Podobně v angličtině je distinktivní rys i rozdíl mezi n a ng: thin (tenký) – thing (věc).

• Tento rozdíl však není distinktivním rysem v češtině: rána

– ranka. Nejde o dvě hlásky, ale o dvě poziční varianty jedné hlásky!

• V němčině je distinktivní rys rozdíl mezi ü a ie: Abfahrt

der Züge (odjezd vlaků) – Abfahrt der Ziege (odjezd kozy). V češtině tento rozdíl neodlišuje dvě hlásky, pro nás je obojí í.

Page 16: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 16

Fonologická rovina

• Vstup:– posloupnost fónů zapsaných ve fonetické abecedě

• Výstup:– posloupnost hlásek (fonémů — zvuků majících „význam“ (funkci),

zapsaných písmeny abstraktní abecedy — třeba podmnožiny té fonetické)

• Obsah:– základní: distinktivní rysy

– složené: hlásky (fonémy)

– vztah R mezi fóny a fonémy (jednotky, které mohou mít nějakou funkci na vyšší rovině)

Page 17: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 17

Fonologická rovina

fonologie

fonetika

Cpdistinktivní rys 1

foném

Cpdistinktivní rys 2 Cp

distinktivní rys 3

z b a n k o u

z b a ņ k o u

R

Page 18: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 18

Fonologická rovina

• Žádné složené struktury, jen jednoduché symboly.

• Kromě symbolů, které popisují určitý úsek výpovědi a jdou za sebou, i takové, které se vztahují k celé posloupnosti úseků: větná intonace.

• I u větné intonace pouze takové rysy, které v daném jazyce rozlišují význam.

Page 19: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 19

Pravopisná rovina

• Vstup:– text (posloupnost písmen — grafémů — symbolů abecedy konkrétního

jazyka)

• Výstup:– posloupnost symbolů abstraktní abecedy, použitelná na fonologické

rovině

• Obsah:– normalizace, interpunkce, konce slov a vět

Page 20: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 20

Pravopisná rovina

fonologie

pravopis

j a b l o ň e

j a b l o n ě

R

grafémy

fonémy

Page 21: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 21

Stejné znění, různý zápis

fonologie

pravopis

v i l y

v i l y

R

v i/y l i/y

v i l i

R

fonetika

Page 22: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 22

Opačný případ: stejný zápis,jiná výslovnost

fonologie

pravopis

r í d

r e a d

R

r í d

r í d

R

fonetika

r e d

Page 23: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 23

Opačný případ: stejný zápis,jiná výslovnost

fonologie

pravopis

k a t

� � �

R

k u t

a b

u b

psát

knihy

��

Page 24: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 24

Morfonologická rovina

• Vstup:– posloupnost fonémů zapsaných v abstraktní abecedě

• Výstup:– posloupnost morfonémů členěná do morfů

• Obsah:– základní prvky: morfonémy

– složené prvky: morfy– morfonémů víc než fonémů: vedle k|c|č nadále existuje i k, c a č

– morfy = kmeny a afixy (= koncovky, ale i předpony, přípony a infixy)

Page 25: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 25

Morfonologická rovina

morfonologie

fonologie m

R

a t k a

m a t c e

m a t č i n

m a t k|c|č …

morfoném

mat(k|c|č) a

morfCs

Page 26: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 26

Morfematická rovina

• Vstup:– posloupnost morfů

• Výstup:– posloupnost slovních tvarů spolu s lexikální (významovou) a

gramatickou informací

• Obsah:– základní prvek: séma (lexikální nebo gramatické)

– složený prvek: morfém (lexikální / gramatický (skloňovací / časovací))

– složený prvek: formém

– nejen ohýbání, ale i odvozování a skládání

Page 27: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 27

Morfematická rovina

morfematika

morfonologie

R

k

formém

Cp

nej ne zdrav ější mu

morfy

k nej ne zdrav ější mu

morfémy

rod = M|N

číslo = S

pád = 3sém

ata

[k,R3]

([zdravý,A(M|N)S33N])

Cs

Page 28: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 28

Morfematická rovina

• Formém zhruba odpovídá slovnímu tvaru, ale po morfologické analýze jde hlavně o dvojici [lemma, značka].

• Morfémy jsou lexikální (např. kmen „zdrav“) a gramatické (např. koncovka „ější“).

• Sémata jsou lexikální (např. kmen „zdrav“, slovní druh „přídavné jméno“, „zájmeno osobní“) a gramatická (např. „mužský rod“, „3. stupeň“).

• Morfém někdy ~ 1 séma (aglutinační jazyky), častěji více sémat.

Page 29: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 29

Odvozování × ohýbání

• Odvozování slov je spolu s ohýbáním součástí morfologie.

• Některé pravidelné způsoby odvozování lze stejně jako skloňování, časování apod. řešit automaticky:– dělat → udělat, předělat, dodělat, oddělat, prodělat, vydělat,

zadělat, přidělat, podělat… — stačí vyjmenovat povolené předpony.

– dělat → dělávat, dělání, dělající, udělavší, udělaný, dělný, dělník → dělníkův, dělnický, dělnice; dílo, dílna → dílnový…

– učit → učitel, ale ne dělat → *dělatel, ani učit → *učitník! (učedník ano, ale význam je jiný než u „dělník“)

Page 30: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 30

Syntaktická (povrchová) rovina

• Vstup:– posloupnost formémů (obvykle [lemma, značka])

• Výstup:– větná struktura (strom) s označením větných vztahů

• Obsah:– základní prvek: tagmém (větný člen)

– složený prvek: syntagmém (věta: strom + povrchový slovosled)

– vztah mezi morfologickými kategoriemi a větnou strukturou

– syntaktické kategorie (podmět, přísudek, předmět…)

Page 31: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 31

Syntaktická rovina

syntaxe

morfematika

R

… … … … …

psát

VPS3A

dopis

NIS4A

svůj

PSRMS3

přítel

NMS3A

.

Z

tagmémy

syntagmém

předmět

přísudek

předmět

přívlastek

Page 32: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 32

Syntaktická rovina

• Tagmém je větný člen, tedy nejen slovo, ale třeba i několik slov: „v domě“, „dělal jsem“.

• Nepraktické: uzel stromu by musel být strukturovaný, aby uchoval informace o více slovech — protože nechceme zapomenout informaci z nižších rovin.

Page 33: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 33

Sémantická (tektogramatická, hloubková) rovina

• Vstup:– větná struktura (strom) s pojmenováním vztahů

• Výstup:– rovněž stromová struktura, ale: hloubkové funkce, odstraněná pomocná

slova

• Obsah:– základní prvek: sémantém (odpovídá tagmému)

• sémoglyf (lexikální sémantém: synonyma jedním symbolem, syntaktické odvozeniny (nominalizace))

• typ doplnění (sémantický větný člen)

– složený prvek: propozice (strom, hloubkový slovosled)

– vztah mezi povrchovými kategoriemi jako „podmět“, „předmět“ a hloubkovými kategoriemi jako „konatel“, „trpitel“

Page 34: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 34

Tektogramatická rovina

Jana a její bratr, jež založili rodinu, žijí v Praze.

Jana, N, T bratr, N, T

ona, PP, T jenž, WH, T rodina, N, F

založit, V, F

žít, V, F

Praha, N, F

slučovací

koreference

koordinace

36

35 303

23 (v)

druhdoplnění

aktuálníčlenění

Page 35: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 35

Sémantická rovina

• Koordinace– poměr slučovací (a, i, ani, nebo)

– poměr odporovací (ale, avšak, nýbrž)

– poměr vylučovací (buď-nebo)

• Koreference– něco jako shoda podmětu s přísudkem, ale na jiné úrovni (na

dlouhé vzdálenosti)

– zvratné zájmeno

• Hloubkové × povrchové funkce:

„Pavel viděl Petra.“ „Petr byl viděn Pavlem.“

Page 36: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 36

Aktuální členění věty

• Věta se dělí na téma (základ, východisko, topic) a réma

(jádro, ohnisko, focus).– Východisko: to, co už víme.

– Ohnisko: to, co o tom známém nového sdělujeme.

• Podrobnější členění: kontextová zapojenost členů frází: východisko je kontextově zapojené, ohnisko je kontextově nezapojené.

• V rámci východiska nebo ohniska se členy řadí do tzv. systémového slovosledu daného daným jazykem.

• Dohromady jde o hloubkový slovosled (× povrchový).

Page 37: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 37

Rovina diskurzu

• Vstup:– posloupnost vět (propozic) patřících k sobě (např. jeden článek) =

diskurz

• Výstup:– diskurz s vyřešenými mezivětnými vztahy

• Obsah:– např. anafora, katafora:

„Pavel přišel po desáté. Dala jsem mu večeři.“

Page 38: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 38

Pragmatická (logická) rovina

• Vstup:– hloubková struktura věty (propozice)

• Výstup:– logická forma, která může být vyhodnocena (pravda/nepravda)

• Obsah:– přiřazení objektů reálného světa uzlům větné struktury

– mimolingvistický obsah: znalost světa („oči barvy nebe“)

– kvantif. („mnoho knih čte málo lidí“ × „mnoho lidí čte málo knih“)

– například (já/Sg/Pat/t (vidět(Past/Pred/t) babička/Sg/Ag/f) ~vidět(babička-BN[SSN:…],Němcová[SSN:…])[čas:před 7.10.2016 21:48][místo:mezi (50°20’00”N15°30’00”E,51°00’00”N16°30’20”E)]

Page 39: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 39

Teorie a praxe

• Některé roviny jsou zbytečně podrobně členěné, aniž to konkrétní aplikace potřebuje: např. skládání morfonémů, pravopisná pravidla ďe = dě apod. lze řešit najednou.

• Některé roviny lze někdy vypustit, např. často máme text a fonetické problémy odpadnou.

• Některá členění přinášejí technické obtíže, např. u syntaktických stromů je lepší pracovat se slovy než s formémy.

Page 40: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 40

Zjednodušený systém rovin

• tektogramatická– hloubkový slovosled (aktuální členění)

– koordinace

– koreference, doplnění vypuštěných členů, spojování členů

• analytická (syntaktická)– posloupnost dvojic → stromová struktura

• morfologická– slovní tvar → dvojice [lemma, značka]

• předzpracování– posloupnost znaků (písmen) → posloupnost slov (a interpunkce)

Page 41: ufal.mff.cuni.cz › ~zeman › vyuka › podklady › pzpj02-roviny.pdf · Po číta čové zpracování p řirozeného jazykaslovesný rod voice činný aktivní active trpný pasivní

Treex: nástroj nejen pro analýzu

• Open-source, napsáno v Perlu

• Webové demo:

https://lindat.mff.cuni.cz/services/treex-web/

4.11.1999 http://ufal.mff.cuni.cz/course/popj1 41