АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ...

8
АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет

Upload: rosalia-woriega

Post on 02-Jan-2016

52 views

Category:

Documents


1 download

DESCRIPTION

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет. Особенности китайского языка. Отсутствие словоделения 现场的调查官员称,爆炸的威力相当于 2 公斤 TNT ,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落 。. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ

АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.

ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.

Загибалов Тарас Евгеньевич

Красноярский госуниверситет

Page 2: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ

Особенности китайского языка

1. Отсутствие словоделения

现场的调查官员称,爆炸的威力相当于 2公斤 TNT ,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落。

Page 3: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ

Особенности китайского языка2. Невозможность однозначной сегментации текста на слова.

• [1a] da-xue | sheng-huo | hen | you-qu• университет | жизнь | очень | интересная• Университетская жизнь очень интаересна.• [1b] da-xue-sheng | huo | bu | xia-qu | le• студент | жить | не | далее |

(фразовая частица)• Студенты больше не могут жить.• [2a] ge-ren | de | li-liang• отдельный человек | DE (атр.)| сила• сила одного человека• [2b] san | ge | ren |de | li-liang• три | сч. частица | человек | DE (атр.) | сила• сила трёх человек

• (примеры взяты из «On Chinese parsing without using a separate word segmenter» Wei Li.)

Page 4: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ

Особенности китайского языка

3. Несловарная лексика.

哭跑 (孩子哭跑了客人。) kupao («плакать» + «бежать»)

|haizi |kupao |le |keren.

|ребёнок |так плакал, что разбежались | ПСВ | гости

(пример взят из Антонян К.В. «Единицы словаря и единицы текста в современном китайском

языке»)

Page 5: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ

Особенности китайского языка

4. Глагольно-объектные конструкции.• 1. 睡觉 shuijiao («спать»), букв.: «спать +

сон», (в словарях зафиксировано как слово);• 2. (觉)睡得很好 (jiao) shuide henhao, букв.:

(сон) спать+показатель наречия) + очень хорошо.

• 3. 睡了三个小时的觉 shuile sange xiaoshide jiao («спал три часа»), букв.: «спать+ПСВ + три часа+ DE (атр.) сон»);

• 4. 睡懒觉 shui lanjiao («валяться в постели»), букв.: «спать ленивый сон»;

Page 6: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ

Особенности китайского языка

• Имена собственные (десемантизация знака)

普京 pujing Путин

(«везде» + «столица»)

马来西亚 malaixiya – Малазия

(«лошадь»+«приходить»+«запад»+«азия»)

Page 7: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ

Базовые единицы китайского языка

• ЦЗЫ (логограмма, слогомофема)

• ЦЗЫЦЗУ (сочетание ЦЗЫ, слогоморфемная ситнагма)

• «Слово – лишь частный, к тому же не самый распространённый, случай слогоморфемной синтагмы» (В.Б.Касевич. «Семантика. Синтаксис. Морфология»)

Page 8: АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.  ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ

Предлагаемые решения

• Для анализа крупных массивов информации за базовую единицу анализа можно взять ЦЗЫ.

• Для лексико-синтаксического анализа (parsing) за основу также берётся ЦЗЫ, на основе анализа которых возможно выделение ЦЗЫЦЗУ (On Chinese parsing without

using a separate word segmenter» Wei Li.)