АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ...
DESCRIPTION
АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет. Особенности китайского языка. Отсутствие словоделения 现场的调查官员称,爆炸的威力相当于 2 公斤 TNT ,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落 。. - PowerPoint PPT PresentationTRANSCRIPT
АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ.
ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ.
Загибалов Тарас Евгеньевич
Красноярский госуниверситет
Особенности китайского языка
1. Отсутствие словоделения
现场的调查官员称,爆炸的威力相当于 2公斤 TNT ,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落。
Особенности китайского языка2. Невозможность однозначной сегментации текста на слова.
• [1a] da-xue | sheng-huo | hen | you-qu• университет | жизнь | очень | интересная• Университетская жизнь очень интаересна.• [1b] da-xue-sheng | huo | bu | xia-qu | le• студент | жить | не | далее |
(фразовая частица)• Студенты больше не могут жить.• [2a] ge-ren | de | li-liang• отдельный человек | DE (атр.)| сила• сила одного человека• [2b] san | ge | ren |de | li-liang• три | сч. частица | человек | DE (атр.) | сила• сила трёх человек
• (примеры взяты из «On Chinese parsing without using a separate word segmenter» Wei Li.)
Особенности китайского языка
3. Несловарная лексика.
哭跑 (孩子哭跑了客人。) kupao («плакать» + «бежать»)
|haizi |kupao |le |keren.
|ребёнок |так плакал, что разбежались | ПСВ | гости
(пример взят из Антонян К.В. «Единицы словаря и единицы текста в современном китайском
языке»)
Особенности китайского языка
4. Глагольно-объектные конструкции.• 1. 睡觉 shuijiao («спать»), букв.: «спать +
сон», (в словарях зафиксировано как слово);• 2. (觉)睡得很好 (jiao) shuide henhao, букв.:
(сон) спать+показатель наречия) + очень хорошо.
• 3. 睡了三个小时的觉 shuile sange xiaoshide jiao («спал три часа»), букв.: «спать+ПСВ + три часа+ DE (атр.) сон»);
• 4. 睡懒觉 shui lanjiao («валяться в постели»), букв.: «спать ленивый сон»;
Особенности китайского языка
• Имена собственные (десемантизация знака)
普京 pujing Путин
(«везде» + «столица»)
马来西亚 malaixiya – Малазия
(«лошадь»+«приходить»+«запад»+«азия»)
Базовые единицы китайского языка
• ЦЗЫ (логограмма, слогомофема)
• ЦЗЫЦЗУ (сочетание ЦЗЫ, слогоморфемная ситнагма)
• «Слово – лишь частный, к тому же не самый распространённый, случай слогоморфемной синтагмы» (В.Б.Касевич. «Семантика. Синтаксис. Морфология»)
Предлагаемые решения
• Для анализа крупных массивов информации за базовую единицу анализа можно взять ЦЗЫ.
• Для лексико-синтаксического анализа (parsing) за основу также берётся ЦЗЫ, на основе анализа которых возможно выделение ЦЗЫЦЗУ (On Chinese parsing without
using a separate word segmenter» Wei Li.)