Компьютерный анализ естественно - языкового текста
DESCRIPTION
Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/1.jpg)
Компьютерный анализ естественно-языкового текста
Кафедра информационных систем в искусстве и гуманитарных науках
![Page 2: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/2.jpg)
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
1. Введение в дисциплину
2. Автоматический анализ текста на морфологическом уровне
3. Автоматический анализ текста на синтаксическом уровне
4. Семантический компонент в системах автоматического анализа текста
![Page 3: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/3.jpg)
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
2. Автоматический анализ текста на морфологическом уровне
1. Морфологический уровень в ЛИТ2. Основные понятия морфологии в
компьютерной морфологии
3. Основные процедуры компьютерной морфологии
4. Компьютерная морфология русского языка
5. Технологии морфологического анализа
6. «Предсказание» (типизация)
7. Вопросы, смежные с синтаксисом
![Page 4: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/4.jpg)
ПЕРИОДИЗАЦИЯ РАЗРАБОТОК ПО КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА
• Первые разработки (для машинного перевода) – сер. 50-х – конец 60-х гг.
• Освоение новых функций – конец 60-х – конец 80-х гг.
• Освоение словаря Зализняка – конец 80-х - конец 90-х гг.
• Компьютерная морфология русского языка – «написанная книга»?.. – 2000-е гг.
![Page 5: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/5.jpg)
ПЕРВЫЕ РАЗРАБОТКИ В ОБЛАСТИ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА
1954 г.- Джорджтаунский эксперимент (январь)- Начало разработок систем МП в СССР:
- с английского (Институте точной механики и вычислительной техники)- и французского (в Институте прикладной математики) языков
Конец 50-х гг.:- Разработки систем МП с русского языка в США:
- в Вашингтонском университете (1956-1957 г.) – со словарем словоформ
- в Гарвардском университете (1959-1961) – с модулем морфологического анализа «справа налево» (inverse inflection)
- Группа под руководством Ю.А.Моторина (1956/1958 г.) – англо-русский перевод
Начало 60-х гг.:- Университет Уэйна (США) – перевод со словарем словоформ- Национальное бюро стандартов, Джорджтаунский университет (США)
- с модулем морфологического анализа.- Перевод с русского в Гренобльском университете (Франция)
![Page 6: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/6.jpg)
МОРФОЛОГИЧЕСКИЕ МОДУЛИ В НОВЫХ ФУНКЦИЯХ
• Систематизация опыта построения морфологических синтезаторов в работах З.М.Волоцкой (1958), Т.М.Николаевой (1961), далее - О.А.Штерновой (1977)
• Работа А.А.Раскиной и Т.С.Чепиго в ВИНИТИ (1967): построение словаря словоформ (нач. с 10 тыс.) с конечной целью – система перифразирования предложений на тему «Космос»
• Комплексная система обработки информации в ВИНИТИ (группа Г.Г.Белоногова): ИП вместе с набором автоматизированных вспомогательных функций (описан в публикациях 1984-89 гг.)
![Page 7: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/7.jpg)
ИСПОЛЬЗОВАНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА В ТЕХНОЛОГИЧЕСКОЙ ЦЕПОЧКЕ ВИНИТИ
![Page 8: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/8.jpg)
СЛОВАРЬ ЗАЛИЗНЯКА
1974• «Обратный словарь русского языка»1977• «Грамматический словарь русского языка»1980• 2-е изд. ГСРЯ1987• 3-е изд. ГСРЯ2003• 4-е изд. ГСРЯ (добавлены имена собственные)
Автор – Андрей Анатольевич Зализняк (с 1997 г. академик РАН)
![Page 9: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/9.jpg)
ПЕРЕНОС СЛОВАРЯ ЗАЛИЗНЯКА НА МАШИННЫЕ НОСИТЕЛИ
• Автоматизированная лексикографическая система УНИЛЕКС (1987), УНИЛЕКС-2 (1989), УНИЛЕКС-Т (1993)
• Объявление в журнале “Language” о возможности приобрести электронную версию ГСРЯ у Университета Бригема Янга (Brigham Young University, штат Юта) (1992)
• Интеграция словаря Зализняка в STARLING - рабочую программную среду для лингвиста (ок.1989, в Интернете с 1998 - starling.rinet.ru)
![Page 10: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/10.jpg)
ФРАГМЕНТ СТРАНИЦЫ СЛОВАРЯ ЗАЛИЗНЯКА
![Page 11: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/11.jpg)
ДОСТОИНСТВА СЛОВАРЯ ЗАЛИЗНЯКА
• полнота словника
• детальность словоизменительной характеристики
![Page 12: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/12.jpg)
ФРАГМЕНТ СЛОВАРЯ ЗАЛИЗНЯКА, ЭКСПОРТИРУЕМОГО ИЗ STARLING
WORD GRAMMAR TRANS
-де 3 (_без удар._) част.
-ка 3 (_без удар._) част.
-либо 5 част.
-нибудь 5 (_без удар._) част.
-с 0 част.
-таки 5 част.
-то 3 (_без удар._) част.
а 1 (_без удар._) союз ah and butI eh
а 1 част.
а 1 межд.
а 1 с 0 (_название буквы а_)
а-конто 4 с 0
![Page 13: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/13.jpg)
СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ
Идентификатор лексемы Идентификатор парадигмы
порогов 302
пород 005
породнени 002
порожда 401
![Page 14: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/14.jpg)
СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ
Идентификатор лексемы
Основа Идентификатор парадигмы
пороговый порогов 302
порода пород 005
породнение породнени 002
порождать порожда 401
![Page 15: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/15.jpg)
ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ
• Могут быть слишком дробными (для обработки письменного текста)
дол м 1е//1апорт м 1е имеют одинаковый набор окончанийклён м 1а
• Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии)
восстановление начальной формы:
бугор м 1*b бугра: (- ра), (+ ор)котёл м 1*b котла: (- ла), (+ ёл)псалом м 1*b псалма: (- ма), (+ ом)сон м 1*b сна: (- на), (+ он)хребет м 1*b хребта: (- та), (+ ет)
![Page 16: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/16.jpg)
НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА
• сложная структура словоизменительной характеристики
• формальная «вседозволенность» (свобода образования форм множественного числа - вреды, зарезы, неонацизмы, кратких форм - бегл, кредитово, соляны, сравнительной степени - тяжелораненее, убитее, изюбревее)
• неполнота словника
![Page 17: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/17.jpg)
РАЗРАБОТКИ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ ДЛЯ РУССКОГО ЯЗЫКА ПОСЛЕ СЛОВАРЯ ЗАЛИЗНЯКА
• Коммерческие модули проверки орфографии – «ОРФО», «ПРОПИСЬ»; в составе текстовых редакторов «ЛЕКСИКОН», «ДЕЛА В ПОРЯДКЕ»
• Вопрос как строить морфологические модули решается на уровне кандидатских диссертаций (О.В.Минтусова 1990, И.В.Жарков 1995, Г.О.Сидоров 1995)
![Page 18: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/18.jpg)
КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ
• Модули морфологической обработки предлагаются в качестве готового к употреблению товара (Руссикон, ABBYY, Медиа-Лингва, Гарант-Парк-Интернет,… )
• Модули морфологической обработки распространяются свободно (АОТ, А.Поминов, С.Сикорский…)
• Что дальше?
![Page 19: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/19.jpg)
КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (1)
http://www.multitran.ru “Морфологический анализатор”
он-лайн развертывание парадигмыанализ
Морфологический анализатор
загруж. анализ
“Морфологические классы русского языка”
он-лайн представление морфологии
http://starling.rinet.ru Морфологический анализатор - генератор парадигмы
он-лайн типизация словарных слованализразвертывание парадигмы
Словарь ГСРЯ в текстовом формате
загруж. типизация словарных слов
Словарь ГСРЯ в формате базы данных dbf
загруж. типизация словарных слов
http://axofiber.no-ip.org Проект “Русская морфология” (RMU/RMS)
он-лайн анализразвертывание парадигмытипизация несловарных слов
![Page 20: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/20.jpg)
КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (2)
http://www.aot.ru Морфологический анализатор - генератор парадигмы
он-лайн анализразвертывание парадигмы
“Программа морфологического анализа”
загруж. анализтипизация несловарных слов
“Русский морфологический словарь”
загруж. представление морфологиитипизация словарных слов
http://www.xrce.xerox.com/competencies/content-analysis/demos/russian.en.html
“Russian Morphological Analysis”
он-лайн анализ
http://www.keva.ru/ “Демонстрационная версия русского морфологического анализатора”
он-лайн / загруж.
анализразвертывание парадигмы
http://www.geocities.com/SiliconValley/Bit/1116/
“Russian Morphological Dictionary”
загруж. анализ
![Page 21: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/21.jpg)
КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ: повестка дня
• Потребность в свободно распространяемых готовых решениях (АОТ, …)
• Проблемы технической эффективности (анализа, типизации)
• Качество лингвистических баз данных и их адаптируемость к конкретным задачам
![Page 22: Компьютерный анализ естественно - языкового текста](https://reader035.vdocuments.pub/reader035/viewer/2022062517/5681336f550346895d9a8297/html5/thumbnails/22.jpg)
ПРЕЗЕНТАЦИЯ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ АОТ
См. http://www.aot.ru/docs/sokirko/MorphPPT-Dateien/frame.htm