Разработка Инструментария для Семантической Разметки...

Post on 21-Jan-2016

67 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Разработка Инструментария для Семантической Разметки Текста. О.В. Мудрая, Б.В. Бабич, S. Piao, P. Rayson, A. Wilson Корпусная лингвистика 2006 Санкт-Петербург. Содержание. Важность лексическо-семантических ресурсов и семантической аннотации в автоматическом анализе текста - PowerPoint PPT Presentation

TRANSCRIPT

О.В. Мудрая, Б.В. Бабич, S. Piao, P. Rayson, A. Wilson

Корпусная лингвистика 2006 Санкт-Петербург

Разработка Инструментария для Разработка Инструментария для

Семантической Разметки ТекстаСемантической Разметки Текста

СодержаниеСодержание

Важность лексическо-семантических ресурсов и семантической аннотации в автоматическом анализе текста

Lancaster UCREL semantic analysis system – система семантической разметки текста USAS

Русский семантический теггер (РСТ)

Оценка лексического покрытия РСТ

Применения РСТ

Роль лексическо-семантических ресурсовРоль лексическо-семантических ресурсов

В корпусной лингвистике.

В автоматической обработке естествен-ного языка.

В автоматическом анализе текста: семантическая аннотация / анализ по семантическим полям – в качестве дополнительной процедуры снятия лексической омонимии и многозначности для разграничения различных значений слова.

Система семантической разметки текста Система семантической разметки текста USASUSAS

USAS = UCREL semantic analysis system

UCREL = [Lancaster] University Centre for Computer Corpus Research on Language

Разрабатывалась в течение последних 20-ти лет в университете г. Ланкастер, Вели-кобритания.

Доступна для научных исследований в качестве составной части системы Wmatrix http://www.comp.lancs.ac.uk/ucrel/wmatrix/.

McArthur T., Longman Lexicon of Contemporary English. McArthur T., Longman Lexicon of Contemporary English. London, 1981.London, 1981.

Семантический теггер Семантический теггер USASUSAS:: Система семантической разметки текстаСистема семантической разметки текста

В основе -- система классификации лексики в соответствии с Лонгманским лексиконом современного английского языка Тома МакАртура.

Лонгманский лексикон МакАртура: 15 тыс. слов, относящихся к основной лексике сгрупированны по 14 семантическим полям / темам, которые подразделены на 127 групп и 2441 подгруппу.

Система семантической разметки текста Система семантической разметки текста USASUSAS

Первоначально разрабатывалась для анализа расшифровок интервью на английском языке ((Wilson and Rayson, 1993Wilson and Rayson, 1993)).

Охватывает 21 семантическую категорию, обозначенную заглавными буквами латинского алфавита, и 232 пронумерованные (до трех уровней) подкатегории.

Полная семантическая разметка USAS на http://www.comp.lancs.ac.uk/ucrel/usas/.

ОсновныеОсновные семантические категории семантические категории USASUSAS

Пример категории с подкатегориямиПример категории с подкатегориями

T Time T1 Time T1.1 Time: General T1.1.1 Time: General: Past T1.1.2 Time: General: Present; simultaneous T1.1.3 Time: General: Future T1.2 Time: Momentary T1.3 Time: PeriodT2 Time: Beginning and endingT3 Time: Old, new and young; ageT4 Time: Early/late

Лексикон Лексикон USASUSASАнглийский лексикон содержит около 55 тыс. словоформ and почти 19 тыс. многословных выражений (МСВ), многие из которых являют-ся шаблонами, способными распознавать варианты лексем в составе МСВ.

Клаcсифицируется набором широко опреде-ленных категорий семантичексих полей, организованных в структуру, подобную тезаурусу.

Используя номенклатуру семантических полей, отображает слова и шаблоны МСВ на их потенциальные семантические категории.

Лексическое покрытие Английского семанти-ческого теггера (АСТ) на BNC – 98.49% (Piao et (Piao et al., 2004)al., 2004).

Дальнейшая разработка и Дальнейшая разработка и усовершенствование усовершенствование USASUSAS

Увеличение лексических ресурсов.

Включение новых языков: для задач проектов Benedict ((LöfbergLöfberg et al, 2005)et al, 2005) и ASSIST ((SharoffSharoff et al, 2006)et al, 2006) АСТ был перенесен на финский и русский языки.

Снятие омонимии -- в соответствии с употреблением слов и МСВ в контексте ((Rayson Rayson et al, 2004)et al, 2004)..

Русский семантический теггер (Русский семантический теггер (РСТРСТ))

Разрабатывается в ходе работы над проектом ASSIST – Automated semantic assistance for translators.

Совместными усилиями исследователей из двух британских университетов: Ланкастерского и Лидского.

Работа поддержана грантами фонда UK-EPSRC – EP/C004574/1 для Ланкастерского Университета и EP/C005902 для Лидского Университета.

РСТРСТВ основе -- семантические категории USAS, которые совместимы с семантической категоризацией объектов и явлений в русском языке, например:

poor JJ I1.1- A5.1- N5- E4.1- X9.1-бедный A I1.1- A6.3- N5- O4.2- E4.1-

I1.1- = Деньги: недостаток A5.1- = Оценка: плохо N5- = Количество: малоE4.1- = Несчастный X9.1- = Способность, интеллект: плохие A6.3- = Сравнение: мало разнообразия O4.2- = Суждение о внешности: плохо

Особые меткиОсобые метки

+/- для обозначения положительных / отрицательных аспектов значений

m, f и n = мужской, женский и неопреде-ленный пол

Многозначные лексические единицыМногозначные лексические единицы Отображаются во множественных семанти-

ческих категориях. Также указывается грам-матическая категория части речи с целью уменьшения неоднозначности. Семантические метки расставляются в

порядке употребительности, т.е. метка, соответствующая наиболее употребитель-ному значению, проставляется первой в списке значений: для английского языка – на основе Collins COBUILD on CD-ROM 2001 Lingea Lexicon, ver. 3.1, и Encarta World English Dictionary 1999 Microsoft Corporation. для русского языка – ABBYY Lingvo 10 English-Russian Electronic Dictionary 2004 и ГРАМОТА.РУ http://www.gramota.ru/.

Гибридные Гибридные семантические категориисемантические категории

Когда лексемы одновременно принадлежат к двум или более семантическим категори-ям, образуя гибридную категорию, что обозначается с помощью косой черты:

rebel VV0 G1.2/A6.1- S8- A6.1-

waiter NN1 I3.1/F1/S2.2m

адмирал S G3/S7.1+/S2mf L2mf

больничный A B3/H1 Q1.2/B2-

Модификации в архитектуре РСТМодификации в архитектуре РСТ(в отличие от архитектуры АСТ)(в отличие от архитектуры АСТ)

mystem ((SegalovichSegalovich,, 2003 2003)) в РСТ = POS tagger CLAWS ((Garside and Smith, 1997Garside and Smith, 1997)) в АСТ; кодировка Cp1251 → UTF8; в словнике однословных лексических

единиц РСТ – только леммы, в отличие от словоформ в лексиконе АСТ; выделение имен собственных в особый

подлексикон однословных лексических единиц РСТ из-за того, что mystem не различает имена собственные и нарица-тельные.

Рабочий процесс РСТ:Рабочий процесс РСТ:

необработанный русский текст

морфологизатор mystem

русский семантический компонент (однословные лексические единицы / имена

собственные + МСВ)

семантическая аннотация

Разработка словника РСТРазработка словника РСТ

Путем эксплуатации словарей и корпусов -- в первую очередь, легкодоступных материалов: списки имен собственных.

Разработка началась с включения 3000 наиболее частотных лемм из Национального корпуса русского языка: http://ruscorpora.ru/, а также http://corpus.leeds.ac.uk/list.html.

Пополнение тематическими списками с помощью онлайновых ресурсов: http://www.terms.ru/.

Дальнейшее расширение посредством загрузки в РСТ текстов из различных источников и последующей семантической классификации ненайденных слов.

Состав словника РСТСостав словника РСТ

На данный момент в словнике РСТ:

16 103 леммы, из которых 11 671 – имена нарицательные и 4432 – имена собственные

713 МСВ – многие являются шаблонами (с возможными словами-вставками), способны-ми распознавать варианты лексем в составе МСВ:без_* видим*_* {на/то} причин*_* X2.5- A2.2- в_* {сам*} разгар*_* X5.2+ N5.1+

Цель – 30 тыс. лемм и около 9 тыс. МСВ к концу марта 2007.

Лексическое покрытие словника РСТЛексическое покрытие словника РСТОценка произведена на специально созданном для проекта ASSIST Русском новостном корпу-се (газеты Труд, Известия и Страна.Ru, опубликованные в 2002-2004 гг.) в 70 млн. слов.Корпус пролемматизирован (mystem). Пунктуация включена. Омонимия частично снята через выбор наиболее частотной леммы для данной словоформы, представленной в размеченной вручную части Национального корпуса русского языка в 1,6 млн. слов. Результат – 79%. Цель – 90%.Частотные слова, не представленные в словнике РСТ, принадлежат к области совре-менных политических и общественных событий → словник РСТ будет расширен за счет таких слов.

Пользовательский интерфейсПользовательский интерфейс РСТРСТ httphttp://148.88.224.86:8080/://148.88.224.86:8080/nlpnlp__toolstools//rusrus__semsem__taggertagger

Веб-интерфейс включает 3 веб-страницы. Первая страница -- имя и пароль доступа. Основная страница -- введение текста в текстовую область для последующей семан-тической разметки. Результат выводится в таблицу, содержащую код части речи и семантический тег / теги для каждого слова в исходном тексте. Члены МСВ обозначаются в специальной колонке. Третья страница -- получение лексических вхождений для заданного семантического тега, с возможностью выбора между лексиконами однословных лексических единиц и МСВ.

Применения РСТПрименения РСТ Компьютерный семантический анализ русского текста. Компьютерный контент-анализ – статистичес-кий анализ семантических признаков текстов посредством группировки слов и словосочета-ний по категориям семантических полей и определения частотности слов и семантичес-ких тегов в текстах.Разработка автоматизированных средств для переводчиков: семантическая аннотация рус-ского текста с целью нахождения в сравнимых корпусах непрямых переводных эквивалентов фраз, составляющих трудность при переводе. Поиск осуществляется через установление соответствий между похожими описаниями ситуаций, описанных в терминах семантичес-ких тегов.

top related