ПОДХОД К РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО...
DESCRIPTION
ПОДХОД К РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ. Загорулько Ю.А. , Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П. Ершова СО РАН, Новосибирск Российский государственный гуманитарный университет, Москва. Текущее положение. - PowerPoint PPT PresentationTRANSCRIPT
ПОДХОД К РАЗРАБОТКЕ РУССКО-ПОДХОД К РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА АНГЛИЙСКОГО ТЕЗАУРУСА
ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ
Загорулько Ю.А., Боровикова О.И., Кононенко И.С.,Соколова Е.Г.
Институт систем информатики имени А.П.Институт систем информатики имени А.П. Ершова СО РАН,Ершова СО РАН,НовосибирскНовосибирск
Российский государственный гуманитарный университет,Российский государственный гуманитарный университет, МоскваМосква
Текущее положениеТекущее положение
Наблюдается значительный интерес к компьютерной лингвистике (КЛ), как к прикладной научной дисциплине, включающей знания о методах извлечения информации из текстов, индексирования и содержательного поиска документов, построения естественно-языковых, в том числе речевых, интерфейсов.
Возникла острая потребность в систематизированных знаниях по терминологии КЛ, которые, с одной стороны, способствовали бы повышению образовательного уровня, а с другой стороны, использовались для индексирования публикаций по КЛ с целью облегчения доступа к представленным в них знаниях по КЛ.
Однако в данный момент в КЛ отсутствует четкая и общепринятая система научной терминологии, причем многие термины современной КЛ не представлены на русском языке ни в одном из существующих лингвистических источников.
Текущее положениеТекущее положение ((сборники терминов)сборники терминов)
Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М.: Наука, 1978.
Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради новых терминов. № 39. – М.: ВЦП, 1982.
Лингвистический энциклопедический словарь. //Под ред. В. Н. Ярцевой. М.:Советская энциклопедия, 1990. — 685 с. [3 изд. 2002.]
Ахманова О.С. Словарь лингвистических терминов. – 3-е изд., стер. – М.: УРСС, 2005. – 576 с.
Онлайн Энциклопедия «Кругосвет»: [2001-2009]. URL: http://www.krugosvet.ru/. Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., 2007. Толковый словарь по искусственному интеллекту / Авторы-составители: А.Н.
Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. – М.: Радио и связь, 1992. –256с. Большой энциклопедический словарь (БСЭ) / гл. ред. А.М.Прохоров. - Изд. 2-е,
перераб. и доп. – М. : Большая Российская энциклопедия; –– СПб.: Норинт, 2004. – 1456 с.
Интернет-энциклопедия «Википедия» http://ru.wikipedia.org
Цели разработкиЦели разработки
Русско-английский тезаурус по компьютерной лингвистике (КЛ) разрабатывается учеными из РГГУ, МГУ, СПбГУ, ИНИОН РАН, ИСИ СО РАН им. А.П.Ершова при финансовой поддержке РГНФ (проект № 10-04-12108в).
Главная цель разработки Построить тезаурус по КЛ двойного назначения, т.е. тезаурус,
ориентированный на (1) непосредственное использование людьми, желающими обратиться к системе понятий из области КЛ, так и (2) решение задач индексирования и информационного поиска.
Цели разработкиЦели разработки
Обеспечение возможности структурировать и накапливать информацию о терминологии КЛ,
Приведение терминологии КЛ в единую систему, создание представительного компактного собрания терминов современной КЛ и их толкований.
Поддержка решения задач индексирования и информационного поиска. Повышение уровня профессиональной подготовки будущих
специалистов в сфере КЛ и информационных технологий Двуязычность тезауруса должна помочь отечественным ученым и
специалистам (1) быстрее и эффективнее ориентироваться в мировой ситуации в области КЛ, (2) выявлять различия и сходства между понятиями, используемыми в отечественной и зарубежной науке, (3) создавать новые понятия и лингвистические термины, отсутствующие в русском языке и др.
Виды информационно-поисковых Виды информационно-поисковых тезаурусов (ИПТ)тезаурусов (ИПТ)
ИПТ
Одноязычные ИПТ
Основная единица – термин предметной
области
Многоязычные ИПТ
Основная единица - составной дескриптор из
эквивалентных дескрипторов одноязычных
версий, связанных отношениями
эквивалентности
Термины
Дескрипторы(предпочтительные
термины)
используются при индексировании
документов и в поисковых запросах
Аскрипторы(синонимы, квазисинонимы
...)
заменяются одним или несколькими
дескрипторами
По составу:
По языковой направленности:
Для разработки одноязычных ИПТ: Международный стандарт ISO 2788-1986 Межгосударственный стандарта ГОСТ 7.25-2001 Американский стандарт Z39.19-2005
Для разработки многоязычных ИПТ: Межгосударственный стандарт ГОСТ 7.24-2007 Международный стандарт ISO 5964-1985
Стандарты для разработки ИПТСтандарты для разработки ИПТ
Структура тезаурусаСтруктура тезауруса
Тезаурус включает два типа терминов: дескрипторы (предпочтительные термины) и аскрипторы (остальные термины или текстовые входы), а также источники терминов. Дескрипторы могут использоваться при индексировании документов и в поисковых запросах, а аскрипторы при выполнении этих задач подлежат замене одним или несколькими дескрипторами.
Все дескрипторы снабжены определениями. Термины, связаны между собой семантическими отношениями,
отражающими место каждого термина в системе понятий КЛ. Тезаурус включает одновременно две версии – русскоязычную и
англоязычную. Для связи английской версии с русской служит отношение «Эквивалент на другом языке», которым связываются соответствующие дескрипторы из разных версий.
Для каждого термина задаются его связи с источниками, т.е. текстовыми документами или коллекциями текстовых документов, в которых данный термин встречается или определяется.
Структура тезаурусных статейСтруктура тезаурусных статей
Дескриптор: Название термина Релятор Язык термина Определения термина Подобласть знаний Признак корневого термина Комментарий Автор тезаурусной статьи
Аскриптор: Название термина Язык термина Комментарий Автор тезаурусной статьи
Отношения между терминамиОтношения между терминами
Отношения между дескрипторами:• недифференцированная иерархическая связь Выше (Ниже)• родовидовая связь ВышеРод (НижеВид)• партонимическая связь ВышеЦелое (НижеЧасть)• для связи класса понятий и экземпляра этого класса
ВышеКлассЭкземпляра (НижеЭкземпляр)• произвольная ассоциативная связь Ассоциируется с• эквивалентность дескрипторов из разных одноязычных версий
Эквивалент на другом языке
Отношения между дескрипторами и аскрипторами:• Синоним (Смотри)• Используй альтернативно (Сравни альтернативный выбор)• Используй комбинацию (Сравни комбинацию)
Описание источника терминовОписание источника терминов
Название источника Тип источника Язык источника Описание Библиографическая ссылка URL Количество документов (для коллекции текстов) Количество словоупотреблений (для коллекции текстов) Комментарий
Отношения, задающие связи термина с источниками: Встречается в, при которой можно указать частоту
встречаемости термина в источнике; Встречается в части документа, с помощью которой отмечается,
что данный термин встречается в предметном указателе или глоссарии источника;
Дается определение в, позволяет связать термин-дескриптор с источником определения.
Пример описания дескриптораПример описания дескриптора
Название термина акцент Релятор просодия Язык термина русский Определение термина 1 Смысловое подчеркивание звуковыми
средствами какого либо слога или слова во фразе. Комментарий Многие авторы проводят довольно тонкое
разграничение между акцентом (смысловым подчеркиванием или выделением, ср. термин Акцентное выделение) и ударением.
Автор статьи Кривнова О.Ф. Источники термина Книга Трахтерова А.Л. Источники определения термина Книга Трахтерова А.Л. Ниже громкостной акцент, долготный акцент, тональный акцент Синонимы АВ, акцентное выделение, логическое ударение,
эмфатическое ударение Эквивалент на другом языке accent(prosody)
Пример описания аскриптораПример описания аскриптора
Название термина логическое ударение Язык термина русский Автор статьи Кривнова О.Ф. Источники термина Энциклопедия РЯ Смотри акцент(просодия)
Пример описания документаПример описания документа
Название источника Книга Трахтерова А.Л. Тип источника книга Язык источника русский Описание Пособие направлено на повышение научного уровня
преподавания общей фонетики и фонетики английского языка, координации русских и английских фонетических терминов, а также терминов из смежных дисциплин и областей науки, тесно связанных с фонетикой.
Библиографическая ссылка Трахтеров А.Л. Английская фонетическая терминология. М., Изд-во литературы на иностранных языках, 1962
Общий примерОбщий пример
Аскриптор ЧМПязык русскийавтор словарной статьи Кононенко И.С.
Встречается аскриптор вИсточник Учебник Баранова А.Н.
СмотриДескриптор Человеко-машинный перевод
Дескриптор человеко-машинный переводязык русскийопределение 1 Системы человеко-машинного перевода
выполняют перевод в интерактивном режиме.определение 2 Все методы и системы, автоматизирующие процесс
перевода, независимо от того, выполняет основную часть работы человек или компьютер. (перевод)
автор словарной статьи Кононенко И.С.
Встречается дескриптор вИсточник Учебник Баранова А.Н.
Дается определение вИсточник определение 1 Справочник по искусственному
интеллектуИсточник определение 2 Статья Boitet
Выше родДескриптор машинный перевод Аспект деления иерархии участие человека
Ниже видДескриптор автоматизированный переводДескриптор машинный перевод с участием человека Аспект деления иерархии участие человека
Синоним Аскриптор человекомашинный переводАскриптор ЧМП
Эквивалент на другом языкеДескриптор machine aided translation
Дескриптор автоматизированный переводязык русскийопределение 1 Перевод текстов на компьютере с
использованием компьютерных технологий. От машинного перевода он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.
автор словарной статьи Кононенко И.С.
Дается определение вИсточник определение 1 Интернет энциклопедия «Википедия»
Встречается дескриптор вИсточник Коллекция текстов Диалог 2000-2010 Частота 8
Синоним Аскриптор человеческий перевод с участием машины
Выше родДескриптор человеко-машинный перевод Аспект деления иерархии участие человека
Эквивалент на другом языкеДескриптор machine-aided human translation
Пример описания дескриптораПример описания дескриптора
Пример описания дескриптораПример описания дескриптора
Пример описания аскриптораПример описания аскриптора
Пример описания дескриптораПример описания дескриптора
Пример описания документаПример описания документа
Реализация прототипа электронного Реализация прототипа электронного тезаурусатезауруса
Для разработки тезауруса по КЛ была использована методология и программные компоненты технологии построения порталов научных знаний, которая была ранее применена для создания порталов знаний по археологии и компьютерной лингвистике.
Данная технология базируется на онтологии и предоставляет средства настройки на предметную область, средства создания и редактирования контента информационной системы, а также средства навигации и поиска.
Средства настройки на предметную область достаточно хорошо подходят для разработки концептуальной схемы тезауруса, а остальные из перечисленных средств могут выполнять роль его основных программных компонентов.
Эта технология удобна для моделирования тезауруса, когда его структура и состав словарных статей еще окончательно не определены и могут меняться в процессе разработки.
Онтология представления знанийОнтология представления знаний
– конечное непустое множество классов, описывающих понятия некоторой предметной или проблемной области;
– конечное множество бинарных отношений, заданных на классах (понятиях); – множество стандартных типов;
– множество доменов ; – конечное множество атрибутов, описывающих
свойства понятий C и отношений RA ;
– множество ограничений на значений атрибутов понятий и отношений, т.е. предикатов вида ; – множество аксиом, задающих дополнительную семантику классов и отношений онтологии.
AxFADTRCOR ,,,,,, nCCC ,...,1
APTim RRRRCCRRRR }{}{,,,...,1
},...,{ 1 nddD },...,{ 1 ki ssd waaA ,...,1
),...,( 1 mi eep
T
F
Ax
, где
Концептуальная схема тезаурусаКонцептуальная схема тезауруса
– конечное непустое множество терминов, представляющих понятия некоторой предметной области; – множество источников терминов;
– множество атрибутов, описывающих свойства источников и терминов; – конечное множество отношений, заданных на терминах и источниках терминов; – множество формальных свойств отношений ;
– множество аксиом, задающих дополнительные ограничения на связи между терминами.
, гдеAxtPRAtSTrTh ,,,,,DATr
T TSRRR
S watatAt ,...,1
TR nPPP ,...1
Axt
Задание структурных единиц тезауруса, Задание структурных единиц тезауруса, отношений и их свойствотношений и их свойств
В редакторе онтологий описывается концептуальная схема тезауруса, в которой определяется структура тезаурусных статей, вид и свойства отношений, задаваемых между терминами, а также характеристики источников терминов и их определений.
Для отношений могут быть заданы не только структурные свойства отношений (типы их аргументов и ограничения на существование (число) и обязательность связей), но и формальные (математические) свойства – симметричность, рефлексивность, транзитивность, асимметричность, антирефлексивность, а также обратные отношения.
Эти свойства используются встроенными в редактор данных механизмами контроля и вывода для поддержки логической целостности системы понятий тезауруса. В частности, на основе этих свойств происходит корректное установление связей между терминами тезауруса, при необходимости осуществляется их автоматическое добавление и/или удаление.
Обеспечение корректного установления Обеспечение корректного установления связей между терминамисвязей между терминами
Свойства отношения «Смотри»: - обратное отношение «Синоним», - возможна только одна связь данного типа для каждого термина-
аскриптора.
Смотри (АВТОМАТИЧЕСКИЙ ПЕРЕВОД, МАШИННЫЙ ПЕРЕВОД) + Синоним (МАШИННЫЙ ПЕРЕВОД, АВТОМАТИЧЕСКИЙ ПЕРЕВОД)
Для аскриптора АВТОМАТИЧЕСКИЙ ПЕРЕВОД будет обеспечиваться запрет на создание связей «Смотри» и «Синоним» с другими дескрипторами.
Навигация по контенту тезаурусаНавигация по контенту тезауруса
Удобный доступ к терминам тезауруса обеспечивается пользовательским web-интерфейсом, предоставляемым технологией построения порталов научных знаний.
В этом интерфейсе содержимое тезауруса представляется пользователю в виде сети взаимосвязанных информационных объектов – элементов тезауруса: терминов и описаний источников терминов и их определений.
При навигации по тезаурусу обеспечивается возможность выбора необходимых пользователю терминов, детального просмотра их описаний (тезаурусных статей), а также источников (публикаций или коллекций текстов), в которых встречается термин и/или его определение.
Навигация по контенту тезаурусаНавигация по контенту тезауруса
Навигация по контенту тезаурусаНавигация по контенту тезауруса
Навигация по контенту тезаурусаНавигация по контенту тезауруса
Методика выбора терминов для Методика выбора терминов для включения в тезаурусвключения в тезаурус
Две проблемы: подбор терминов – кандидатов на включение в тезаурус, выбор терминов-дескрипторов из множеств синонимичных
терминов.
Подбор терминов – кандидатовПодбор терминов – кандидатов
В качестве основного источника русскоязычных терминов была выбрана коллекция текстов докладов, представленных на международной конференции «Диалог» в 2000-2010 гг.
Для английской части словника, с учетом русско-английской направленности создаваемого тезауруса выбирались переводные эквиваленты из доступных англоязычных источников по КЛ.
Чтобы дополнить картину российской части КЛ в тех ее разделах, где имеются пробелы, при сборе терминов по таким разделам пришлось опираться преимущественно на англоязычные источники: в частности, предметные указатели нескольких современных и наиболее авторитетных англоязычных книжных источников обзорно-учебного профиля и глоссарии, входящие в документацию известных звуковых анализаторов.
Выбор основного термина-дескриптора Выбор основного термина-дескриптора из множества синонимичных терминов из множества синонимичных терминов
Эта проблема связана с появлением новых понятий и соответствующих им терминов.
Пример: термин translation memory (в сфере автоматизированного перевода); Практики-переводчики предлагают: память переводов, научное сообщество: переводческая память (синонимический ряд: переводческая память – 8, память переводов – 0, архив переводов – 1, накопитель переводов – 0, копилка переводов – 0) .
Выбор основного термина-дескриптора Выбор основного термина-дескриптора из множества синонимичных терминов из множества синонимичных терминов
Развитие некоторых направлений КЛ привело к столкновению вариантов старых терминов.
Так, тезаурус ИНИОН и ЛЭС основным термином в паре автоматический перевод и машинный перевод считают автоматический перевод, присвоив ему статус дескриптора. Однако показатели встречаемости в коллекции «Диалог» говорят в пользу термина машинный перевод: машинный перевод – 318 vs. автоматический перевод – 58 . Интернет-энциклопедии «Википедия» и «Кругосвет», а также учебники придерживаются этой же традиции.
Таким образом, при выборе терминов дескрипторов мы опирались не только на статистику, но и на традиции словоупотребления, сложившиеся к настоящему времени в лингвистическом научном сообществе.
Текущее состояниеТекущее состояние
Тезаурус включает термины из пяти основных терминологических областей:
1. Автоматическая обработка текста. 2. Речевые технологии. 3. Корпусная лингвистика. 4. Информационный поиск. 5. Машинный перевод. а также термины, которые могут быть отнесены к теоретической
компьютерной лингвистике.
Текущее состояниеТекущее состояние
Сейчас в тезаурусе Терминов около 1150, из них Дескрипторов – около 730 Аскрипторов – около 420 Видов связей между терминами – около 20 Связей между терминами – около 3700 Источников терминов и их определений – 128
ЗаключениеЗаключение
Представлен подход к разработке русско-английского электронного тезауруса по компьютерной лингвистике, общий состав и структура которого были разработаны на основе международных и отечественных стандартов.
В качестве инструмента разработки использовались ранее созданных в нашем коллективе инструментальные и программные средств, предоставляемые технологией построения порталов научных знаний.
Благодаря тому, что эта технология базируется на онтологии, с помощью которой описывается концептуальная схема тезауруса, обеспечивается не только целостность и непротиворечивость терминологической системы тезауруса, но и удобный доступ к его контенту.
Эта технология может быть использована для построения многоязычных тезаурусов для любых языков и предметных областей.