ПОДХОД К РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО...

36
ПОДХОД К РАЗРАБОТКЕ РУССКО- ПОДХОД К РАЗРАБОТКЕ РУССКО- АНГЛИЙСКОГО ТЕЗАУРУСА АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А. , Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П. Институт систем информатики имени А.П. Ершова СО РАН, Ершова СО РАН, Новосибирск Новосибирск Российский государственный гуманитарный университет, Российский государственный гуманитарный университет, Москва Москва

Upload: jesse-parrish

Post on 15-Mar-2016

46 views

Category:

Documents


5 download

DESCRIPTION

ПОДХОД К РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ. Загорулько Ю.А. , Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики имени А.П. Ершова СО РАН, Новосибирск Российский государственный гуманитарный университет, Москва. Текущее положение. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

ПОДХОД К РАЗРАБОТКЕ РУССКО-ПОДХОД К РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА АНГЛИЙСКОГО ТЕЗАУРУСА

ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Загорулько Ю.А., Боровикова О.И., Кононенко И.С.,Соколова Е.Г.

Институт систем информатики имени А.П.Институт систем информатики имени А.П. Ершова СО РАН,Ершова СО РАН,НовосибирскНовосибирск

Российский государственный гуманитарный университет,Российский государственный гуманитарный университет, МоскваМосква

Page 2: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Текущее положениеТекущее положение

Наблюдается значительный интерес к компьютерной лингвистике (КЛ), как к прикладной научной дисциплине, включающей знания о методах извлечения информации из текстов, индексирования и содержательного поиска документов, построения естественно-языковых, в том числе речевых, интерфейсов.

Возникла острая потребность в систематизированных знаниях по терминологии КЛ, которые, с одной стороны, способствовали бы повышению образовательного уровня, а с другой стороны, использовались для индексирования публикаций по КЛ с целью облегчения доступа к представленным в них знаниях по КЛ.

Однако в данный момент в КЛ отсутствует четкая и общепринятая система научной терминологии, причем многие термины современной КЛ не представлены на русском языке ни в одном из существующих лингвистических источников.

Page 3: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Текущее положениеТекущее положение ((сборники терминов)сборники терминов)

Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М.: Наука, 1978.

Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради новых терминов. № 39. – М.: ВЦП, 1982.

Лингвистический энциклопедический словарь. //Под ред. В. Н. Ярцевой. М.:Советская энциклопедия, 1990. — 685 с. [3 изд. 2002.]

Ахманова О.С. Словарь лингвистических терминов. – 3-е изд., стер. – М.: УРСС, 2005. – 576 с.

Онлайн Энциклопедия «Кругосвет»: [2001-2009]. URL: http://www.krugosvet.ru/. Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., 2007. Толковый словарь по искусственному интеллекту / Авторы-составители: А.Н.

Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. – М.: Радио и связь, 1992. –256с. Большой энциклопедический словарь (БСЭ) / гл. ред. А.М.Прохоров. - Изд. 2-е,

перераб. и доп. – М. : Большая Российская энциклопедия; –– СПб.: Норинт, 2004. – 1456 с.

Интернет-энциклопедия «Википедия» http://ru.wikipedia.org

Page 4: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Цели разработкиЦели разработки

Русско-английский тезаурус по компьютерной лингвистике (КЛ) разрабатывается учеными из РГГУ, МГУ, СПбГУ, ИНИОН РАН, ИСИ СО РАН им. А.П.Ершова при финансовой поддержке РГНФ (проект № 10-04-12108в).

Главная цель разработки Построить тезаурус по КЛ двойного назначения, т.е. тезаурус,

ориентированный на (1) непосредственное использование людьми, желающими обратиться к системе понятий из области КЛ, так и (2) решение задач индексирования и информационного поиска.

Page 5: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Цели разработкиЦели разработки

Обеспечение возможности структурировать и накапливать информацию о терминологии КЛ,

Приведение терминологии КЛ в единую систему, создание представительного компактного собрания терминов современной КЛ и их толкований.

Поддержка решения задач индексирования и информационного поиска. Повышение уровня профессиональной подготовки будущих

специалистов в сфере КЛ и информационных технологий Двуязычность тезауруса должна помочь отечественным ученым и

специалистам (1) быстрее и эффективнее ориентироваться в мировой ситуации в области КЛ, (2) выявлять различия и сходства между понятиями, используемыми в отечественной и зарубежной науке, (3) создавать новые понятия и лингвистические термины, отсутствующие в русском языке и др.

Page 6: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Виды информационно-поисковых Виды информационно-поисковых тезаурусов (ИПТ)тезаурусов (ИПТ)

ИПТ

Одноязычные ИПТ

Основная единица – термин предметной

области

Многоязычные ИПТ

Основная единица - составной дескриптор из

эквивалентных дескрипторов одноязычных

версий, связанных отношениями

эквивалентности

Термины

Дескрипторы(предпочтительные

термины)

используются при индексировании

документов и в поисковых запросах

Аскрипторы(синонимы, квазисинонимы

...)

заменяются одним или несколькими

дескрипторами

По составу:

По языковой направленности:

Page 7: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Для разработки одноязычных ИПТ: Международный стандарт ISO 2788-1986 Межгосударственный стандарта ГОСТ 7.25-2001 Американский стандарт Z39.19-2005

Для разработки многоязычных ИПТ: Межгосударственный стандарт ГОСТ 7.24-2007 Международный стандарт ISO 5964-1985

Стандарты для разработки ИПТСтандарты для разработки ИПТ

Page 8: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Структура тезаурусаСтруктура тезауруса

Тезаурус включает два типа терминов: дескрипторы (предпочтительные термины) и аскрипторы (остальные термины или текстовые входы), а также источники терминов. Дескрипторы могут использоваться при индексировании документов и в поисковых запросах, а аскрипторы при выполнении этих задач подлежат замене одним или несколькими дескрипторами.

Все дескрипторы снабжены определениями. Термины, связаны между собой семантическими отношениями,

отражающими место каждого термина в системе понятий КЛ. Тезаурус включает одновременно две версии – русскоязычную и

англоязычную. Для связи английской версии с русской служит отношение «Эквивалент на другом языке», которым связываются соответствующие дескрипторы из разных версий.

Для каждого термина задаются его связи с источниками, т.е. текстовыми документами или коллекциями текстовых документов, в которых данный термин встречается или определяется.

Page 9: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Структура тезаурусных статейСтруктура тезаурусных статей

Дескриптор: Название термина Релятор Язык термина Определения термина Подобласть знаний Признак корневого термина Комментарий Автор тезаурусной статьи

Аскриптор: Название термина Язык термина Комментарий Автор тезаурусной статьи

Page 10: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Отношения между терминамиОтношения между терминами

Отношения между дескрипторами:• недифференцированная иерархическая связь Выше (Ниже)• родовидовая связь ВышеРод (НижеВид)• партонимическая связь ВышеЦелое (НижеЧасть)• для связи класса понятий и экземпляра этого класса

ВышеКлассЭкземпляра (НижеЭкземпляр)• произвольная ассоциативная связь Ассоциируется с• эквивалентность дескрипторов из разных одноязычных версий

Эквивалент на другом языке

Отношения между дескрипторами и аскрипторами:• Синоним (Смотри)• Используй альтернативно (Сравни альтернативный выбор)• Используй комбинацию (Сравни комбинацию)

Page 11: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Описание источника терминовОписание источника терминов

Название источника Тип источника Язык источника Описание Библиографическая ссылка URL Количество документов (для коллекции текстов) Количество словоупотреблений (для коллекции текстов) Комментарий

Отношения, задающие связи термина с источниками: Встречается в, при которой можно указать частоту

встречаемости термина в источнике; Встречается в части документа, с помощью которой отмечается,

что данный термин встречается в предметном указателе или глоссарии источника;

Дается определение в, позволяет связать термин-дескриптор с источником определения.

Page 12: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Пример описания дескриптораПример описания дескриптора

Название термина акцент Релятор просодия Язык термина русский Определение термина 1 Смысловое подчеркивание звуковыми

средствами какого либо слога или слова во фразе. Комментарий Многие авторы проводят довольно тонкое

разграничение между акцентом (смысловым подчеркиванием или выделением, ср. термин Акцентное выделение) и ударением.

Автор статьи Кривнова О.Ф. Источники термина Книга Трахтерова А.Л. Источники определения термина Книга Трахтерова А.Л. Ниже громкостной акцент, долготный акцент, тональный акцент Синонимы АВ, акцентное выделение, логическое ударение,

эмфатическое ударение Эквивалент на другом языке accent(prosody)

Page 13: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Пример описания аскриптораПример описания аскриптора

Название термина логическое ударение Язык термина русский Автор статьи Кривнова О.Ф. Источники термина Энциклопедия РЯ Смотри акцент(просодия)

Page 14: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Пример описания документаПример описания документа

Название источника Книга Трахтерова А.Л. Тип источника книга Язык источника русский Описание Пособие направлено на повышение научного уровня

преподавания общей фонетики и фонетики английского языка, координации русских и английских фонетических терминов, а также терминов из смежных дисциплин и областей науки, тесно связанных с фонетикой.

Библиографическая ссылка Трахтеров А.Л. Английская фонетическая терминология. М., Изд-во литературы на иностранных языках, 1962

Page 15: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Общий примерОбщий пример

Аскриптор ЧМПязык русскийавтор словарной статьи Кононенко И.С.

Встречается аскриптор вИсточник Учебник Баранова А.Н.

СмотриДескриптор Человеко-машинный перевод

Дескриптор человеко-машинный переводязык русскийопределение 1 Системы человеко-машинного перевода

выполняют перевод в интерактивном режиме.определение 2 Все методы и системы, автоматизирующие процесс

перевода, независимо от того, выполняет основную часть работы человек или компьютер. (перевод)

автор словарной статьи Кононенко И.С.

Встречается дескриптор вИсточник Учебник Баранова А.Н.

Дается определение вИсточник определение 1 Справочник по искусственному

интеллектуИсточник определение 2 Статья Boitet

Выше родДескриптор машинный перевод Аспект деления иерархии участие человека

Ниже видДескриптор автоматизированный переводДескриптор машинный перевод с участием человека Аспект деления иерархии участие человека

Синоним Аскриптор человекомашинный переводАскриптор ЧМП

Эквивалент на другом языкеДескриптор machine aided translation

Дескриптор автоматизированный переводязык русскийопределение 1 Перевод текстов на компьютере с

использованием компьютерных технологий. От машинного перевода он отличается тем, что весь процесс перевода осуществляется человеком, компьютер лишь помогает ему произвести готовый текст либо за меньшее время, либо с лучшим качеством.

автор словарной статьи Кононенко И.С.

Дается определение вИсточник определение 1 Интернет энциклопедия «Википедия»

Встречается дескриптор вИсточник Коллекция текстов Диалог 2000-2010 Частота 8

Синоним Аскриптор человеческий перевод с участием машины

Выше родДескриптор человеко-машинный перевод Аспект деления иерархии участие человека

Эквивалент на другом языкеДескриптор machine-aided human translation

Page 16: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Пример описания дескриптораПример описания дескриптора

Page 17: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Пример описания дескриптораПример описания дескриптора

Page 18: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Пример описания аскриптораПример описания аскриптора

Page 19: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Пример описания дескриптораПример описания дескриптора

Page 20: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Пример описания документаПример описания документа

Page 21: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Реализация прототипа электронного Реализация прототипа электронного тезаурусатезауруса

Для разработки тезауруса по КЛ была использована методология и программные компоненты технологии построения порталов научных знаний, которая была ранее применена для создания порталов знаний по археологии и компьютерной лингвистике.

Данная технология базируется на онтологии и предоставляет средства настройки на предметную область, средства создания и редактирования контента информационной системы, а также средства навигации и поиска.

Средства настройки на предметную область достаточно хорошо подходят для разработки концептуальной схемы тезауруса, а остальные из перечисленных средств могут выполнять роль его основных программных компонентов.

Эта технология удобна для моделирования тезауруса, когда его структура и состав словарных статей еще окончательно не определены и могут меняться в процессе разработки.

Page 22: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Онтология представления знанийОнтология представления знаний

– конечное непустое множество классов, описывающих понятия некоторой предметной или проблемной области;

– конечное множество бинарных отношений, заданных на классах (понятиях); – множество стандартных типов;

– множество доменов ; – конечное множество атрибутов, описывающих

свойства понятий C и отношений RA ;

– множество ограничений на значений атрибутов понятий и отношений, т.е. предикатов вида ; – множество аксиом, задающих дополнительную семантику классов и отношений онтологии.

AxFADTRCOR ,,,,,, nCCC ,...,1

APTim RRRRCCRRRR }{}{,,,...,1

},...,{ 1 nddD },...,{ 1 ki ssd waaA ,...,1

),...,( 1 mi eep

T

F

Ax

, где

Page 23: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Концептуальная схема тезаурусаКонцептуальная схема тезауруса

– конечное непустое множество терминов, представляющих понятия некоторой предметной области; – множество источников терминов;

– множество атрибутов, описывающих свойства источников и терминов; – конечное множество отношений, заданных на терминах и источниках терминов; – множество формальных свойств отношений ;

– множество аксиом, задающих дополнительные ограничения на связи между терминами.

, гдеAxtPRAtSTrTh ,,,,,DATr

T TSRRR

S watatAt ,...,1

TR nPPP ,...1

Axt

Page 24: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Задание структурных единиц тезауруса, Задание структурных единиц тезауруса, отношений и их свойствотношений и их свойств

В редакторе онтологий описывается концептуальная схема тезауруса, в которой определяется структура тезаурусных статей, вид и свойства отношений, задаваемых между терминами, а также характеристики источников терминов и их определений.

Для отношений могут быть заданы не только структурные свойства отношений (типы их аргументов и ограничения на существование (число) и обязательность связей), но и формальные (математические) свойства – симметричность, рефлексивность, транзитивность, асимметричность, антирефлексивность, а также обратные отношения.

Эти свойства используются встроенными в редактор данных механизмами контроля и вывода для поддержки логической целостности системы понятий тезауруса. В частности, на основе этих свойств происходит корректное установление связей между терминами тезауруса, при необходимости осуществляется их автоматическое добавление и/или удаление.

Page 25: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Обеспечение корректного установления Обеспечение корректного установления связей между терминамисвязей между терминами

Свойства отношения «Смотри»: - обратное отношение «Синоним», - возможна только одна связь данного типа для каждого термина-

аскриптора.

Смотри (АВТОМАТИЧЕСКИЙ ПЕРЕВОД, МАШИННЫЙ ПЕРЕВОД) + Синоним (МАШИННЫЙ ПЕРЕВОД, АВТОМАТИЧЕСКИЙ ПЕРЕВОД)

Для аскриптора АВТОМАТИЧЕСКИЙ ПЕРЕВОД будет обеспечиваться запрет на создание связей «Смотри» и «Синоним» с другими дескрипторами.

Page 26: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Навигация по контенту тезаурусаНавигация по контенту тезауруса

Удобный доступ к терминам тезауруса обеспечивается пользовательским web-интерфейсом, предоставляемым технологией построения порталов научных знаний.

В этом интерфейсе содержимое тезауруса представляется пользователю в виде сети взаимосвязанных информационных объектов – элементов тезауруса: терминов и описаний источников терминов и их определений.

При навигации по тезаурусу обеспечивается возможность выбора необходимых пользователю терминов, детального просмотра их описаний (тезаурусных статей), а также источников (публикаций или коллекций текстов), в которых встречается термин и/или его определение.

Page 27: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Навигация по контенту тезаурусаНавигация по контенту тезауруса

Page 28: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Навигация по контенту тезаурусаНавигация по контенту тезауруса

Page 29: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Навигация по контенту тезаурусаНавигация по контенту тезауруса

Page 30: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Методика выбора терминов для Методика выбора терминов для включения в тезаурусвключения в тезаурус

Две проблемы: подбор терминов – кандидатов на включение в тезаурус, выбор терминов-дескрипторов из множеств синонимичных

терминов.

Page 31: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Подбор терминов – кандидатовПодбор терминов – кандидатов

В качестве основного источника русскоязычных терминов была выбрана коллекция текстов докладов, представленных на международной конференции «Диалог» в 2000-2010 гг.

Для английской части словника, с учетом русско-английской направленности создаваемого тезауруса выбирались переводные эквиваленты из доступных англоязычных источников по КЛ.

Чтобы дополнить картину российской части КЛ в тех ее разделах, где имеются пробелы, при сборе терминов по таким разделам пришлось опираться преимущественно на англоязычные источники: в частности, предметные указатели нескольких современных и наиболее авторитетных англоязычных книжных источников обзорно-учебного профиля и глоссарии, входящие в документацию известных звуковых анализаторов.

Page 32: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Выбор основного термина-дескриптора Выбор основного термина-дескриптора из множества синонимичных терминов из множества синонимичных терминов

Эта проблема связана с появлением новых понятий и соответствующих им терминов.

Пример: термин translation memory (в сфере автоматизированного перевода); Практики-переводчики предлагают: память переводов, научное сообщество: переводческая память (синонимический ряд: переводческая память – 8, память переводов – 0, архив переводов – 1, накопитель переводов – 0, копилка переводов – 0) .

Page 33: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Выбор основного термина-дескриптора Выбор основного термина-дескриптора из множества синонимичных терминов из множества синонимичных терминов

Развитие некоторых направлений КЛ привело к столкновению вариантов старых терминов.

Так, тезаурус ИНИОН и ЛЭС основным термином в паре автоматический перевод и машинный перевод считают автоматический перевод, присвоив ему статус дескриптора. Однако показатели встречаемости в коллекции «Диалог» говорят в пользу термина машинный перевод: машинный перевод – 318 vs. автоматический перевод – 58 . Интернет-энциклопедии «Википедия» и «Кругосвет», а также учебники придерживаются этой же традиции.

Таким образом, при выборе терминов дескрипторов мы опирались не только на статистику, но и на традиции словоупотребления, сложившиеся к настоящему времени в лингвистическом научном сообществе.

Page 34: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Текущее состояниеТекущее состояние

Тезаурус включает термины из пяти основных терминологических областей:

1. Автоматическая обработка текста. 2. Речевые технологии. 3. Корпусная лингвистика. 4. Информационный поиск. 5. Машинный перевод. а также термины, которые могут быть отнесены к теоретической

компьютерной лингвистике.

Page 35: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

Текущее состояниеТекущее состояние

Сейчас в тезаурусе Терминов около 1150, из них Дескрипторов – около 730 Аскрипторов – около 420 Видов связей между терминами – около 20 Связей между терминами – около 3700 Источников терминов и их определений – 128

Page 36: ПОДХОД К  РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА  ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

ЗаключениеЗаключение

Представлен подход к разработке русско-английского электронного тезауруса по компьютерной лингвистике, общий состав и структура которого были разработаны на основе международных и отечественных стандартов.

В качестве инструмента разработки использовались ранее созданных в нашем коллективе инструментальные и программные средств, предоставляемые технологией построения порталов научных знаний.

Благодаря тому, что эта технология базируется на онтологии, с помощью которой описывается концептуальная схема тезауруса, обеспечивается не только целостность и непротиворечивость терминологической системы тезауруса, но и удобный доступ к его контенту.

Эта технология может быть использована для построения многоязычных тезаурусов для любых языков и предметных областей.