lande, jigalo

32
ЭТАПЫ ЭТАПЫ СОЗДАНИЯ СОЗДАНИЯ СТАТИСТИЧЕСКОГО СТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКА ПЕРЕВОДЧИКА ПОТОКОВ ПОТОКОВ НОВОСТЕЙ НОВОСТЕЙ Ландэ Дмитрий Владимирович, д.т.н., профессор НТУУ «КПИ», зам. директора ElVisti Жигало Владлен Викторович, аспирант, инж.-программист ElVisti СПб-2010

Upload: lidia-pivovarova

Post on 10-May-2015

1.382 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Lande, Jigalo

ЭТАПЫЭТАПЫ СОЗДАНИЯСОЗДАНИЯСТАТИСТИЧЕСКОГОСТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКАПЕРЕВОДЧИКА

ПОТОКОВПОТОКОВ НОВОСТЕЙНОВОСТЕЙ

Ландэ Дмитрий Владимирович,д.т.н., профессор НТУУ «КПИ», зам. директора ElVisti

Жигало Владлен Викторович,аспирант, инж.-программист ElVisti

СПб-2010

Page 2: Lande, Jigalo

ТриТри задачизадачи –– тритри этапаэтапа

Информационный

поток

1

Параллельный

документальный

корпус

2XML

Параллельный

корпус

предложений

3

Статистический

потоковый

переводчик

Page 3: Lande, Jigalo

НесколькоНесколько словслов оо технологиитехнологииконтентконтент--мониторингамониторинга

В Информационном центре "ЭЛВИСТИ" (Киев) создана системаInfoStream, с помощью которой охватываются новости из более5 тысяч отечественных и зарубежных веб-сайтов, осуществляетсяих обработка и обобщение.

Page 4: Lande, Jigalo

200 250 360600

1000

1500

25003000

35004000

>5000

2000 2002 2004 2006 2008 2010

ОсновныеОсновные характеристикихарактеристики

- более 5 000 российских и зарубежныхисточников;- более 80 000 документов в сутки;- архив с 1996 года содержитболее 80 млн. документов;- обновление данныхосуществляется каждые15 минут.

Page 5: Lande, Jigalo

1.1.ППараллельныйараллельный корпускорпусдокументовдокументов

Рассматривается метод, с помощью которого реализуетсявыявление информационных дубликатов, представленныхна разных языках (русском и украинском).

В результате применения этого метода построен параллельныйпо информационному содержанию документальный корпус, который можно назвать «квазипараллельным», однако, онможет также считаться параллельным в понимании многихавторов, так как оснащен некоторыми автоматическисформированными тегами и переводами выделенных лексем на2 языка.

Page 6: Lande, Jigalo

ОсобенностьОсобенность подходаподхода

Предлагается подход к созданию параллельныхкорпусов документов, основанный на алгоритме поискадубликатов документов на разных языках. Подход даетвозможность отыскать похожие документы на разных языкахв большом массиве документов. В результате можно убедитсяв том что в корпус попали параллельные документы из разныхисточников. Методы, основанные на анализе сайтов состраницами на разных языках, не позволяют определитьдубликаты на разных источниках (сайтах), не указав специальнопараллельность этих источников.

Page 7: Lande, Jigalo

ПроцедураПроцедура

1. Создание частотных морфологических словарей;2. Выделение с их помощью опорных слов из документов;3. Перевод опорных слов, с помощью словарей переводов;4. Определение дублей документов на разных языках (сравнение 5-ипереведенных опорных слов с 12 опорными словами др. документа);

5. Отсеивание с полученного множества документов «неполныхдублей». Были использованы такие дополнительные критерии:

- общее количество слов в переведенном варианте недолжно отличаться больше чем на 10%;

- количество слов начинающихся с большой буквы недолжно отличаться больше чем на 3 слова;

- количество чисел в документах не должно отличатсябольше чем на два числа;

- найденные числа в документах не должны отличатьсяболее чем на 15 %.

Page 8: Lande, Jigalo

АлгоритмАлгоритм созданиясоздания параллельногопараллельногодокументальногодокументального корпусакорпуса

Информационный

поток

Определение

«опорныхслов»

Оконча-тельная

фильтрация

рус укр

Морфологические

частотные

словари

Перевод

«опорныхслов»

Словари

переводов

рус

/укр

укр

/рус

Определение

дубликатов

на разных

языках

Параллельный

документальный

корпус

Page 9: Lande, Jigalo

ЧтоЧто реализованореализовано??

Предложенный подход позволил создать двуязычныйукраинско-русский параллельный корпус текстов извеб-публикаций на русском и украинском языкахобъемом около 1 000 000 пар документов. Оцененная экспертами точность предложенногоалгоритма - 98%.

http://ling.infostream.ua

Page 10: Lande, Jigalo

Реализован алгоритм, который учитывает не толькостатистические свойства текстов, но и некоторыеморфологические признаки. В соответствии с этим алгоритмом построение

параллельного корпуса происходит в несколько основныхэтапов:• создание морфологических словарей (разово);• создание частотных морфологических словарей

(периодически);• создание словарей переводов (постоянно);• создание процедуры определения опорных слов в

документах (постоянно);• определение разноязычных дубликатов (постоянно).

ОсновныеОсновные процедурыпроцедуры

Page 11: Lande, Jigalo

Для русского и украинского языков были использованысвободно доступные электронные словари: ispell снабором более 1 млн. словоформ и «Словники України», c набором более 4 млн. словоформ, а также словарьЗализняка, который насчитывает порядка 100 тыс. слов.

Эксперты дополнили морфологические словаринеологизмами, названиями известных фирм, брендов иизвестными фамилиями, которых не было в исходныхсловарях.

МорфологическиеМорфологические словарисловари

Page 12: Lande, Jigalo

Для обучения частотных морфологических словарей были взяты электронныепубликации новостей, полученные из Интернет с помощью системы контент-мониторинга InfoStream.

«Обучение» словарей проводится в несколько этапов. Первый этапзаключается в разделении документов на словоформы и сохраненииполученных словоформ с информацией о номерах соответствующихдокументов.

На втором этапе, созданный файл словоформ сортируется, после чегоподсчитывается количество вхождений каждой словоформы, и количестводокументов в которых она встретилась. Найденные частоты записываются вчастотный словарь, на основании которого определяется вероятнаянормальная форма каждого слова.

Для выявления омонимии, в выходной файл записываются все нормальныеформы соответствующие словоформе, т. е. если одной словоформесоответствует сразу несколько нормальных форм, сохраняются подсчитанныечастоты со всеми найденными нормальными формами. На третьем этапепроисходит заключительный подсчет количества нормальных форм исохранение результатов в частотный словарь.

ЧастотныеЧастотные словарисловари

Page 13: Lande, Jigalo

Для индексирования использовались украино- и русскоязычныесловарные массивы. Ввиду технической сложности представленияполных лексикографических баз данных для двух языков, авторамииспользовался лишь относительно небольшой, но, по-видимому, самыйсущественный для данной задачи срез - множество именсуществительных, дополненное некоторыми фамилиями, аббревиатурами, названиями компаний. Как показал опыт, такой подходполностью себя оправдал как для обеспечения качества индекса, так идля визуализации результатов работы.

Предложенный подход базируется на использовании частотного словаряна основе морфологического словаря (МС) с использование тестовогомассива документов, а также построение алгоритма выявления опорныхслов с использованием частотного МС и модифиуации общеизвестногоподхода TF IDF.

КонтекстнаяКонтекстная неоднозначностьнеоднозначность

Page 14: Lande, Jigalo

««ОбучениеОбучение»» частотногочастотного словарясловаря

Page 15: Lande, Jigalo

Происходит считывание текстового документа извходного потока, после чего выполняется выделениесловоформ и поиск нормальной формы для каждой изних. В случае контекстной неоднозначности, выбираетсянаиболее частотная (с наибольшим индексом) по словарюнормальная форма словоформы.

После вычисления соответствующих весовыхкоэффициентов с помощью формулы Okapi BM25 происходит ранжирование нормализованных слов ивыбирается двенадцать наиболее «весомых». Полученныедвенадцать опорных слов переводятся на другой язык спомощью словарей переводов. Все опорные слова ислова-переводы приписываются к документу.

ОпорныеОпорные словаслова

Page 16: Lande, Jigalo

Okapi BM25Okapi BM25

В предложенной процедуре индексирования длявыделения наиболее значимых термов использовалсястатистический метод, базирующийся на примененииобщеизвестного подхода TF IDF, а точнее егомодификации Okapi BM25, в которой каждому терму издокумента приписывается вес по формуле:

где f(t,D) - частота встречаемости терма t в документеD, |D| - длина документа D, L - средняя длинадокумента в коллекции текстов, общее количествокоторых - N, n(t) - количество документов в коллекции, содержащих данный терм, k, b - параметры, выбираемыеэкспертами.

Page 17: Lande, Jigalo

В системе InfoStream используется механизм поискадубликатов, в котором 6 опорных слов исследуемогодокумента, сравниваются с 12-ю опорными словамикаждого из документов корпуса.

ВыявлениеВыявление дубликатовдубликатов

Процедура сравнения была дополнена рядомэвристических критериев, например:• общее количество слов в переведенном варианте

не должно отличаться от оригинала более чем на 10%;• количество чисел в документах не должно отличатся

больше чем на два.

Page 18: Lande, Jigalo

2. 2. ПроцедураПроцедура созданиясоздания корпусакорпусапараллельныхпараллельных предложенийпредложений

1. Разделение параллельных документов на предложения:1.1. Определителем конца предложения были взяты символы (. ! ?

;)1.2. Если в тексте встречалось сокращение или инициалы с точкойто она не считается концом предложения.

2. Подсчет количества предложений в параллельных документах. Еслиданные документы по количеству предложений одинаковы, то онипередавались в дальнейшую обработку.

3. Разделение предложения на слова:3.1. Словом считалось любое сочетание символов отделенное отдругих групп символов пробелом.

3.2. Накладывались дополнительные ограничения на определениеслова на каждом из языков. Например, слова на украинском, вначале которых, упоминались слова: який, яка, що, котрий и т.д. условно считались одним словом.

4. Подсчет количества слов в параллельных предложениях. Впараллельный корпус предложений включались лишь те

предложения, которые по количеству слов не отличись более чем наодно слово.

Page 19: Lande, Jigalo

АлгоритмАлгоритм созданиясоздания корпусакорпусапараллельнныхпараллельнных предложенийпредложений

Параллельный

документальный

корпус

Первичная

фильтрация

Разделение

по

предложениям

Правила

Разделение

по словам (рус)

Разделение

по словам (укр)

Разделители

Определение

парал-лельности

Корпус

в формате

XML

Page 20: Lande, Jigalo

ФрагментФрагмент параллельногопараллельного корпусакорпуса

Page 21: Lande, Jigalo

ОнлайнОнлайн--интерфейсинтерфейс ––сайтсайт http://ling.infostream.uahttp://ling.infostream.ua

Page 22: Lande, Jigalo

ОписаниеОписание ресурсаресурса ––сайтсайт http://ling.infostream.uahttp://ling.infostream.ua

Page 23: Lande, Jigalo

РежимРежим поискапоиска ––сайтсайт http://ling.infostream.uahttp://ling.infostream.ua

Page 24: Lande, Jigalo

ФрагментФрагмент целевогоцелевого документадокумента ––сайтсайт http://ling.infostream.uahttp://ling.infostream.ua

Page 25: Lande, Jigalo

ПримерыПримеры технологийтехнологий nn--gramgram

Page 26: Lande, Jigalo

РазбиениеРазбиение предложенияпредложениянана тритриграммграммыы

A1-An слова. T1-Tn триграммы

Предложения на русском и украинском языке. Схематическая разметка разбиения предложения на триграммы

A1 A2 A3 A4 A5 An

B1 B2 B3 B4 B5 Bn

Page 27: Lande, Jigalo

НемногоНемного статистическихстатистических исследованийисследований

3-граммы

2-граммы

слова

Page 28: Lande, Jigalo

СтатистикаСтатистика словарейсловарей

Для русского языка

Триграммы: 16947925Биграммы: 8916423Слова: 513753

Для украинского языка

Триграммы: 17564031Биграммы: 9271080Слова: 563876

Page 29: Lande, Jigalo

3. 3. АлгоритмАлгоритм работыработыпереводчикапереводчика

1. Разделение документов на предложения

2. Построение массивов триграмм, биграмм словдля документа

3. Поиск триграмм, биграмм и слов в словарях

4. Перевод документа с использованиемпостроенных словарей переводов для документа

5. Форматирование документа

Page 30: Lande, Jigalo

ПримерПример русскорусско--украинскогоукраинского переводаперевода

Page 31: Lande, Jigalo

МестоМесто вв технологиитехнологии переводапереводапотоковпотоков новостейновостей

Page 32: Lande, Jigalo

СПАСИБОСПАСИБО ЗАЗА ВНИМАНИЕВНИМАНИЕ!!

Ландэ Дмитрий Владимирович,[email protected]

http://ling.infostream.uahttp://dwl.visti.net