shablon - promt · title: shablon author: pashav created date: 6/25/2019 6:33:23 pm
TRANSCRIPT
![Page 1: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/1.jpg)
Машинный перевод по правилам и без, или Зачем нужна гибридная технология перевода
![Page 2: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/2.jpg)
Машинный перевод по правилам и без2
Типы систем машинного перевода
‣ Системы, основанные на правилах (rule-based)
‣ Статистические системы (системы, основанные на параллельных двуязычных корпусах)
2
![Page 3: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/3.jpg)
Машинный перевод по правилам и без3
Rule-based системы
исходнойтекст
морфологическийанализ
синтаксический,семантический
анализсинтезпреобразование
перевод
лингвистическиебазы данных
модуль перевода
правиласинтеза
правилапреобразования
правилаанализа
![Page 4: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/4.jpg)
Машинный перевод по правилам и без4
Компоненты rule-based систем
Лингвистические базы данных
‣ двуязычные словари‣ морфологические таблицы‣ списки префиксов‣ базы имен
4
![Page 5: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/5.jpg)
Машинный перевод по правилам и без5
Особенности rule-based систем
Преимущества‣ синтаксическая и морфологическая точность‣ стабильность и предсказуемость результата‣ возможность настройки на предметную область
Недостатки‣ трудоемкость и длительность разработки‣ необходимость поддерживать и актуализировать
лингвистические базы данных‣ «машинный акцент» при переводе
5
![Page 6: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/6.jpg)
Машинный перевод по правилам и без6
Rule-based переводSince the Desert One debacle, the United States has poured vast resources into its special forces.
Начиная с разгрома Пустыни Один, Соединенные Штаты вылили обширные ресурсы в свой спецназ.
![Page 7: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/7.jpg)
Машинный перевод по правилам и без7
Статистические системы
Параллельныйкорпус
выравнивание,извлечение
фраз
статистическийдекодер
исходныйтекст
фразоваятаблица
языковаямодель
построениеязыковоймодели
Одноязычныйкорпус
(язык перевода)
перевод
Исходный текст – это «зашифрованный» перевод,который нужно декодировать
![Page 8: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/8.jpg)
Машинный перевод по правилам и без8
Компоненты статистических систем
Фразовая таблица – таблица соответствий фраз исходного корпуса и корпуса переводов с некоторыми статистическими коэффициентами.
фрагмент фразовой таблицы
исходная перевод статистическиефраза коэффициенты
can download it at можете загрузить его по адресу 1 0.032 0.5 0.01company компания 0.39 0.19 0.12 0.11company компания-эмитент 0.85 0.42 0.01 0.05company кредитной 0.01 0.01 0.01 0.01company название компании 0.11 0.13 0.01 0.01company организации , выпустившей его 1 0.05 0.01 0.37compare all of сравнение всех 1 0.04 0.5 0.03compare all of сравните все 0.33 0.01 0.5 0.07
![Page 9: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/9.jpg)
Машинный перевод по правилам и без9
Компоненты статистических систем
Языковая модель – набор n-грамм (последовательностей словоформ длины n) из корпуса текстов.
фрагмент языковой модели
статистический n-граммакоэффициент
-4.697978 в ознаменование-4.697978 в оказание-0.766904 <s> метод отправки-0.508603 новые календари </s>-0.528649 в календарь </s>-0.988104 кворума старейшин президентом миссии-1.048399 а также президентом мексиканской
![Page 10: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/10.jpg)
Машинный перевод по правилам и без10
Особенности статистических системПреимущества‣ Быстрая настройка‣ Легко добавлять новые направления перевода‣ Гладкость перевода
Недостатки‣ «Дефицит» параллельных корпусов‣ Многочисленные грамматические ошибки‣ Нестабильность перевода
10
![Page 11: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/11.jpg)
Машинный перевод по правилам и без11
СтатистическийпереводMedvedev is to blameМедведев виноват
Obama is to blameОбама не виноват
![Page 12: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/12.jpg)
Зачем нужна гибридная технология перевода12
Гибридные технологии перевода
ЗадачаСовместить достоинства двух основных подходов и нивелировать их недостатки.
![Page 13: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/13.jpg)
Зачем нужна гибридная технология перевода13
Подходы к созданию гибридных систем‣ Интеграция лингвистических правил в
статистические системы‣ Интеграция статистических методов в rule-
based системы
13
![Page 14: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/14.jpg)
Зачем нужна гибридная технология перевода14
Интеграция лингвистических правил в статистические системы‣ Синтаксическая и морфологическая разметка
корпусов для обучения‣ Применение правил для идентификации и
перевода именованных сущностей‣ Разбиение сложных слов‣ Применение правил для идентификации и
перевода отдельных синтаксических конструкций
Решение частных задач не исправляетфундаментальные недостатки статистическогоперевода
14
![Page 15: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/15.jpg)
Зачем нужна гибридная технология перевода15
Интеграция статистических методов в rule-based системыПроблемаRule-based системы имеют недостатки алгоритмов анализа и синтеза, которые постоянно воспроизводятся при переводе.РешениеНаучить систему автоматически корректировать эти недостатки.
Система статистического постредактирования
![Page 16: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/16.jpg)
Зачем нужна гибридная технология перевода16
Гибридная технология перевода PROMT‣ Этап обучения системы с помощью
статистических методов
‣ Использование полученных на этапе обучения данных в процессе перевода
16
![Page 17: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/17.jpg)
Зачем нужна гибридная технология перевода17
Обучение системы
Параллельныйкорпус
фразоваятаблица
языковаямодель
Одноязычныйкорпус
(язык перевода)корпусязыка
перевода
Корпусвходногоязыка
rule-basedсистема
rule-basedперевод
входного корпуса
данныедля статистическогопостредактирования
![Page 18: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/18.jpg)
Зачем нужна гибридная технология перевода18
Процесс перевода
rule-basedсистема
исходныйтекст
вариантыперевода
rule-basedперевод
модульстатистического
постредактирования
модульязыковыхмоделей
применениепостредактирования
оценка,выбор
лучшего варианта
перевод
![Page 19: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/19.jpg)
Зачем нужна гибридная технология перевода19
Гибридный перевод
‣ Четкая синтаксическая структура перевода‣ Стабильность‣ Гладкость
19
![Page 20: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/20.jpg)
Зачем нужна гибридная технология перевода20
Гибридный переводИсходный текстBefore proceeding further, every effort was made by senior staff to ensure that a friendly atmosphere prevailed.
Rule-based переводПрежде, чем продолжиться далее, каждое усилие было приложено руководящим персоналом, чтобы гарантировать, что преобладала дружественная атмосфера.
Гибридный переводПрежде чем продолжить, руководящий персонал предпринял все усилия, чтобы преобладала дружественная атмосфера.
![Page 21: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/21.jpg)
Зачем нужна гибридная технология перевода21
Гибридный переводИсходный текстIn the dialog box that opens, specify the necessary export settings.
Rule-based переводВ диалоговом окне, которое открывается, определите необходимые настройки экспорта.
Гибридный переводВ открывшемся диалоговом окне укажите требуемые параметрыэкспорта.
![Page 22: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/22.jpg)
Оценка машинного перевода22
Оценка машинного перевода
Большинство существующих метрикавтоматической оценки МП основанына сравнении с человеческим эталоном.
Необходима метрика оценки МП в отсутствие эталона.
‣ автоматический перевод контента сетевых ресурсов
‣ оценка изменений в технологии перевода
22
![Page 23: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/23.jpg)
Оценка машинного перевода23
Метрики оценки машинного переводаBLEU ScoreMeteorTER (Translation Error Rate)
Совпадение n-грамм в машинном переводе и эталоне
машинный перевод
Нажмите «Да» в окне сообщения, которое появляется.
эталон
Нажмите «Да» в открывшемся окне сообщения.
совпавшие n-граммы1 Нажмите ; «Да» ; в ; окне2 Нажмите «Да» ; «Да» в3 Нажмите "Да" в
![Page 24: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/24.jpg)
Оценка машинного перевода24
Оценка машинного перевода без человеческого эталонаСтатистическая языковая модель (Perplexity)
Perplexity – величина, обратно пропорциональная вероятности.
Исходный текстClick Yes in the message window that appears.
Машинный перевод 1Нажмите «Да» в окне сообщения, которое появляется.(Perplexity = 842)
Машинный перевод 2Нажмите «Да» в открывшемся окне сообщения.(Perplexity = 438)
![Page 25: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/25.jpg)
Оценка машинного перевода25
Оценка машинного перевода без человеческого эталонаPerplexity не учитывает особенности входного текста и грамматическую структуру перевода.
Исходный текстClick Yes in the message window that appears.
Машинный перевод 1Нажмите «Да» в открывшемся окне сообщения.(Perplexity = 438)
Машинный перевод 2Нажмите «Да»(Perplexity = 145)
![Page 26: shablon - PROMT · Title: shablon Author: PashaV Created Date: 6/25/2019 6:33:23 PM](https://reader034.vdocuments.pub/reader034/viewer/2022051809/60145b1ea8bedc6af73c0b93/html5/thumbnails/26.jpg)
Оценка машинного перевода26
Оценка машинного перевода без человеческого эталонаНеобходимо разработать комплекснуюметрику оценки на основе характеристиквходного и выходного текста:
‣ длина текста (количество слов)‣ вероятности перевода слов и фраз‣ совпадение чисел, дат и т.п.‣ оценка с помощью языковой модели‣ морфологические, синтаксические признаки
26