Лингурус: автономная система распознавания руской...

9
Автономное распознавание русской речи Бузурнюк Н.С. AINL Сколково 2014

Upload: natalia-ledneva

Post on 27-Jul-2015

322 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: Лингурус: автономная система распознавания руской речи

Автономное распознавание русской речи

Бузурнюк Н.С.

AINL Сколково 2014

Page 2: Лингурус: автономная система распознавания руской речи

Требования к решению

• Дикторонезависимость• Непрерывность распознавания• Автономность• Ориентированность

на русский язык .ru

Page 3: Лингурус: автономная система распознавания руской речи

Исходные данные

• Задача распознавания полностью не решена за 30 лет • В сегменте русского языка качество

продуктов низкое • Задача имеет решение

Page 4: Лингурус: автономная система распознавания руской речи

Принципиальная схема системы

СигналНормализация

Множествохарактеристик

РаспознаваниеОбратная связь

Page 5: Лингурус: автономная система распознавания руской речи

Нормализация сигнала

СигналСуперпозиция

фильтров Нормализованныйсигнал

Оценка

Обратная связь

Ш

!?

Page 6: Лингурус: автономная система распознавания руской речи

Множество характеристик

Функциясигнала Разложение по

множеству функций

Множествохарактеристик

ОценкаОбратная связь

!?

Функции характеристик разнородные, не аналитические, обладают избыточностью к фонемному алфавиту приблизительно в 70 раз.

Page 7: Лингурус: автономная система распознавания руской речи

Распознавание

Вычислениефонемного

вектораправдоподобия

Поиск пословарю

Обратная связь

А безсловаря?

Вычислениесловарного

вектораправдоподобия

Оценка поречевоймодели

Page 8: Лингурус: автономная система распознавания руской речи

Что получилось?

Размер приложения:– При использовании словаря в 35 тыс. слов –

80 Мб данные, 80 Мб оперативная память.– При использовании словаря до тысячи слов –

10 Мб данные, 10 Мб оперативная память.

Точность распознавания (Words Error Rate)– На геословаре (карта Москвы),

около 4000 наименований улиц – 95%– На словаре в 35 тыс. слов – 90%

Скорость распознавания (тестирование на Intel Core i5 – 3.4GHz)– При использовании словаря до тысячи слов – 70% запаса

производительности для непрерывного распознавания– Для словаря в 35 тыс. – 30% запаса производительности для

непрерывного распознавания

Page 9: Лингурус: автономная система распознавания руской речи

Интересно?

Задавайте вопросы!

Спасибо!

www.lingurus.ru