ai&bigdata lab. Варвара Красавина "Оптимизация поиска в...
Post on 27-Jul-2015
232 Views
Preview:
TRANSCRIPT
Оптимизация поиска интента/в системе LeadScanner /
Варвара Красавина/
Варвара Красавина, computa2onal linguist @LeadScanr кафедра компьютерной лингвистики СПбГУ @varvarakras
Наша задача /
• Найти как можно больше сообщений • Сократить количество нерелевантных сообщений
Автоматическое извлечение ключевых слов и словосочетаний/
• Автоматическая обработка больших объемов текстов • Легок в реализации • Дает хорошие результаты
Популярные методы/
• TF-‐IDF • Log-‐Likelihood • Co-‐occurrence Matrix & Xi-‐Square • …
Отличие от других методов /
• Понимание терминов «текст» / «корпус» • TF-‐IDF – кластеризация (противопоставляем один текст корпуса всем остальным)
• У нас – однородная группа
В чем суть метода /
• Задача: извлечь словосочетания, которые лучше всего характеризовали бы текст.
• Гипотеза: если какие-‐либо два слова часто встречаются вместе (в одном предложении) и редко по отдельности (с другими словами), то между ними существует семантическая связь.
• Следовательно, эти два слова характеризуют этот текст лучше, чем остальные пары
Метод: шаги/
• В тексте N слов. • Считаем частоту каждого слова в тексте. • Выбираем из них K наиболее частотных – они составляют множество G.
• Строим матрицу K*N. • В матрицу записываем частоту совместной встречаемости.
• Оцениваем значимость слова по критерию Xi-‐Square.
Xi-‐Square/
Как это работает у нас/
Отрасль: недвижимость • Прогнали метод по тематическим группам VK • Тестировали на нерелевантных лидах
Спорные вопросы /
• Стоп-‐слова и Text Preprocessing • Источники • Лемматизация • Machine Learning
Text Preprocessing/
• Удаление стоп−слов • text.Split(); • Что считать стоп-‐словами? • Как составить список стоп-‐слов? • Split по предложениям или по абзацам?
Источники/
• Тематические группы • Форумы
Лемматизация /
• Нужна или нет?
Machine Learning/
Ручной контроль качества • Большие объемы подтвержденных сообщений • Большие объемы удаленных сообщений
Cпасибо, ваши вопросы!
Варвара Красавина, skype: opavshie_listya varvara.krasavina@youscan.ru @varvarakras
We’re hiring! :)/
top related