Неделя Байнета 2017. Чекушин Алексей: "Текстовая...
TRANSCRIPT
Текстовая революция
bynetweek.byорганизатор 2017
Алексей Чекушин
1972
TF-IDF
198x
BM25 Lang Model ???LSI
198x 1992 2017
ТАЙМЛАЙН ТЕКСТОВЫХ ФАКТОРОВ
БЕЗ КЛЮЧЕВЫХ СЛОВ
Как?
СЕМАНТИЧЕСКИЕ ВЕКТОРА
косить
трава заяц
«Зайцы косят траву»
ЧТО МЕШАЕТ?
• Сколько существует слов?
• Сколько слов в документе?
• Нужно уменьшить размерность!
LSI – метод сжатия размерности
LSI – метод сжатия размерности
НЕЙРОННЫЕ СЕТИ
УСКОРЕНИЕ
Алгоритмы?
ЯНДЕКС - АЛГОРИТМ ПАЛЕХ
Палех
ОСОБЕННОСТИ ПАЛЕХА
Буквенные триграммы + слова + биграммы
Обучение на действиях пользователей
RankBrain
GOGLE - RANKBRAIN
Ну и что нам с этим делать?
• Построить вектор запроса
• Построить вектор документа
• Сравнить вектора
OK, GOOGLE. Что нам теперь с этим делать?
• Анализ топа поиска
• Расширение топа методом векторной схожести
• Данные из больших коллекций
ВЕКТОР ЗАПРОСА?
ВИЗУАЛЬНОЕ ПРЕДСТАВЛЕНИЕ
• Построить вектор запроса
• Разложить на составляющие
• Показать составляющие
А ДЛЯ НОВОГО ТЕКСТА?
ПРЕДСТАВЛЕНИЕ ВЕКТОРА
А ТУТ О ЧЕМ РЕЧЬ?
• По униграммам сложно понять о чем речь.
• Человеку желательно давать биграммноепредставление.
• Бигрыммы можно получить черезколлокации.
ВЕКТОР В ВИДЕ БИГРАММ
Примеры коллокаций:
красная площадьхолодная войнапоисковая оптимизацияалгоритм палех
ВЫДЕЛЕНИЕ КОЛЛОКАЦИЙ
Коллокация – устойчивое словосочетание
Методы выделения коллокаций:
• Mutual Information• T-score• Log-likelihood
ВЫДЕЛЕНИЕ КОЛЛОКАЦИЙ
ВЫДЕЛЕНИЕ КОЛЛОКАЦИЙ –ПРАКТИКА
О ЧЕМ РЕЧЬ?