Неделя Байнета 2017. Чекушин Алексей: "Текстовая...

28

Upload: webcom-media

Post on 21-Apr-2017

56 views

Category:

Internet


2 download

TRANSCRIPT

Page 1: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"
Page 2: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

Текстовая революция

bynetweek.byорганизатор 2017

Алексей Чекушин

Page 3: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

1972

TF-IDF

198x

BM25 Lang Model ???LSI

198x 1992 2017

ТАЙМЛАЙН ТЕКСТОВЫХ ФАКТОРОВ

Page 4: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

БЕЗ КЛЮЧЕВЫХ СЛОВ

Как?

Page 5: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

СЕМАНТИЧЕСКИЕ ВЕКТОРА

косить

трава заяц

«Зайцы косят траву»

Page 6: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

ЧТО МЕШАЕТ?

• Сколько существует слов?

• Сколько слов в документе?

• Нужно уменьшить размерность!

Page 7: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

LSI – метод сжатия размерности

Page 8: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

LSI – метод сжатия размерности

Page 9: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

НЕЙРОННЫЕ СЕТИ

Page 10: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

УСКОРЕНИЕ

Page 11: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

Алгоритмы?

Page 12: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

ЯНДЕКС - АЛГОРИТМ ПАЛЕХ

Page 13: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

Палех

ОСОБЕННОСТИ ПАЛЕХА

Буквенные триграммы + слова + биграммы

Обучение на действиях пользователей

Page 14: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

RankBrain

GOGLE - RANKBRAIN

Page 15: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

Ну и что нам с этим делать?

Page 16: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

• Построить вектор запроса

• Построить вектор документа

• Сравнить вектора

OK, GOOGLE. Что нам теперь с этим делать?

Page 17: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

• Анализ топа поиска

• Расширение топа методом векторной схожести

• Данные из больших коллекций

ВЕКТОР ЗАПРОСА?

Page 18: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

ВИЗУАЛЬНОЕ ПРЕДСТАВЛЕНИЕ

Page 19: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

• Построить вектор запроса

• Разложить на составляющие

• Показать составляющие

А ДЛЯ НОВОГО ТЕКСТА?

Page 20: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

ПРЕДСТАВЛЕНИЕ ВЕКТОРА

Page 21: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

А ТУТ О ЧЕМ РЕЧЬ?

Page 22: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

• По униграммам сложно понять о чем речь.

• Человеку желательно давать биграммноепредставление.

• Бигрыммы можно получить черезколлокации.

ВЕКТОР В ВИДЕ БИГРАММ

Page 23: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

Примеры коллокаций:

красная площадьхолодная войнапоисковая оптимизацияалгоритм палех

ВЫДЕЛЕНИЕ КОЛЛОКАЦИЙ

Коллокация – устойчивое словосочетание

Page 24: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

Методы выделения коллокаций:

• Mutual Information• T-score• Log-likelihood

ВЫДЕЛЕНИЕ КОЛЛОКАЦИЙ

Page 25: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

ВЫДЕЛЕНИЕ КОЛЛОКАЦИЙ –ПРАКТИКА

Page 26: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

О ЧЕМ РЕЧЬ?

Page 27: Неделя Байнета 2017. Чекушин Алексей: "Текстовая революция. Как нейросети изменили текстовое ранжирование"

СПАСИБО ЗА ВНИМАНИЕ.

куда можно написать: [email protected]

или[email protected]

just-magic.org

FIN