Виктор Сафронов "Тематическое моделирование" -...
TRANSCRIPT
Тематическое
Моделирование 2016
Что умеет машина, распознающая «смысл» текста
I Как мы ищем смысл
II Как хотим ее искать
III Реализация [email protected]
Виктор Сафронов, EDHACK, 10 сентября 2016
Topic Modeling I Как мы ищем
02Как стыковать?
В чем проблема
Как стыковать все варианты
одного и и того же
высказывания?
Как поддержать разговор
на любую тему?
Как фильтровать море информации по
теме чатботов и отслеживать нужное на автомате?
Topic Modeling I Как мы ищем
03
Детекция по словам
(entities recognition):
Поиск по словам
вводим
словарезультат
Topic Modeling II Как хотим искать
04
Детекция по теме
Поиск по теме
выделяем
маркеры
темы
результатTopic
Engine
Topic Modeling II Как хотим искать
05
Откуда берутся темы
Поиск по теме
1) из априори подходящей
коллекции текстов и диалогов
2) по накопленной базе тем с
глубокой иерархией
Topic Modeling II Как хотим искать
06
Как это работает
Как это работает
PLSA, LDA, EM-algorithm
Topic Modeling III Реализация
07
Кому и зачем?
What about money
Наши гипотезы:
1) Маркетинг 2) Маркетинг 3) Маркетинг
4) Answering machines (чат-боты)
5) Фарма – drug discovery
6) Ученые, Патентные ведомства
7) СМИ
8) Трейдеры
9) Техподдержка, колл-центры
Topic Modeling III Реализация
08
Пример: анализ СМИ
What about money
Берем 25К статей за 2 месяца (апрель-июнь) из
газет и журналов:
Topic Modeling III Реализация
09
Пример: анализ СМИ
What about money
Получаем вектора тем и кластеризуем,
получается интерпретируемо:кластер «Внешняя политика»
Topic Modeling III Реализация
10
Пример: анализ СМИ
What about money
Накладываем активность тем на временную
шкалу:
Topic Modeling III Реализация
11
Пример: Quid
What about money
Topic Modeling III Реализация
12
Пример потери
контекста при синтезе:
What about money
«Анормальный квант: основные моменты»
Интегрирование по частям поразительно. Аксиома, следовательно,
порождена временем. Жидкость оправдывает отрицательный
дедуктивный метод. Взвесь заряжает поток.
Конфликт оправдывает короткоживущий экситон. Гамма-квант,
следовательно, масштабирует неоднозначный знак. В условиях
электромагнитных помех, неизбежных при полевых измерениях, не
всегда можно опредлить, когда именно подмножество тривиально. К
тому же бозе-конденсат усиливает язык образов.
Дуализм, следовательно, мгновенно трансформирует закон
исключѐнного третьего. Вихрь возбуждает отрицательный бином ...
Topic Modeling III Реализация
13
ЕГЭ по чат-ботам:
What about money
A
1) Text analysis/syntesis
2) Decision Tree
3) Turing test
4) NLP, sentiment/ syntax/
distributive analysis
Topic Modeling III Реализация
14
ЕГЭ по чат-ботам:
What about money
B1) n-gram, word2vec, entity
recognition
2) Probabilistic latent semantic
analysis, Latent Dirichlet allocation,
Expectation maximization
3) Sparse matrix regularization
Topic Modeling III Реализация
15
ЕГЭ по чат-ботам:
What about money
B4) Stemming, lemmatization
5) Modality, decorrelation, term
coherense, summarizing, assessing
6) Frame, Resourse Description
Framework (RDF), semantic networkn
Framework
Topic Modeling III Реализация
16
ЕГЭ по чат-ботам:
What about money
C1) Long short temporal memory (LSTM),
hierarchical temporal memory (HTM)
2) Neuroplasticity
3) Variational bayesian
AutoEncode(VAE), Generational
Adversarial Network (GAN)
Topic Modeling III Реализация
17
ЕГЭ по чат-ботам:
What about money
D
1) Oblivious decision
trees (ODT)
2) Boosting over ODT
Topic Modeling III Реализация
18
Answering machine
(чат-бот):
What about money
A+B+C+D
Topic Modeling III Реализация
19
«Ядерный клуб»
Конкуренты
Google, Yandex, все уважающие себя поисковики
Академические центры (Columbia University, MIT,
UC@Berkeley, МФТИ, Tsinghua University, …)
Research Gate, Microsoft Research, Elsevier, Academia.edu
Mendeley – огромный массив научных статей,
заточенность на коллаборацию ученых.
Quid.com – сервис разведочного поиска
Topic Modeling Последний слайд
20
Спасибо!
Виктор Сафронов,
кафедра «Интеллектуальные системы» МФТИ,
MACHINELEARNING.RU