word2vec (часть 2)

Денис Дусьdzianisdus@gmail.com

Data Scientist at InData Labs

1. Понятие об обработке естественных языков

2. Words Embeddings

3. Вероятностные основы Word2Vec

4. Свойства пространства векторов

5. …

6. Проблема многозначных слов

7. Моделирование векторов фраз / предложений / документов

8. Recursive Neural Networks

9. Recurrent Neural Networks

The quick brown fox jumps over the lazy dog

предсказываютсяконтекстные слова

Наземный

Родственники

Дни недели

Страны мира

Животные

Месяцы года

Глаголы

Воздушный

Транспорт

1. Построить word2vec вектора по обучающему корпусу

2. Выбрать ширину k окна контекста

3. Для каждого слова v в корпусеa) Построить все вектора контекстов, в которых оно встречается:

… and I really like Apple iPad! Amazing …

… than conventional filtered apple juice, depending on …

b) Кластеризовать все контексты с

c) Заменить все вхождения слова v на v_k согласно кластеризации:

… and I really like Apple_1 iPad! Amazing …

… than conventional filtered apple_2 juice, depending on …

4. На переразмеченном корпусе обучить новые вектора для значений слов

Sergey Bartunov, Dmitry Kondrashkin, Anton Osokin, Dmitry Vetrov“Breaking sticks and ambiguities with adaptive Skip-Gram”

Adaptive Skip-Gram:

Skip-Gram:

Вероятность того, чтослово xi употреблено

в смысле zi

Вероятность контекстного слова yij, при условии, что xi

употреблено в смысле zi

Априорная вероятность k-гозначения слова w

(stick-breaking representationof Dirichlet Process)

Вероятность контекста yi

для слова xi

Контекстные словаполагаются независимыми

• Оригинальная статья:https://arxiv.org/abs/1502.07257• Выступление одного из авторов (Дмитрия Ветрова): https://www.youtube.com/watch?v=vYbee1InliU• Introduction to the Dirichlet Distribution and Related Processes:https://www.ee.washington.edu/techsite/papers/refer/UWEETR-2010-0006.html

Для векторизации более крупных текстовых объектов используют:

1. Объединение через разделитель (“_”)

2. Взвешенное суммирование векторов предложения / документа

3. Doc2Vec

4. RNN^2

5. …

1. IDF-взвешенная сумма

2. TF-IDF сумма K ключевых слов документа

CBOWТри слова из контекста используются

чтобы предсказать четвертое.

Doc2VecТри слова из контекста используются

чтобы предсказать четвертое. Для каждого документа коллекции

заводится свой вектор документа. В процессе обучения вектор документа конкатенируется с векторами слов.

Quoc V. Le, Tomas Mikolov,Distributed Representations of Sentences and Documents

Фаза обучения:

получение матриц векторов W, W’ и матрицы документов D

Фаза предсказания:1. Случайно инициализированные вектора, соответствующие

новым документам, добавляются к матрице D из (1)2. Матрицы W, W’ фиксируются и осуществляется градиентный

спуск только по параметрам из D

“On average, our implementation takes 30 minutes to compute the paragraph vectors of the IMDB test set, using a 16 core machine (25,000 documents, each document on average has 230 words).”

https://radimrehurek.com/gensim/models/doc2vec.html

RNN2 =

Recursive Neural Network +

Recurrent Neural Network

Part of speech tagging: NN = singular noun (man, dog, …) NNS = plural noun (houses, buildings, …) NNP = proper noun (IBM, John, …) DT = determiner (a, the, some, …) JJ = adjective (red, plastic, …) IN = preposition (of, in, ..) VI = intransitive verb (sleeps, laughs, …) VT = transitive verb (saw, likes, …) …

NP (Noun Phrase) -> DT NN -> JJ N

N -> NN NN -> NN

…PP (Prepositional Phrase) -> IN NP

N -> N PP…

VP (Verb Phrase) -> VIVP -> Vt NPVP -> VP PP

…S (Sentence) -> NP VP

https://github.com/spacy-io/spaCyhttps://spacy.io/docs

Матрица W, константа b остаются неизменнымипри комбинированиивекторов любых двух

вершин

Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng.Semantic Compositionality through Recursive Matrix-Vector Spaces

1. xt – вход в момент времени t2. st – скрытое состояние сети в момент времени t3. st вычисляется на основе текущего входа и st-1 :4. ot – выход в момент времени t, например softmax(Vst)

http://yanran.li/peppypapers/2015/11/28/improving-information-flow-in-recurrent-networks.html

На практике это работает плохо:

1. Вектор внутреннего состояния (памяти) значительно изменяется при каждом t

2. Vanishing gradient problem

3. Exploding gradient problem

https://www.udacity.com/course/deep-learning--ud730

Gate (ключ)

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

LSTM gates:1. Forget gate2. Input gate3. Output gate

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Rafal Jozefowicz, Wojciech Zaremba, Ilya SutskeverAn Empirical Exploration of Recurrent Network Architectures

1. Arithmetic3369-13994433= -139910643e36d9-h1h39f94eeh43keg3c= -13991064

2. XML Modeling<pegshmnaj>

</pegshmnaj><autmh></autmh>

3. Penn Tree-BankЗадача лингвистического моделирования

4. MUT1, MUT2, MUT3 – архитектуры,полученные в ходе “жадного поиска”

Tomas Mikolov and etc.Learning Longer Memory in Recurrent Neural Networks

1. Затронули проблему многозначных слов

2. Изящное решение - Adaptive Skip-Gram

3. Неизящное решение – множество кластеризаций

4. Кратко рассмотрели моделирование более крупных текстовых объектов: Doc2Vec, RNN^2

word2vec (часть 2)

Data & Analytics

Часть 1. «О проекте». Часть 2...

dickie часть 2

word2vec (中文)

Население. Часть 2

tensorflow math ja 05 word2vec

Долголетие (старение). Часть 2

from a neural probalistic language model to word2vec

ловушки часть 2

чтение. Часть 2

ИСТОРИЯ Часть 2

Лекция 4 Функции нуклеиновых...

Часть 2 - meu.usue.ru

часть 2 модели

часть 2 покрывала

Информедиа, часть 2

покрывала часть 2

Презентация (часть 2)

word2vec vs dbnary ou comment (ré)concilier ...plan...

word2vec vs lsa pour la détection des erreurs

настройка metatrader4 для работы....