foss sea 2014_Текстовый анализ на r: подбор рекомендаций для...

17
FOSS Sea 2014 Текстовый анализ на R Роман Захаров, So9cube Подбор рекомендаций для книжного магазина

Upload: geekslab

Post on 04-Jul-2015

79 views

Category:

Technology


0 download

DESCRIPTION

22 ноября, Одессе FOSS Sea 2014 (http://geekslab.co/events/21-foss-sea-2014-infrastructure-for-researchers) Текстовый анализ на R: подбор рекомендаций для книжного магазина (Роман Захаров, co-owner SoftCube)

TRANSCRIPT

Page 1: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

 FOSS  Sea  2014  

   

Текстовый  анализ  на  R      

 Роман  Захаров,  So9cube  

 Подбор  рекомендаций  для  книжного  магазина  

Page 2: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Интеллектуальный анализ текстов

Цель:  получение  информации  из  коллекций  текстовых  документов,  основываясь  на  применении  методов  машинного  обучения  (machine  learning)  и  обработки  естественного  языка  (natural  language  processing)  

Page 3: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Приложения текстового анализа

-­‐  задачи  категоризации  /  кластеризации  текстов  -­‐  приложения  к  онлайн-­‐медиа:  рекомендации  

контента,  подбор  по  интересам  -­‐  маркетинговая  прогностическая  аналитика,  в  

частности  предсказание  оттока  по  отзывам  -­‐  анализ  тональности  текста  -­‐  применение  в  биоинформатике  для  связи  научных  

достижений  и  карты  генов  /  протеинов  -­‐  задачи  национальной  безопасности  

Page 4: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Процесс текстового анализа

Сбор  данных  

Парсинг  текста  

Фильтрация  текста  

Транс-­‐формация  

Текстовый  анализ  

-­‐  документы  -­‐  веб-­‐страницы  -­‐  комментарии  -­‐  т.д.  

-­‐  извлечение  слов  -­‐  частей  речи  -­‐  стемминг  -­‐  синонимы  -­‐  фильтрация  

-­‐  удаление  слов  -­‐  фильтрация  цифр,  знаков  препинания  

-­‐  подсчет  слов  -­‐  создание  term-­‐by-­‐document  матриц  -­‐  взвешивание  -­‐  т.д  

-­‐  определение  темы  -­‐  кластеринг  -­‐  прогнозы  -­‐  правила  

Page 5: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Метрики похожести текстов: строки

Page 6: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Метрики похожести текстов: корпуса

Page 7: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Метрики похожести текстов: знания

Page 8: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

R для текстового анализа

Фреймворки:  -­‐  tm  -­‐  koRpus  -­‐  openNLP  Лексические  базы  данных,  манипуляции  со  строками,  стемминг:  -­‐  wordnet  -­‐  RKEA  -­‐  SnowballC  -­‐  tau  

Page 9: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Рекомендации для книжного магазина

Page 10: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Моделирование на реальных данных

Данные,  использованные  для  моделирования:    -­‐  автор  -­‐  переводчик  -­‐  издательство  -­‐  жанр  -­‐  описание  от  издателя  

Page 11: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Текстовый анализ: TF-IDF

Значимость  термина  

Частота  термина  n  в  документе  d

Уникальность    термина  среди    документов

Page 12: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Текстовый анализ: реализация в R

Page 13: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Текстовый анализ: реализация в R

Page 14: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Текстовый анализ: реализация в R

Page 15: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Текстовый анализ: реализация в R

Page 16: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Текстовый анализ: результаты

Page 17: FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина

Хотите еще R? Приходите завтра

[email protected]    

Спасибо  за  внимание!