ai&bigdata lab. Варвара Красавина "Оптимизация поиска в...

20
Оптимизация поиска интента в системе LeadScanner Варвара Красавина

Upload: geekslab

Post on 27-Jul-2015

232 views

Category:

Technology


5 download

TRANSCRIPT

Page 1: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Оптимизация поиска интента/в системе LeadScanner /

Варвара Красавина/

Page 2: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

       

Варвара  Красавина,  computa2onal  linguist  @LeadScanr  кафедра  компьютерной  лингвистики  СПбГУ  @varvarakras  

 

Page 3: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения
Page 4: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения
Page 5: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения
Page 6: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Наша  задача /

•  Найти  как  можно  больше  сообщений  •  Сократить  количество  нерелевантных  сообщений  

Page 7: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Автоматическое  извлечение  ключевых  слов  и  словосочетаний/

•  Автоматическая  обработка  больших  объемов  текстов  •  Легок  в  реализации  •  Дает  хорошие  результаты  

Page 8: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Популярные  методы/

•  TF-­‐IDF  •  Log-­‐Likelihood  •  Co-­‐occurrence  Matrix  &  Xi-­‐Square  •  …  

Page 9: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Отличие  от  других  методов /

•  Понимание  терминов  «текст»  /  «корпус»  •  TF-­‐IDF  –  кластеризация  (противопоставляем  один  текст  корпуса  всем  остальным)  

•  У  нас  –  однородная  группа  

Page 10: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

В  чем  суть  метода /

•  Задача:  извлечь  словосочетания,  которые  лучше  всего  характеризовали  бы  текст.    

•  Гипотеза:  если  какие-­‐либо  два  слова  часто  встречаются  вместе  (в  одном  предложении)  и  редко  по  отдельности  (с  другими  словами),  то  между  ними  существует  семантическая  связь.  

•  Следовательно,  эти  два  слова  характеризуют  этот  текст  лучше,  чем  остальные  пары  

Page 11: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Метод:  шаги/

•  В  тексте  N  слов.  •  Считаем  частоту  каждого  слова  в  тексте.  •  Выбираем  из  них  K  наиболее  частотных  –  они  составляют  множество  G.  

•  Строим  матрицу  K*N.  •  В  матрицу  записываем  частоту  совместной  встречаемости.  

•  Оцениваем  значимость  слова  по  критерию  Xi-­‐Square.  

Page 12: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Xi-­‐Square/

Page 13: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения
Page 14: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Как  это  работает  у  нас/

Отрасль:  недвижимость    •  Прогнали  метод  по  тематическим  группам  VK  •  Тестировали  на  нерелевантных  лидах    

Page 15: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Спорные  вопросы /

•  Стоп-­‐слова  и  Text  Preprocessing  •  Источники  •  Лемматизация  •  Machine  Learning  

Page 16: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Text  Preprocessing/

•  Удаление  стоп−слов  •  text.Split();    •  Что  считать  стоп-­‐словами?    •  Как  составить  список  стоп-­‐слов?  •  Split  по  предложениям  или  по  абзацам?  

Page 17: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Источники/

•  Тематические  группы  •  Форумы  

Page 18: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Лемматизация /

•  Нужна  или  нет?  

Page 19: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Machine  Learning/

Ручной  контроль  качества    •  Большие  объемы  подтвержденных  сообщений  •  Большие  объемы  удаленных  сообщений  

Page 20: AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения

Cпасибо,  ваши  вопросы!        

Варвара  Красавина,  skype:  opavshie_listya  [email protected]  @varvarakras  

 

We’re hiring! :)/