ai&bigdata lab. Варвара Красавина "Оптимизация поиска в...

Post on 27-Jul-2015

232 Views

Category:

Technology

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Оптимизация поиска интента/в системе LeadScanner /

Варвара Красавина/

       

Варвара  Красавина,  computa2onal  linguist  @LeadScanr  кафедра  компьютерной  лингвистики  СПбГУ  @varvarakras  

 

Наша  задача /

•  Найти  как  можно  больше  сообщений  •  Сократить  количество  нерелевантных  сообщений  

Автоматическое  извлечение  ключевых  слов  и  словосочетаний/

•  Автоматическая  обработка  больших  объемов  текстов  •  Легок  в  реализации  •  Дает  хорошие  результаты  

Популярные  методы/

•  TF-­‐IDF  •  Log-­‐Likelihood  •  Co-­‐occurrence  Matrix  &  Xi-­‐Square  •  …  

Отличие  от  других  методов /

•  Понимание  терминов  «текст»  /  «корпус»  •  TF-­‐IDF  –  кластеризация  (противопоставляем  один  текст  корпуса  всем  остальным)  

•  У  нас  –  однородная  группа  

В  чем  суть  метода /

•  Задача:  извлечь  словосочетания,  которые  лучше  всего  характеризовали  бы  текст.    

•  Гипотеза:  если  какие-­‐либо  два  слова  часто  встречаются  вместе  (в  одном  предложении)  и  редко  по  отдельности  (с  другими  словами),  то  между  ними  существует  семантическая  связь.  

•  Следовательно,  эти  два  слова  характеризуют  этот  текст  лучше,  чем  остальные  пары  

Метод:  шаги/

•  В  тексте  N  слов.  •  Считаем  частоту  каждого  слова  в  тексте.  •  Выбираем  из  них  K  наиболее  частотных  –  они  составляют  множество  G.  

•  Строим  матрицу  K*N.  •  В  матрицу  записываем  частоту  совместной  встречаемости.  

•  Оцениваем  значимость  слова  по  критерию  Xi-­‐Square.  

Xi-­‐Square/

Как  это  работает  у  нас/

Отрасль:  недвижимость    •  Прогнали  метод  по  тематическим  группам  VK  •  Тестировали  на  нерелевантных  лидах    

Спорные  вопросы /

•  Стоп-­‐слова  и  Text  Preprocessing  •  Источники  •  Лемматизация  •  Machine  Learning  

Text  Preprocessing/

•  Удаление  стоп−слов  •  text.Split();    •  Что  считать  стоп-­‐словами?    •  Как  составить  список  стоп-­‐слов?  •  Split  по  предложениям  или  по  абзацам?  

Источники/

•  Тематические  группы  •  Форумы  

Лемматизация /

•  Нужна  или  нет?  

Machine  Learning/

Ручной  контроль  качества    •  Большие  объемы  подтвержденных  сообщений  •  Большие  объемы  удаленных  сообщений  

Cпасибо,  ваши  вопросы!        

Варвара  Красавина,  skype:  opavshie_listya  varvara.krasavina@youscan.ru  @varvarakras  

 

We’re hiring! :)/

top related