Текстова релевантност

29
Gennadiy Vorobyov Текстова релевантност

Upload: netpeakbg

Post on 15-Jul-2015

501 views

Category:

Documents


3 download

TRANSCRIPT

Gennadiy Vorobyov

Текстова релевантност

План на доклада

1. Нелинейност на честотност на думиИндекс на търсачката и лематизацияречник на честотностите

ДемонстрацияЛематизатор на български текст

Подобни фразиПродължителност минути минути за въпроси

1. Една и съща дума не трябва да се употребява в текста много пъти

Важно е самото й наличие Зависимост на релевантността спрямо честотност надума има нелинеен характер

Общ принцип колкото по често се употребява думата в документа толкова щее по висока релевантност вярно

Но започвайки от определено значение увеличение на честотата спира да влияевърху релевантността

1. Релевантност VS честотност

Схематично поведение на влиянието на честотност на думата върхурелевантността й честотност релевантност

2. Индекс на търсачката

При текстово търсене търсачката се обръща към индексната си база с документи

2. Инвертиран индекс

2. Лематизиране

2. Лематизиране

Лема основна форма на думата словоформа

случай случаи случаите случай случаятнотариус нотариус нотариуса нотариусътполуча получа получени получи получилплатен платена платената платил платяуговоря уговорената уговорения уговорилипосоча посоча посочените посочинедвижим недвижим недвижими недвижимите

Нужно е

● за съставяне на индексна база на търсачката

● за и специалисти за работа с текстове и ключови думи

2. Лематизиране

Как се свежда думата до нейна лема

● Лематизатор с речник

● Стеминг алгоритъм на П Наков

3. TF/IDF, Речник на честотностите

честотност на думата отношение на брой повторенияна думата към общия брой думи в документа По този начин оценявамеважността на думата в рамките на документа

където е брой повторения на думата в документа а в знаменателя общброй думи в документа

думите се лематизират

3. TF/IDF, Речник на честотностите

обратна честотност на документаинверсия на честотата с която някоя дума се среща в документите наколекцията

намаля тежестта на честоизпоолзваните думи За всяка уникална дума врамките на конкретна колекция документи съществува конкретно значение на

къдетоброй документи в колекцията

брой документи в които се среща когда

3. TF/IDF, Речник на честотностите

По голяма тежест в ще получат думи с висока честотност в рамките наконретен документ и с ниска честотност в другите документи

3. TF/IDF, Речник на честотностите

Речник на честотностите е нужен за коректна калкулация на честотност надумите в цялата колекция

Варианти на колекциитенабор от документи примерно

всички текстове в рамките на ТОП ТОПвсички текстове в сайта

индекс на търсачките

4. BM25

е една от функциите за текстова релевантност на документи

Модифициран вариант на която оценява срещанията на думите включовата фраза без оценка на взаимоотношения между думите напримерблизостта им

Това не е единствена формула а семейство модифицирани формули

Нека фразата състояща от думите тогава дава следнатаоценка на релевантността на документа към

ее дължината на документае средна дължина на документите в колекциятасвободни коефициенти обикновено

4. Демонстрация: калкулация на TF/IDF, BM25 Excel

Калкулация на и

4. Демонстрация: калкулация на TF/IDF, BM25 Excel

4. Демонстрация: калкулация на TF/IDF, BM25 Excel

4. Демонстрация: калкулация на TF/IDF, BM25 Excel

4. Разширена BM25 @Яндекс

Автоматизирахме процеса за пресмятане на BM25 (статия в Блога)

5. LSA

алгоритъм за намиране на сходство междутекстове без да има явно подобие с помощта на скрити и неочевиднизависимости

Определяне дали документите се отнасят към конкретна тематика или не

Документите се представят във вид на вектор а сходството на документите сеизмерва с помощта на векторно разстояние между тях

6. Демонстрация

Лематизатор

Фирма ТЕТО ЕООД е компания с над от годишен опит и традиции в изработването на метални керемиди трапецовидни профили безшевни улуци тръби и тн През годините фирмата се е специализирала в ремонт на покриви Произходътна металните керемиди е още от те години на век във Финландия и те са пригодени за различни климатични условия където температурните амплитуди на въздуха варират от до градуса Употребата на металните керемиди всеповече се увеличава във времето което се дължи на продължителния им период на използване и тяхната издръжливост при всякакви атмосферни условия В производството на метални керемиди компанията използва производствените линиина световноизвестната марка която е наложена с годините на международния пазар ремонт на покриви През годините на съществуване на ТЕТО ЕООД можем да се похвалим с реализацията на стотици строителни обекти отжилищни блокове и кооперации до административни сгради и учреждения както и значителен брой вили хотели и тн Фирма ТЕТО ЕООД е наложила високо качеството при производствените си и организационните процеси в своятаработа Дейности като ремонт на покриви облицоването на сгради водосточните системи са част от качествените услуги които предоставя компанията Чрез широкия набор от услуги и качествена продукция фирмата се е утвърдила катосигурна компания в сферата на строителните и ремонти дейности а металните керемиди са надеждни и предпочитани от все повече домакинства метални покриви и конструкции Освен това ТЕТО ЕООД предлага и най различни аксесоари скоито има възможност да бъдат изготвяни елементи при различни специфични поръчки Предлаганите продукти се отличават с високо качество на изработка и удовлетворяват нуждите на клиента За улеснение на клиентите предлагаме иподробни инструкции при монтажа на металните керемиди които може да намерите на нашия сайт Имате възможност да разгледате и няколко снимкови галерии с реализирани проекти от нашата фирма в които може да видите интереснирешения за различни типове сгради Основните преимущества на металните керемиди са Дълъг период на експлоатация достигащ години Ниски нива на тегло м тежи кг Многопластово защитно покритие Високо нива наустойчивост при силни температурни амплитуди Лесно и удобни са за транспортиране и монтаж Херметичност Красив дизайн и външен вид Силно и естествено наподобяват по външен на традиционните керемиди

6. n-gramm анализ

честотност на грами в текста

6. Netpeak Tags Finder @Prodvigator beta

6. Word investigator @Prodvigator beta

6. Подобни фрази @ Standard&Professional Prodvigator

Допълнителна литература

1. http://googleresearch.blogspot.ca/2014/08/teaching-machines-to-read-between-lines.html2. http://moz.com/blog/7-advanced-seo-concepts3. Introduction to Information Retrieval http://www-nlp.stanford.edu/IR-book/

Learn more about internet marketing

Въпроси?

Gennadiy VorobyovCEO Netpeak [email protected]