Хиврин - Алгоритмы выявления seo ссылок
TRANSCRIPT
Николай Хиврин, CEO MegaIndex
Алгоритмы выявления SEO-ссылок
Актуальность проблемы
- Минимизация учета SEO-ссылок - Минусинск
Актуальные проблемы
- классификация сайтов - определение тематики - классификация документов - анализ документа - анализ графа ссылок - анализ внешних показателей - зеркала
Deep learning
- набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций
Применение
- распознавание изображений- распознавание смысла текста- определение коммерческих факторов- расширение запроса- подсказкии т.д.
Векторные представления слов (word embeddings)
W: words -> Rn
W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…)W(“окна”) = (0.0,0.1,0.5,0.1,…)Обычно, функция определяется матрицей
Функция корректности N-грамм
Word2vec
- вычисление расстояний между словами
https://code.google.com/archive/p/word2vec/
Word2vec
Word2vec
Новые подходы к проверке орфографии
- обучение на текстах с высоким уровнем доверия- автоматическая подстройка алгоритма
Векторное представление документов
Векторная модель (vector space model) представление коллекции документов векторами из одного общего для всей коллекции векторного пространства
Классификация сайтов
1.Каталоги сайтов2.Порталы и работе, отзывах3.Новостные порталы4.Форумы5.Блоги6.Контент-проекты7.Бизнес-сайты
GBRT (Gradient Boosted Regression Trees)
Стандартные алгоритмы
1.PageRank2.HITS (Hyperlink Induced Topic Search)3.LSI (Latent Semantic Indexing)4.LDA (Latent Dirichlet Allocation)5.Обучаемые нейронные сети
Алгоритм LDA
Применение LDA:
- определение тематики сайта/документа - выявление коммерческих/некоммерческих сайтов
https://ru.megaindex.com/a/tcategories
Page Rank и Trust Rank
Анализ ссылок по ТОПам
Проблемы ссылочных доноров
- плохой контент - плохой профиль внешних ссылок - спам в исходящих ссылках
Контент
- наличие блоков рекламных сетей - малый трафик - неуникальный контент
Поиск зеркал и неуникального контента
- хеширование шинглов - использование MinHash, SimHash
Вычисление Hash
MinHash
MinHash
Спам в исходящих ссылках
- текучка исходящих ссылок - распределение тематик сайтов акцепторов - распределение по анкорам - расположение ссылок в документах - отношение числа уникальных ссылок и акцепторов к числу страниц
Плохой профиль внешних ссылок
- отношение ссылающихся IP к числу подсетей - отношение Trust Rank и Page Rank - динамика внешних ссылок
Вопросы
Николай ХивринCEO MegaIndex (https://megaindex.com/)
https://facebook.com/khivrin