![Page 1: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/1.jpg)
Индексирование сайта: используем Яндекс.Вебмастер для устранения проблем
Михаил Сенин Ноябрь 2013
![Page 2: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/2.jpg)
2
![Page 3: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/3.jpg)
3
![Page 4: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/4.jpg)
4
Знай и люби свой сайт!
![Page 5: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/5.jpg)
5
Поисковый индекс
![Page 6: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/6.jpg)
6
Обход роботом и поисковые индексы
Подготовка индекса
t Подготовка индекса
Основной индекс
Выкладывание нового индекса
Выкладывание нового индекса
Загрузка
страницы
роботом
Загрузка
страницы
роботом
Загрузка
страницы
роботом
Загрузка
страницы
роботом
Загрузка
страницы
роботом
Основной индекс
Индекс Быстрого робота
Результаты поиска
Сообщение в Я.Вебмастере
Сообщение в Я.Вебмастере
![Page 7: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/7.jpg)
7
Сообщения о новом индексе
![Page 8: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/8.jpg)
8
Объясняем роботу как индексировать сайт
![Page 9: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/9.jpg)
9
Настройка индексирования
Анализатор robots.txt – куда можно ходить
1 2
3
4
![Page 10: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/10.jpg)
10
Настройка индексирования
Файлы sitemap – что нужно индексировать – Проверьте корректность файла Sitemap в валидаторе – Добавьте в robots.txt или Я.Вебмастер – Получайте информацию об обработке файла роботом Яндекса
![Page 11: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/11.jpg)
11
Этапы обработки страницы
![Page 12: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/12.jpg)
12
не знаю L
Этапы обработки страницы DNS Сайт Робот Яндекса
имя домена
GET /robots.txt
Анализ robots.txt
GET <адрес страницы>
Анализ контента (кодировка, язык и т.п.)
Построение поискового индекса
IP-адрес
Не удалось соединиться L
Запрет L
Не годится L
Не берём L В индекс!
robots.txt
Контент страницы
500, 404, ошибки HTTP L
Не удалось соединиться L
![Page 13: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/13.jpg)
13
Этапы обработки страницы
• Получение ip по имени Возможны ошибки DNS
• Соединение с сайтом Возможен запрет робота Яндекса по ip
• Проверка запрета в robots.txt Возможен запрет страницы в robots.txt
• Загрузка страницы Возможны ошибки HTTP соединения, 5XX и т.п.
• Обработка страницы после загрузки Запрет мета-‐тегом и т.п., неверная кодировка и т.п., ограничения робота Яндекса
• Включение в индекс
![Page 14: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/14.jpg)
14
Предупреждения о недоступности сайта
• Ошибка DNS Проверяем, пробуем настроить, идём к хостеру или провайдеру
• Соединение с сайтом Проверяем ответ сайта роботу Яндекса, идём к разработчикам сайта, хостеру или провайдеру
• Запрет в robots.txt Проверяем в анализаторе robots.txt
За год проблемами подобного рода сталкивались 10% сайтов!
![Page 15: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/15.jpg)
15
Сообщения о недоступности сайта
Скоро всё будет плохо
Подготовка индекса
OK Ошибка
![Page 16: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/16.jpg)
16
Сообщения о недоступности сайта
Всё плохо
Подготовка индекса
Ошибка Ошибка
![Page 17: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/17.jpg)
17
Сообщения о недоступности сайта
Скоро будет хорошо
Подготовка индекса
OK Ошибка
![Page 18: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/18.jpg)
18
Причины, по которым страница не попадает в поиск
![Page 19: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/19.jpg)
19
Некоторые определения
• URL страницы Разные URL могут вести на один и тот же контент
• Страница проиндексирована Контент страницы доступен в поиске
• Канонический URL URL, под которым страница доступна в поиске
![Page 20: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/20.jpg)
20
Страница в поиске под другим именем
• Редирект на более длинный URL Выбираем более короткий URL, т.к. его проще воспринять
• Мета-‐тег refresh на более длинный URL
• Контент дублирует контент другого URL
• Было указание на канонический URL <link rel="canonical" href="http://www.examplesite.ru/blog"/>
![Page 21: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/21.jpg)
21
Обошли, но в поиск не взяли
• Исключено роботом Страницу не удалось получить или обработать
• «Неинтересный» контент Вероятность показа страницы очень мала
• Страница является спамом
![Page 22: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/22.jpg)
22
Исключённые страницы
![Page 23: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/23.jpg)
23
Причины исключения страниц роботом
• Ограничения робота У всех свои ограничения…
• Страница запрещена к индексированию
вебмастером или не существует robots.txt, refresh, noindex, rel=canonical, 4XX кроме 403
• Ошибки на стороне сайта 403, 5XX, обрыв соединения, ошибки протокола HTTP, неверная кодировка, страница без текста, ошибки распаковывания
![Page 24: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/24.jpg)
24
Исключенные страницы: сводка
![Page 25: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/25.jpg)
25
Исключенные страницы: по типам
![Page 26: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/26.jpg)
26
Ограничения робота
• Слишком большой документ – 10 Мб
• Формат документа не поддерживается или указывается сервером неправильно
• Документ является логом сервера
• Неверный формат документа Не соответствует html, pdf, doc, rtf, swf, xls или ppt; чаще всего xml
• Кодировка не распознана http://help.yandex.ru/webmaster/?id=1111516
• Язык не поддерживается http://help.yandex.ru/webmaster/?id=1111517
• Слишком много ссылок – ? 3072
![Page 27: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/27.jpg)
27
Запрет или не существует
• Все 4ХХ коды, кроме 403 Фильтруем по наличию внутренних ссылок
• robots.txt Анализатор robots.txt
• Мета-‐тег noindex Смотрим код страницы
• Мета-‐тег refresh Не индексируется, т.к. пользователь реально не видит этот контент
• rel=“canonical” Индексируется канонический URL
![Page 28: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/28.jpg)
28
Ошибки на стороне сервера или сайта
• Все 5ХХ коды и 403 Чиним сервер, закрываем страницы от индексации или меняем настройки
• Обрыв соединения, неверная длина сообщения
• Неверный URL, длина URL превышает предел
• Неверный HTTP-‐код
• Неверная кодировка (Transfer-‐encoding) • Длина HTTP-‐заголовка превышает предел
• Документ не содержит текста
• Ошибка распаковывания
![Page 29: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/29.jpg)
29
Инструмент для проверки URL
![Page 30: Михаил Сенин - Индексирование сайта: Яндекс.Вебмастер для устранения проблем](https://reader034.vdocuments.pub/reader034/viewer/2022051012/54623eccaf795988228b4932/html5/thumbnails/30.jpg)
30
Спасибо за внимание! Вопросы?
http://webmaster.yandex.ru http://help.yandex.ru/webmaster [email protected]