Роботы яндекса. Зачем нужны поисковые роботы. Как оградиться от мошеннических роботов, представляющихся роботами Яндекса

Вопреки расхожему мнению, робот непосредственно не занимается какой-либо обработкой сканируемых документов. Он их только считывает и сохраняет, дальше их обработку осуществляют другие программы. Наглядное подтверждение можно получить, анализируя логи сайта, который индексируется в первый раз. При первом визите бот сначала запрашивает файл robots.txt, затем главную страницу сайта. То есть идет по единственной известной ему ссылке. На этом первый визит бота всегда и заканчивается. Через некоторое время (обычно на следующий день) бот запрашивает следующие страницы - по ссылкам, которые найдены на уже считанной странице. Дальше процесс продолжается в том же порядке: запрос страниц, ссылки на которые уже найдены - пауза на обработку считанных документов - следующий сеанс с запросом найденных ссылок.

Разбор страниц «на лету» означал бы значительно бо льшую ресурсоемкость робота и потери времени. Каждый сервер сканирования запускает множество процессов-ботов параллельно. Они должны действовать максимально быстро, чтобы успеть считывать новые страницы и повторно перечитывать уже известные. Поэтому боты только считывают и сохраняют документы. Все, что они сохраняют, ставится в очередь на обработку (разборку кода). Найденные при обработке страниц ссылки ставятся в очередь заданий для ботов. Так и идет непрерывное сканирование всей сети. Единственное, что бот может и должен анализировать «на лету» - это файл robots.txt, чтобы не запрашивать адреса, которые в нем запрещены. При каждом сеансе сканирования сайта робот в первую очередь запрашивает этот файл, а уже после него - все стоящие в очереди на сканирование страницы.

Виды поисковых роботов

У каждой поисковой системы есть свой набор роботов для различных целей.
В основном они различаются по функциональному назначению, хотя границы очень условны, и каждый поисковик понимает их по-своему. Системам только для полнотекстового поиска вполне достаточно одного робота на все случаи жизни. У тех поисковиков, которые заняты не только текстом, боты разделяются как минимум на две категории: для текстов и рисунков. Существуют также отдельные боты, занятые специфическими видами контента - мобильным, блоговым, новостным, видео и т.д.

Роботы Google

Все роботы Google носят общее название Googlebot. Основной робот-индексатор «представляется» так:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Этот бот занят сканированием HTML -страниц и прочих документов для основного поиска Google. Он же изредка считывает файлы CSS и JS - в основном это можно заметить на ранней стадии индексирования сайта, пока бот обходит сайт впервые. Принимаемые типы контента - все (Accept: */*).

Второй из основных ботов занят сканированием изображений с сайта. Он «представляется» просто:

Googlebot-Image/1.0

Еще в логах замечены как минимум три бота, занятых сбором контента для мобильной версии поиска. Поле User-agent всех трех оканчивается строкой:

(compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Перед этой строкой - модель мобильного телефона, с которой этот бот совместим. У замеченных ботов это модели телефонов Nokia, Samsung и iPhone. Принимаемые типы контента - все, но с указанием приоритетов:

Accept: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0.9,text/vnd.wap.wml;q=0.8,text/html;q=0.7,*/*;q=0.6

Роботы Яндекса

Из поисковиков, активно действующих в Рунете, самая большая коллекция ботов у Яндекса. В разделе помощи для вебмастеров можно найти официальный список всего паучьего личного состава. Приводить его здесь полностью нет смысла, поскольку в этом списке периодически происходят изменения.
Тем не менее, о самых важных для нас роботах Яндекса нужно упомянуть отдельно.
Основной индексирующий робот на текущий момент зовется

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Ранее представлялся как

Yandex/1.01.001 (compatible; Win16; I)

Считывает HTML -страницы сайта и другие документы для индексирования. Список принимаемых медиатипов ранее был ограничен:

Accept: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, application/vnd.ms-excel;q=0.1, application/vnd.ms-powerpoint;q=0.1

С 31 июля 2009 года в этом списке было замечено существенное расширение (число типов почти удвоилось), а с 10 ноября 2009 года список укоротился до */* (все типы).
Этого робота живо интересует вполне определенный набор языков: русский, несколько менее украинский и белорусский, еще чуть меньше английский и совсем мало - все остальные языки.

Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Робот-сканер изображений несет в поле User-agent строку:

Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)

Занимается сканированием графики разных форматов для поиска в картинках.

В отличие от Google, у Яндекса есть отдельные боты для обслуживания некоторых специальных функций общего поиска.
Робот-«зеркальщик»

Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Ничего особенно сложного не делает - периодически появляется и проверяет, совпадает ли главная страница сайта при обращении к домену с www. и без. Также проверяет параллельные домены-«зеркала» на совпадение. По-видимому, зеркалами и канонической формой доменов в Яндексе занимается отдельный программный комплекс, не связанный напрямую с индексированием. Иначе решительно нечем объяснить существование для этой цели отдельного бота.

Сборщик иконок favicon.ico

Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)

Периодически появляется и запрашивает иконку favicon.ico, которая потом появляется в поисковой выдаче рядом со ссылкой на сайт. По каким причинам эту обязанность не совмещает сборщик картинок, неизвестно. По-видимому, также имеет место отдельный программный комплекс.

Проверочный бот для новых сайтов, работает при добавлении в форму AddURL

Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)

Этот бот проверяет отклик сайта, посылая запрос HEAD к корневому URL . Таким образом проверяется существование главной страницы в домене и анализируются HTTP -заголовки этой страницы. Также бот запрашивает файл robots.txt в корне сайта. Таким образом после подачи ссылки в AddURL определяется, что сайт существует и ни в robots.txt, ни в HTTP -заголовках не запрещен доступ к главной странице.

Робот Рамблера

В настоящее время уже не работает , поскольку Рамблер сейчас использует поиск Яндекса
Робота-индексатора Рамблера легко опознать в логах по полю User-agent

StackRambler/2.0 (MSIE incompatible)

По сравнению с «коллегами» из других поисковых систем этот бот кажется совсем простым: не указывает список медиатипов (соответственно, получает запрошенный документ любого типа), поле Accept-Language в запросе отсутствует, в запросах бота не встречено также поле If-Modified-since.

Робот Mail.Ru

Об этом роботе пока известно немного. Разработку собственного поиска портал Mail.Ru ведет уже давно, но все никак не соберется этот поиск запустить. Поэтому достоверно известно только наименование бота в User-agent - Mail.Ru/2.0 (ранее - Mail.Ru/1.0). Наименование бота для директив файла robors.txt нигде не публиковалось, есть предположение, что бота так и следует звать Mail.Ru.

Прочие роботы

Поиск в интернете, конечно, не ограничивается двумя поисковыми системами. Поэтому существуют и другие роботы - например робот Bing - поисковой системы от Microsoft и другие роботы. Так, в частности, в Китае есть национальная поисковая система Baidu - но ее робот вряд ли долетит до середины реки дойдет до русского сайта .

Кроме того, в последнее время расплодилось много сервисов - в частности solomono - которые хоть и не являются поисковыми системами, но тоже сканирует сайты. Часто ценность передачи информации о сайте таким системам сомнительна, и поэтому их роботов можно запретить в

Чтобы самостоятельно сообщить Яндексу о новом сайте, а также следить за его индексированием и позициями в поисковой выдаче, добавьте сайт в Яндекс.Вебмастер .

Вопросы и ответы

Какие страницы уже есть в индексе Яндекса

Проверить это можно несколькими способами:

С помощью оператора запроса url . В поисковой строке Яндекса введите оператор запроса url , адрес сайта и *. Например: url:www.example.com* .
В Яндекс.Вебмастере на странице Индексирование → Статистика обхода . Подробнее см. в разделе Статистика обхода .

Чтобы узнать, какие поддомены сайта индексируются, вы можете воспользоваться операторами языка запросов host или rhost .

Какие страницы сайта участвуют в поиске

На основе базы роботов формируются результаты поиска Яндекса. Загруженные в базу робота страницы анализируются с помощью специального алгоритма. Если алгоритм определяет, что содержимое страницы достаточно полно отвечает на поисковый запрос (то есть является релевантной), то такая страница может появиться в результатах поиска. Таким образом, не все страницы сайта можно увидеть в поиске Яндекса.

Чтобы узнать, какие страницы вашего сайта участвуют в поиске , перейдите на страницу Индексирование → Страницы в поиске в Яндекс.Вебмастере.

Иногда ранее участвующие в поиске страницы могут исключаться из результатов поиска . Чтобы посмотреть список исключенных страниц вашего сайта, перейдите на страницу Индексирование → Страницы в поиске в Яндекс.Вебмастере.

Почему страницы долгое время не появляются в поиске

Если новые страницы длительное время не появляются в поиске, убедитесь, что:

страницы доступны для робота (с помощью инструмента );
информация о страницах есть в файле ;
на страницы ведут доступные ссылки с ранее проиндексированных страниц сайта;
в файле robots.txt нет установленной без надобности директивы , а запрещающие директивы Disallow, noindex и HTML-элемент noindex закрывают от индексирования только служебные и дублирующие страницы.

Проверить, известно ли роботу о новой странице и в каком статусе она находится, можно с помощью инструмента . Чтобы сообщить роботу о появлении новых страниц, .

Изменение позиций сайта в результатах поиска

Результаты поиска не статичны и могут постоянно изменяться. Это может происходить по нескольким причинам:

Произошло регулярное обновление поисковой базы

Характеристики сайтов постоянно пересчитываются на основании свежих данных о страницах, а также их популярности среди пользователей. Вес факторов ранжирования и релевантная запросу страница могут меняться, страницы сайта могут выпадать из поискового индекса. Вследствие этого позиции в результатах поиска также могут меняться.

Произошли изменения на других сайтах, которые находились в поиске по интересующим вас запросам

Ваш сайт мог естественным образом изменить позиции в выдаче за счет роста релевантности других ресурсов по этим же запросам (владельцы других сайтов также вносят изменения). Если первые позиции в поиске заняли подозрительные сайты, сообщите об этом через .

Изменился адрес сайта или используемый протокол

В течение нескольких обновлений поисковой базы после смены адреса допускается понижение позиций сайта в результатах поиска (старые страницы сайта пропадают из поискового индекса, поэтому позиции могут снизиться по соответствующим запросам). Если на сайте настроен 301 редирект, ознакомьтесь с .

Страницы, ранее находившиеся по запросам, пропали из поиска

Произошли другие изменения на вашем сайте

Любое изменение на сайте может влиять на его позиции в результатах поиска. Например, изменение структуры сайта, адреса (URL) или содержимого страницы (или его представления), которая находилась по интересующим вас запросам.

Страницы сайта считаются некачественными

Проверить это можно в Яндекс.Вебмастере на странице Диагностика → Диагностика сайта . Чтобы улучшить сайт, воспользуйтесь рекомендациями:

На какие вопросы отвечает ваш сайт
Представление информации на сайте

Алгоритм проверяет страницы с каждым обновлением поисковой базы, поэтому некоторые из них могут исключаться из поиска. Если страница не участвует в поиске уже длительное время, это означает, что на текущий момент она недостаточно хорошо отвечает на запросы пользователей.

Вопросы и ответы

В результатах поиска отображаются ссылки на внутренние фреймы сайта

В этом случае перед загрузкой страницы с помощью консоли браузера проверьте, открыт ли родительский фрейм с навигацией. Если закрыт, откройте его.

Мой сервер не выдает last-modified

Даже если сервер не выдает дату последней модификации документа (last-modified), ваш сайт будет проиндексирован. Однако в этом случае следует учитывать следующее:

в результатах поиска не будет показываться дата рядом со страницами вашего сайта;

при сортировке по дате сайт не будет виден большинству пользователей;

робот не сможет получить информацию о том, обновилась ли страница сайта с момента последнего индексирования. А так как число страниц, получаемых роботом с сайта за один заход, ограничено, изменившиеся страницы будут переиндексироваться реже.

Как кодировка влияет на индексирование

Тип используемой на сайте кодировки не влияет на индексирование сайта. Также, если ваш сервер не передает в заголовке кодировку, робот Яндекса определит кодировку самостоятельно.

Можно ли управлять частотой переиндексирования с помощью директивы Revisit-After?

Нет. Робот Яндекса ее игнорирует.

Яндекс индексирует сайт на иностранном домене?

Как можно повлиять на робота, чтобы он индексировал то, что нам нужно или наоборот не индексировал? Это одна из самых популярных тем, которую кто только не разбирал, и в тоже время мы постоянно видим ошибки в файле robots.txt. Что же не так? Давайте разберемся.

Сам файл robots.txt – это строгий набор инструкций для индексирующего робота, показывающий, что можно индексировать, а что нет. Этот файл находится в корне вашего сайта, обязательно имеет название robots.txt и начинается со строки User-agent. Эта директива показывает какие правила, перечисленные ниже, будут использоваться для того или иного робота.

Распространенные директивы disallow/allow запрещают или разрешают индексирование страниц. Здесь можно запрещать и дублирующие страницы, и служебные, и скрипты, и все что угодно. Особенно важна эта директива, если у вас на сайте хранятся какие-то пользовательские данные: договор, адреса доставки, мобильный телефон и др. Эту информацию нужно закрыть от индексирующего робота, чтобы она не попала в результаты поиска.

Директива Clean-param позволяет удалять ненужные параметры из URL-адресов страниц, если вы их используете для отслеживания того, откуда пришел на ваш сайт индексирующий робот.

Директива Crawl-delay задает интервал между окончанием запроса одной страницы роботом и началом запроса другой. Очень эффективная директива, если вы открыли новый раздел на вашем сайте; робот пришел и начал скачивать кучу страниц, создавать дополнительную нагрузку сайту, ресурс перестает отвечать, недоступен для посетителей, и вы теряете своих клиентов.

Директива Sitemap указывает на наличие и адрес, т.е. местоположение соответствующего файла карты на вашем сайте. Директива Host указывает адрес главного зеркала.

Вот пример типичного файла robots.txt

Начинается файл с директивы User-agent: * . Где * — показывает, что используется для всех индексирующих роботов, если не указано иначе. Во втором блоке указано User-agent: Yandex. Это означает, что он предназначен только для индексирующих роботов Яндекса.

Директива Disallow:/admin указывает на то, что нужно запретить обход всех страниц, которые начинаются с admin . Disallow:*=? cart* запрещает любые действия, любые GET-параметры, содержащие этот адрес.

GET-параметры – это параметры, которые передаются серверу, когда совершается запрос. Со стороны пользователя это выглядит, как часть интернет адреса. Например, такой запрос http://www.examle.com/test?param1=value1¶m2=value2¶m3=value3.
Все, что идет после? это GET-параметры. Они представляют собой список пар – ключ-значение, разделенные &. В данном случае это три пары: (param1, value1) (param2, value2) (param3, value3).

Дополнительные директивы: Clean-param: sid/ – очищает идентификатор сессии.
Crawl-delay: 0.5 – в данном случае робот будет запрашивать две страницы в 1 секунду.

Какие самые распространенные ошибки допускаются при работе с файлом robots.txt?

Самый распространенный случай ошибки, например, если ваш сайт лютикицветочки.рф, и в директиве Host – вы его указали не в закодированном виде. Хотя нужно указывать в закодированном понекоде (Punycode).

Punycode — алгоритм, который определяет однозначное преобразование символов Юникода (символы национального алфавита, например, россия.рф) в строки ASCII-символов.

А как мы знаем, URL отправляются в интернет в ASCII-кодировке . Данная кодировка используется для передачи информации между компьютерами в интернете. ASCII расшифровывается как Американский Стандартный Код для Обмена информацией.

Все эти ошибки можно предотвратить, если пользоваться простейшим инструментом в «Яндекс.Вебмастер» — Анализатор robots.txt .

Вставляете адрес вашего сайта, нажимаете загрузить robots.txt, теперь можете увидеть, то, что сейчас там находится, добавляете список URL-адресов страниц, нажимаете кнопку проверить. Можно редактировать, посмотреть, как робот воспримет то или иное изменение. Если вы вносите какие-то серьезные изменения в файл robots.txt, даже если знаете и делали это много раз, то перестрахуйтесь, воспользовавшись этим инструментом.

Что такое карта сайта и как её рисовать?

Итак, мы с вами запретили роботу посещать те или иные страницы на сайте, но теперь нужно показать, какие страницы нужно индексировать и включать в поисковую выдачу.

Для этого существует специальный файл Sitemap – карта вашего сайта. Это текстовый или XML-файл, содержащий адреса страниц, которые необходимо индексировать. Ниже приведен пример файла sitemap.

Файл должен начинаться со служебной строки, указывающей на кодировку. Обязательно стандарт, с которым он составлен, и обязательно тэг Url и Loc (location – показывает адрес страницы). Это самый простой файл, здесь всего одна страница – это «морда» (главная страница сайта). Плюс есть необязательные тэги, которые тоже можно передавать роботу, и которые робот может учитывать (lastmode – дата последнего изменения страницы, changefreq – периодичность ее изменения, priority – приоритет при обходе вашего сайта в целом).

Ошибки при работе с Sitemap

В работе с файлом sitemap вам так же пригодится Валидатор в «Яндекс.Вебмастер», в котором можно проверить все эти ошибки, проверить ваш готовый файл, размещенный на сервере либо на компьютере. Поможет Стандарт файлов sitemap , переведенный на русский язык. И, конечно, раздел «Помощь вебмастеру» .

Зеркала сайтов

Следующий вопрос, о котором хочется поговорить – это зеркала сайтов. Попробуем с ними разобраться. Как правило, любой сайт в интернете доступен по двум адресам: http://www.site.ru и http://site.ru. Для индексирующего робота это два изначально независимых ресурса, они индексируются независимо, и участвуют в поиске независимо друг от друга. Что это значит? Что у одного сайта может быть проиндексировано определенное количество страниц, они будут находиться по таким-то запросам. У второго сайта может быть совсем другая ситуация. И для того, чтобы избежать такого дублирования и перемешки, непонимания, мы используем зеркала сайтов.

Зеркала сайтов – это несколько сайтов, которые обладают одинаковым контентом. В данном случае, это сайты с www или без www, сайты по протоколу https, и адрес сайта на кириллице. Это все распространенные случаи.

Зачем все это нужно? Основная причина, по которой сейчас используются зеркала сайтов – это перенос сайта на новый адрес с сохранением характеристик старого адреса. Например, вы решили сменить доменное имя по каким-либо причинам. Потому что выбрали его 10 лет назад, и сейчас он кажется вам не современным, так как сложно писать пользователям, которые вбивают его в адресную строку, постоянно делают ошибки. Во-вторых, для того, чтобы предотвратить ошибочные переходы по другим адресам.

В первом случае, если мы совершаем переезд с использованием зеркал, мы сохраняем все характеристики старого сайта для нового. Соответственно, мы минимизируем какие-либо возможные проблемы.

Каким образом сайты можно сделать зеркалами?

Допустим ситуацию, что у нас есть два сайта: Сайт А (главное зеркало) и сайт В (не главное зеркало). Сайт А индексируется, участвует в результатах поиска, участвует по запросам. Есть сайт В, сейчас это не главное зеркало, и в выдаче мы его не видим. Мы принимаем решение, что нам нужно включать в результаты поиска именно сайт В. И устанавливаем перенаправление с сайта А на сайт В. Что происходит дальше? Главное наше зеркало (сайт А) перестает участвовать в результатах поиска, потому что сейчас на нем установлено перенаправление и его страницы не доступны для робота. Они начинают исключаться из поисковой выдачи. Сайт В при этом (поскольку является не главным зеркалом) в поиске не участвует, не индексируется и не показывается по каким-либо запросам.

А теперь немного данных из «Яндекс.Метрики». После установки редиректа буквально в течение двух недель страницы сайта начали исключаться из поисковой выдачи, и переходы на сайт снизились. Все это продолжалось до того момента, когда изменился адрес главного зеркала.

Исключение страниц сайта из поисковой выдачи при неправильной работе с зеркалами сайтов.

Типичные ошибки при работе с зеркалами.

Помимо установки редиректа для смены адреса главного зеркала, допускаются еще ряд многочисленных ошибок, основные из которых:

В подобных ситуациях можно открывать раздел на вашем большом ресурсе, после того как эти страницы начнут индексироваться можно установить 301 редирект с вашего маленького сайта на этот раздел. К сожалению, склеить сайты в такой ситуации не получится.

Чтобы сайты могли быть склеены, они должны быть доступны для индексирования и находиться в вашем управлении.

Some robots can disguise themselves as Yandex robots by indicating the corresponding User Agent. You can check the authenticity of a robot using reverse DNS lookup.

Just follow these steps:

Determine the IP address of the user-agent in question using your server logs. All Yandex robots present themselves in the User agent .

Use a reverse DNS lookup of the received IP address to determine the host domain name.

After determining the host name, you can check whether or not it belongs to Yandex. All Yandex robots have names ending in "yandex.ru","yandex.. If the host name has a different ending, the robot does not belong to Yandex.

Finally, make sure that the name is correct. Use a forward DNS lookup to get the IP address corresponding to the host name. It should match the IP address used in the reverse DNS lookup. If the IP addresses do not match it means that the host name is fake.

Yandex robots in server logs

Yandex has many robots that take different forms:

Mozilla/5.0 (compatible; YandexBot/3..

Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://сайт/bots) - Indexing robot.
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.. .
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://сайт/bots) - Determines if the page layout is suitable for mobile devices. Interprets robots.txt in a special way .
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://сайт/bots - Generates dynamic banners, interprets robots.txt in a special way .
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible; YandexScreenshotBot/3.. Interprets robots.txt in a special way .

Mozilla/5.0 (compatible; YandexImages/3.0; +http://сайт/bots) - The indexing robot.

Mozilla/5.0 (compatible; YandexVideo/3..

Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://сайт/bots) - The indexing robot. Interprets robots.txt in a special way .

Mozilla/5.0 (compatible; YandexMedia/3..

Mozilla/5.0 (compatible; YandexWebmaster/2..

Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://сайт/bots)- The robot that validates markup submitted through the form.

Mozilla/5.0 (compatible; YandexImageResizer/2..

Mozilla/5.0 (compatible; YaDirectFetcher/1.. This is necessary for ad placement in the search results and on the partner sites. When crawling a site, the robot does not use the robots.txt file and ignores the directives set for it.

Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://сайт/bots) - The Yandex.Calendar robot used for syncing with other calendars. Interprets robots.txt in a special way .

Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://сайт/bots) - The sitelinks “fetcher” used for checking the availability of the pages detected as sitelinks.

Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://сайт/bots) - The robot. Interprets robots.txt in a special way ., Yandex.Job , Yandex.Reviews.

There are many IP addresses that Yandex robots can “originate” from, and these addresses change frequently. We are therefore unable to offer a list of IP addresses and we do not recommend using a filter based on IP addresses.