Поисковые роботы — пауки Google ( Googlebot )

Под этим термином понимаются любые программы, которые автоматически обнаруживают и сканируют сайты, переходя по ссылкам от страницы к странице. Наш основной поисковый робот называется Googlebot. В таблице ниже приведены сведения об основных поисковых роботах Google, регистрируемых в журналах источников ссылок. Также из таблицы вы узнаете, как указывать этих роботов в файле robots.txt, в метатегах robots и в HTTP-директивах X-Robots-Tag.

Поисковые роботы, перечисленные ниже, применяются продуктами и сервисами Google:

Токен агента пользователя указывается в строке User-agent: файла robots.txt и используется при создании правил сканирования для определенных поисковых роботов. Как видно из таблицы, некоторым роботам соответствует более одного токена. Для применения правила достаточно написать один вариант. Приведенный ниже перечень не является исчерпывающим, но содержит информацию о наиболее распространенным роботах.
Полная строка агента пользователя – это полное описание поискового робота. Оно указывается в запросах и журналах.
Не всегда робот сообщает правильную информацию о себе. Убедиться в том, что на вашем сайте был именно робот Googlebot, можно с помощью обратного DNS-запроса.
Поисковый робот Токен агента пользователя (продукта Google) Полная строка агента пользователя
APIs-Google
APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense
Mediapartners-Google

Mediapartners-Google
AdsBot Mobile Web Android

(проверяет качество рекламы на веб-страницах, предназначенных для устройств Android)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot Mobile Web

(проверяет качество рекламы на веб-страницах, предназначенных для устройств iOS)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot

(проверяет качество рекламы на веб-страницах, предназначенных для компьютеров)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Images
Googlebot-Image
Googlebot
Googlebot-Image/1.0
Googlebot News
Googlebot-News
Googlebot
Googlebot-News
Googlebot Video
Googlebot-Video
Googlebot
Googlebot-Video/1.0
Googlebot (сайты для обычных компьютеров)

Googlebot

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z‡ Safari/537.36

ИЛИ (в некоторых случаях):

Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot (сайты для мобильных устройств)

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mobile AdSense
Mediapartners-Google

(Могут указываться различные типы мобильных устройств) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Mobile Apps Android

(проверяет качество рекламы в приложениях для устройств Android, действует в соответствии с теми же правилами, что и Google AdsBot)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps
Feedfetcher

FeedFetcher-Google

Не учитывает правила в файле robots.txt. Подробнее…

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

Не учитывает правила в файле robots.txt.

Текущая версия:
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
Прежняя версия (больше не поддерживается):
google-speakr
Duplex on the Web
DuplexWeb-Google

Может игнорировать подстановочный знак *. Подробнее…

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36
Google Favicon

Получает значки для различных сайтов.

Google Favicon

В случае пользовательских запросов игнорирует правила в файле robots.txt.

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Тег ‡ Chrome/W.X.Y.Z в строках агентов пользователей
В строках, которые содержат элемент Chrome/W.X.Y.Z, сочетание символов W.X.Y.Z является меткой-заполнителем для версии браузера Chrome, используемой агентом пользователя. Пример: 41.0.2272.96. Это значение соответствует последней версии Chromium, используемой роботом Googlebot, и поэтому со временем оно будет возрастать.

Мы рекомендуем при поиске агента пользователя в журнале или на сервере не указывать точное значение версии, а использовать подстановочные знаки.

Агенты пользователя в файлах robots.txt
Если в файле robots.txt указаны инструкции для нескольких агентов пользователя, робот Google выполнит наиболее строгие из них. Если вы хотите, чтобы наши роботы могли сканировать ваш сайт полностью, этот файл вообще не нужен. Чтобы запретить или разрешить всем поисковым роботам Google доступ к тому или иному контенту, укажите в качестве агента пользователя Googlebot. Так, если вам нужно, чтобы все страницы сайта отображались в результатах поиска Google, а также чтобы на страницах отображались объявления AdSense, не используйте файл robots.txt. Если нужно закрыть некоторые разделы для всех роботов Google, сделайте это для агента пользователя Googlebot. Это приведет к блокировке всех остальных роботов.

Вы также можете указывать специальные правила для определенных агентов пользователя. Предположим, вам нужно, чтобы все страницы вашего сайта отображались в Google Поиске, но при этом хотите запретить сканирование изображений, находящихся в личном каталоге. В таком случае в файле robots.txt запретите агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal. При этом робот Googlebot по-прежнему будет иметь доступ к файлам во всех каталогах. Запись должна выглядеть следующим образом:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
Рассмотрим другой пример. Вы хотите разместить рекламу на всех страницах, но они при этом не должны отображаться в Google. Для этого заблокируйте доступ к содержанию агенту пользователя Googlebot, но оставьте его доступным агенту пользователя Mediapartners-Google следующим образом:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:
Агенты пользователя в метатегах robots
Некоторые страницы содержат несколько тегов meta, в которых указаны инструкции для различных поисковых роботов. Примеры:

<meta name=»robots» content=»nofollow»><meta name=»googlebot» content=»noindex»>
В этом случае Google будет использовать все запрещающие инструкции, а Googlebot выполнит обе директивы: noindex и nofollow.

 

Проверьте также

10 способов повысить количество заказов на вашем сайте

10 способов повысить количество заказов на вашем сайте

Создайте на своем сайте каталог бесплатных электронных книг по теме, прямо относящейся к тематике Вашего …

Добавить комментарий

Ваш адрес email не будет опубликован.