Создание файла robots.txt

Файл robots.txt – это стандартный текстовый файл на http-сервере с инструкциями для поисковых роботов. Он используется для того, чтобы указать поисковым машинам как правильно выполнить сканирование сайта. Файл robots.txt должен находиться в корне сайта (например, иметь адрес http://24hit.com/robots.txt). Если сайт имеет несколько поддоменов – необходимо их правильно прописать. Обычно для каждого поддомена создают отдельный файл роботс.

Как создать файл robots.txt (пример).

Ниже представлен простой пример файла роботс с запретом индексации одной директории сайта для определенного бота поисковой системы. В данном файле запрещен доступ бота Google к директории /hidden. При этом другие роботы поисковых систем будут иметь доступ ко всему сайту. Атрибутом Sitemap указан адрес расположения карты сайта.

User-agent: Googlebot
Disallow: /hidden/

Sitemap: http://www.24hit.com/sitemap.xml

В файле robots.txt можно указать также разделы или страницы сайта, которые поисковый робот должен пропустить и не анализировать, т.е. закрыть от индексирования сайт или определенные страницы сайта.

Используя инструкции в файле robots.txt можно также блокировать сканирование изображений, видео, скрипты и стилм на сайте.

В следующем примере мы запретили доступ всех поисковых ботов к директориям cgi-bin и tmp.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

Sitemap: http://www.24hit.com/sitemap.xml

Образец файла robots.txt для WordPress может выглядеть следующим образом:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Sitemap: http://www.24hit.com/sitemap.xml

 

Обратите внимание! Иногда, даже после запрета индексации файла или директории сайта в файле robots.txt, это содержимое все же может быть проанализировано, если на других страницах сайта есть ссылка на него.  В данном случае, мы рекомендуем использовать блокировку при помощи директивы noindex. Для этого можно вставить тег

<meta name="robots" content="noindex">

Как запретить доступ всех поисковых систем к сайту (пример).

User-agent: *
Disallow: /

Как запретить доступ поискового робота Гугл к части сайта (пример). Например, к разделу сайта /hidden/.

User-agent: googlebot
Disallow: /hidden/

Как запретить доступ поисковых систем к определенной директории, но разрешить доступ к конкретному файлу в данной директории  (пример). Например, запретить доступ к разделу сайта /hidden/, но разрешить доступ к файлу /hidden/file.html.

Allow: /hidden/file.html
Disallow: /hidden/

Как запретить доступ поискового робота Гугл ко всем изображениям на сайте (пример).

User-agent: Googlebot-Image
Disallow: /

После создания файла robots.txt мы рекомендуем его проверить на наличие ошибок:

В сервисе Гугл Вебмастерс – http://google.com/webmasters/tools/?hl=ru

В сервисе Яндекс Вебмастер – http://webmaster.yandex.ru/robots.xml