Файл robots.txt – это стандартный текстовый файл на http-сервере с инструкциями для поисковых роботов. Он используется для того, чтобы указать поисковым машинам как правильно выполнить сканирование сайта. Файл robots.txt должен находиться в корне сайта (например, иметь адрес http://24hit.com/robots.txt). Если сайт имеет несколько поддоменов – необходимо их правильно прописать. Обычно для каждого поддомена создают отдельный файл роботс.
Как создать файл robots.txt (пример).
Ниже представлен простой пример файла роботс с запретом индексации одной директории сайта для определенного бота поисковой системы. В данном файле запрещен доступ бота Google к директории /hidden. При этом другие роботы поисковых систем будут иметь доступ ко всему сайту. Атрибутом Sitemap указан адрес расположения карты сайта.
User-agent: Googlebot Disallow: /hidden/ Sitemap: http://www.24hit.com/sitemap.xml
В файле robots.txt можно указать также разделы или страницы сайта, которые поисковый робот должен пропустить и не анализировать, т.е. закрыть от индексирования сайт или определенные страницы сайта.
Используя инструкции в файле robots.txt можно также блокировать сканирование изображений, видео, скрипты и стилм на сайте.
В следующем примере мы запретили доступ всех поисковых ботов к директориям cgi-bin и tmp.
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Sitemap: http://www.24hit.com/sitemap.xml
Образец файла robots.txt для WordPress может выглядеть следующим образом:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Sitemap: http://www.24hit.com/sitemap.xml
Обратите внимание! Иногда, даже после запрета индексации файла или директории сайта в файле robots.txt, это содержимое все же может быть проанализировано, если на других страницах сайта есть ссылка на него. В данном случае, мы рекомендуем использовать блокировку при помощи директивы noindex. Для этого можно вставить тег
<meta name="robots" content="noindex">
Как запретить доступ всех поисковых систем к сайту (пример).
User-agent: * Disallow: /
Как запретить доступ поискового робота Гугл к части сайта (пример). Например, к разделу сайта /hidden/.
User-agent: googlebot Disallow: /hidden/
Как запретить доступ поисковых систем к определенной директории, но разрешить доступ к конкретному файлу в данной директории (пример). Например, запретить доступ к разделу сайта /hidden/, но разрешить доступ к файлу /hidden/file.html.
Allow: /hidden/file.html Disallow: /hidden/
Как запретить доступ поискового робота Гугл ко всем изображениям на сайте (пример).
User-agent: Googlebot-Image Disallow: /
После создания файла robots.txt мы рекомендуем его проверить на наличие ошибок:
В сервисе Гугл Вебмастерс – http://google.com/webmasters/tools/?hl=ru
В сервисе Яндекс Вебмастер – http://webmaster.yandex.ru/robots.xml