Что такое robots.txt

Robots.txt — служебный файл, который необходим для закрытия доступа к некоторым частям сайта. В качестве этих частей может выступать следующее: администраторская панель, картинки, различные медиафайлы, служебные дериктории, панель авторизации, папка тем, плагинов и так далее. В этом списке есть все, что не нужно обычному пользователю (посетителю). То есть команды, прописанные в robots.txt определяют то, что будет индексироваться в поисковых системах. Если пользователь увидит в поисковике сайт, название которого будет wp-content/plugins, а он искал, например, книги по кулинарии, то на вряд ли он вообще заинтересуется вашим проектом и выберет другой сайт. Этот файл позволяет избежать такой ситуации.

Существуют поисковые роботы, которые сканируют ваш сайт и собирают с него данные, затем эту информацию заносят в базу. Имена роботов разные, для яндекса — это Yandex.bot, для Google — googlebot. Кстати, механизм сканирования файла robots.txt у последнего претерпел небольших изменений: теперь в панели Google Webmaster Tools во вкладке «Сканирование» можно увидеть рекомендации Google по настройке robots.txt. То есть робот автоматически будет искать проблемные строки в файле и отправлять их на анализ в панель вебмастера, где владелец сайта решит — применить изменения, предлагаемые Google, или оставить все, как есть. Это будет полезной функцией для начинающих вебмастеров.

Как создать файл robots.txt

Создаем обычный текстовый документ и называем его robots. Где «.txt» — это расширение файла.
Сейчас мы рассмотрим самые основные команды для ботов поисковых систем (ПС).

1. robots.txt всегда начинается с «User-agent:». При запросе файла бот ПС получает ответы от сервера, которые пронумерованы. Если ответ от сервера приходит отличный от «200», то это означает, что доступ к файлу не ограничен и робот может просматривать абсолютно все дериктории сайта. Запись «User-agent:  *» означает, что файл написан для всех роботов ПС. Если запись такая: «User-agent: Yandex», то все следующие записи будут относиться только к YandexBot. Вместо «Yandex» может стоять любая другая ПС, например, Google или Yahoo.

2. Команда «Disallow:». С английского это переводится как «не позволять». В принципе, перевод говорит сам за себя. Эта команда не позволяет сканировать роботу прописанные ниже дериктории. Заносить эту запись в файл нужно так: «Disallow: /» или «Disallow: /cgi-bin» (будьте внимательны, записи вводятся без кавычек!). Первая запись означает, что роботу ПС запрещено сканировать весь сайт. Вторая — что запрещено сканировать и загонять в индекс папку «cgi-bin».

4. Команда «Allow:». С английского — позволить. Обычно эта команда прописывается вместе с «Disallow:». Например:

User-agent: *
Allow: /wp-com
Disallow: /

Такой robots.txt означает, что разрешены к индексации все разделы/папки, которые есть в директории «wp-com».

В отдельности можно прописывать команды для разных роботов ПС — отдельно для Яндекса, отдельно для Гугл. Например так:

User-agent: Yandex
Disallow: /
User-agent: Google
Allow: /

Такой robots.txt обозначает следующее: для YandexBot запретить сканирование ВСЕХ страниц сайта, а для GoogleBot разрешить индексацию ВСЕХ разделов сайта. То есть можно также прописать команды для YahooBot, BingBot и так далее.

Карта сайта в robots.txt

Очень важно вставить ссылку на карту сайта в этот файл, так как робот ПС регулярно отправляет данные с сайта в базу поисковиков. Так как robots часто проверяют, есть смысл вставить ссылку на карту сайта, которая должна автоматически обновляться (по мере появления новых страниц на сайте). Внедрять ее очень просто, для этого прописываем следующее:

Sitemap: http://www.ваш-сайт.kz/sitemap.xml

Еще одна очень важная вещь — это последовательность команд. Составляйте robots.txt строго в той последовательности, которая задана в этой статье. То есть запись вида:

Disallow: /
User-agent: *

будет неправильной! Сначала указываем для кого написан этот robots.txt, а уже потом остальные команды.

Если у вас возникли вопросы или вы что-то не поняли, пишите в комментарии, я отвечу вам как можно скорее и в понятной форме.