Для чего нужен файл robots.txt? Прежде всего, позволю небольшое отступление. Даже начинающий вебмастер знает, насколько важна стадия раскрутки сайта. Ваш сайт может иметь превосходный дизайн и уникальный контент, но при этом быть не слишком узнаваемым среди интернет-сообщества.


Поисковые системы (прежде всего Яндекс и Google) – это один из тех механизмов, которые способны сообщить пользователям о существовании вашего ресурса. Однако беда в том, что сайт может не выдаваться на тех позициях, на которых его ожидали увидеть. Виной тому может быть много причин, но в любом случае процесс индексации сайта – это та стадия, от которой зависит очень много.


Было бы хорошо, если индексация поисковыми системами имела хоть сколь управляемый характер со стороны пользователя. Действительно, некоторые страницы просто нежелательны к индексации, какие-то по части особенностей информации, другие из-за появления дублей. И наоборот может возникнуть необходимость указать исключения среди запретов на индексацию, в общем, всем стало хорошо, если у пользователя появился механизм воздействия на процесс индексации своего сайта.


Вот как раз для управления процессом индексации сайта в поисковых системах со стороны вебмастера и служит файл robots.txt. Постепенно данный файл стал стандартом де-факто и давно поддерживается всеми основными поисковыми системами. Файл robots.txt должен лежать обязательно в корне сайта, файлы robots.txt, лежащие в директориях игнорируются. Поисковый робот считывает файл robots.txt из корня и пытается следовать правилам, записанным в него. Таким образом, процесс индексации не носит абсолютно стихийный характер и является в некоторой степени управляемым со стороны владельца ресурса. С помощью robots.txt можно запретить поисковому роботу индексацию директории или же наоборот разрешить директорию для индексации, указать поисковой системе адрес карты сайта, определить основное зеркало и т.д.


Следует подчеркнуть, что директивы файла robots.txt носят характер предписаний, но в общем случае гарантированно не запрещают ботам индексацию тех или иных частей сайта. Тем не менее, при условии отсутствия ошибок основные поисковые системы соответствуют правилам, заданным в robots.txt, чего нельзя сказать о других ботах. Поэтому если желаете спрятать от ботов какую-то часть сайта, не стоит полагаться на robots.txt, а следует запретить доступ другим, уже более надёжным способом.


Файл robots.txt имеет обычный текстовый формат и должен соответствовать определённым требованиям синтаксиса. Создать robots.txt можно в любом текстовом редакторе, я рекомендую использовать для редактирования robots.txt Notepad2 или Notepad++. При этом надо помнить, что любая ошибка может привести к таким последствиям, как неожиданная индексация или вообще выпадение нужных страниц сайта из индекса поисковой системы. Не забудьте ещё, что файл должен называться именно robots.txt , и никак иначе, то есть обязательно все буквы в названии должны быть строчными. Для большинства серверов заглавные буквы и строчные – совершенно различные символы, это нужно учитывать при заливке robots.txt на хостинг.


Но у страха глаза велики, в структуре robots.txt ничего сложного нет, поэтому Вы довольно быстро ухватите суть и научитесь составлять свой robots.txt, а также оптимизировать его под свою CMS (систему управления сайтом). В крайнем случае всегда можно подсмотреть, как выглядит robots.txt того или иного сайта, он всегда находится в корне домена. Например, если адрес сайта http://www.myrobotstxt.ru/ , то robots.txt располагается по ссылке http://www.myrobotstxt.ru/robots.txt. Кроме всего прочего, основные вопросы по robots.txt собраны в наш FAQ, а для создания своего robots.txt и его оптимизации Вам всегда помогут инструменты вебмастера от Яндекса и Google.


Перед тем, как завершить введение в robots.txt, необходимо сделать одно важное замечание. Если robots.txt из корня сайта не доступен для робота, то считается, что никаких запретов на индексацию нет, и к индексации разрешаются все страницы, которые робот способен обнаружить. Данная ситуация может возникнуть не только в том случае, если robots.txt отсутствует в корне сайта, но и когда чтение robots.txt для поисковых роботов запрещено правами на этот файл со стороны сервера.