Файл robots.txt
позволяет ограничить доступ к сайту для роботов поисковых систем,
сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл
robots.txt, который запрещает им доступ к определенным страницам.
(Роботы наиболее распространенных поисковых систем выполняют директивы
файла robots.txt. Некоторые роботы могут интерпретировать их иначе. Файл
robots.txt не является обязательным к исполнению, и некоторые спамеры и
другие злоумышленники могут его игнорировать. Поэтому мы рекомендуем
защищать конфиденциальную информацию паролем.)
Чтобы просмотреть список URL, которые Google не удалось просканировать, перейдите на страницу Заблокированные URL в разделе Состояние в Инструментах для веб-мастеров.
Файл robots.txt необходим только в том случае, если на вашем сайте
есть содержание, которое не следует включать в индекс поисковых систем.
Если вы хотите, чтобы поисковые системы включали в свои индексы все
содержание вашего сайта, файл robots.txt (даже пустой) не требуется.
Хотя Google не сканирует и не индексирует содержание страниц,
заблокированных в файле robots.txt, URL, обнаруженные на других
страницах в Интернете, по-прежнему могут добавляться в индекс. В
результате URL страницы, а также другие общедоступные сведения, например
текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.
Чтобы использовать файл robots.txt, необходимо иметь доступ к
корневому каталогу вашего домена (в случае сомнений обратитесь к
поставщику услуг веб-хостинга). Если у вас нет доступа к корневому
каталогу домена, вы можете ограничить доступ с помощью метатега robots.
Чтобы полностью исключить вероятность появления
контента страницы в индексе Google, даже если на нее ссылаются другие
сайты, используйте метатег noindex или x-robots-tag.
По мере сканирования страниц, робот Googlebot обнаружит метатег noindex
и не станет отображать страницу в индексе. HTTP-заголовок x-robots-tag
рекомендуется использовать, чтобы исключить из индекса файлы, формат
которых отличается от HTML (например, изображения или другие типы
документов).
|