Нет времени читать статью?
Но вам требуется продвижение сайта или создание сайта-лидера, идеального для SEO? Тогда вы можете оставить заявку на продвижение или заявку на создание сайта. Если вы собираетесь продвигать сайт самостоятельно — продолжайте чтение!
Файл robots.txt — специальный текстовый документ, в котором содержатся инструкции по индексации определенного веб-ресурса в поисковых системах (ПС). Простыми словами роботс тхт “говорит” роботам ПС, какие именно разделы сайта необходимо индексировать, а какие нужно “обойти стороной”. Вот, что такое robots.txt.
Поисковый бот (робот) любой ПС заходя на ваш сайт в первую очередь ищет и изучает robots.txt. Если он не обнаружит этот файл или роботс тхт будет настроен неправильно, робот начнет работать с сайтом на свое усмотрение и не факт, что начнет он именно с тех страниц, которые вам нужно получить в выдаче в первую очередь.
Зачем нужен robots.txt
Конечно, нет никакой гарантии, что если вы грамотно оформите инструкции в robots.txt, то поисковые боты обязательно “послушаются” всем его рекомендациям и “нужные” части ресурса отправят в выдачу, а “ненужные” нет. Но, с наличием этого файла на сайте шанс, что роботы “послушаются” значительно возрастает. Здесь все так же, как и составлением метатега description.
Что включает правильный robots.txt
Во-первых, файл обязательно должен иметь название “robots.txt” строчными буквами. Во-вторых, он должен быть расположен по адресу https://site.ru/robots.txt. В-третьих, у роботс тхт не должно быть копий.
Кроме того, правильно настроенный robots.txt для сайта должен:
- Иметь статус ответа сервера 200 OK.
- Размер документа не должен быть более 32Kb для Яндекса и 500Kb для Google.
- Внутри файла все инструкции должны быть прописаны на латинице.
- Каждый префикс URL-а должен быть прописан с новой строки.
Ну а состоит этот файл из нескольких важных директив и команд:
- User-agent. Ключевая директива, которая применяется для указания инструкций боту конкретной поисковой системы.
- Disallow. Команда, запрещающая индексировать определенную часть сайта. К примеру, указав на своем сайте “Disallow: /wp-admin”, вы запретите поисковым ботам индексировать папку “/wp-admin”.
- Allow. Директива, которая разрешает индексировать определенную часть сайта. В реальности эта директива используется довольно редко, ведь она применяется автоматически для всех URL-ов, у которых нет директивы Disallow.
- Sitemap. Указывает роботу ПС, где находится карта сайта. Как показывает практика, указывать в роботс тхт путь к карте вашего сайте просто необходимо, ведь это положительно сказывается на скорости индексации ресурса.
Как составить robots.txt и какие действия предпринимать дальше
Здесь все зависит от каждого конкретного сайта и дать исчерпывающий универсальный ответ на этот счет нельзя. Лучше обратитесь к нам, и мы настроим ваш роботс тхт, опираясь на конкретные особенности именно вашего веб-ресурса.
А как только настройка robots.txt будет завершена, вам необходимо проверить корректность файла на бесплатных онлайн-сервисах по типу. Далее останется лишь ждать, пока на ресурс придут боты ПС, просканируют ваш роботс тхт и начнут индексировать нужный вам контент.
Если же вы хотите знать, как посмотреть robots.txt чужого сайта, то здесь все очень просто — достаточно добавить к основному домену сайта приставку /robots.txt и нажать “Enter”. То есть, у вас должна получится ссылка по типу site.com/robots.txt. И никогда не пренебрегайте настройкой этого файла, ведь он такой же важный, как метатег title или description.
А можно какой-то проверенный вариант для WordPress?
Добрый день, да можно. В ближайшее время постараемся выложить. Спасибо, что задали вопрос в комментариях!
Сделал бы акцент на том, что это все таки рекомендация, закрывать самое тайное нужно паролями.
И не пхайте в роботс всё подряд! Если у вас много страниц для закрытия – подумайте, может что-то не так с сайтом?
Ну это так, из опыта, наболевшее.
А статья четкая. Спасибо!
С одной стороны вы правы, а с другой стороны часто бывает так, что у сайта нужно еще много чего закрывать из-за того, что изначально «в коробке» есть проблемные места, и разработчики не учли эти моменты.
Все красиво и внятно рассказал, что слов нет, стопятьсот тебе в карму!!!
Подскажите, пожалуйста, что означает, если в команде User-Agent не указано ничего? Т.е. нет ни *, ни имени робота, просто пусто.
В строке с описанием User Agent содержится следующая информация:
Название и версия браузера.
Язык.
Версия операционной системы.
Программное обеспечение, установленное на используемом устройстве.
Тип устройства, с которого пользователь зашел на сайт.
Если указывают *, значит работает для всех, то есть общий вариант всем.
Тоже мне профессионалы своего дела, даже не показали примеров, как правильно сделать, какие типы можно заполнить
Добрый день, racie.
А как сделать и показать вам параметры и примеры, когда все индивидуально и местами многие не используют этого. А современные CMS уже имеют всегда под свой движок свои стандартные настройки. Дальше уже сеошник или вебмастер сам решает, как правильно заполнить данные и что запрещать к индексу.