Виталий Манн
4 Ноя в 07:15
802 просмотров
2 минут
Что такое robots.txt
Содержание
Нет времени читать статью?

Но вам требуется продвижение сайта или создание сайта-лидера, идеального для SEO? Тогда вы можете оставить заявку на продвижение или заявку на создание сайта. Если вы собираетесь продвигать сайт самостоятельно — продолжайте чтение!

Файл robots.txt — специальный текстовый документ, в котором содержатся инструкции по индексации определенного веб-ресурса в поисковых системах (ПС). Простыми словами роботс тхт “говорит” роботам ПС, какие именно разделы сайта необходимо индексировать, а какие нужно “обойти стороной”. Вот, что такое robots.txt.

Поисковый бот (робот) любой ПС заходя на ваш сайт в первую очередь ищет и изучает robots.txt. Если он не обнаружит этот файл или роботс тхт будет настроен неправильно, робот начнет работать с сайтом на свое усмотрение и не факт, что начнет он именно с тех страниц, которые вам нужно получить в выдаче в первую очередь.

Зачем нужен robots.txt

Конечно, нет никакой гарантии, что если вы грамотно оформите инструкции в robots.txt, то поисковые боты обязательно “послушаются” всем его рекомендациям и “нужные” части ресурса отправят в выдачу, а “ненужные” нет. Но, с наличием этого файла на сайте шанс, что роботы “послушаются” значительно возрастает. Здесь все так же, как и составлением метатега description.

Что включает правильный robots.txt

Во-первых, файл обязательно должен иметь название “robots.txt” строчными буквами. Во-вторых, он должен быть расположен по адресу https://site.ru/robots.txt. В-третьих, у роботс тхт не должно быть копий. 

Кроме того, правильно настроенный robots.txt для сайта должен:

  1. Иметь статус ответа сервера 200 OK.
  2. Размер документа не должен быть более 32Kb для Яндекса и 500Kb для Google.
  3. Внутри файла все инструкции должны быть прописаны на латинице.
  4. Каждый префикс URL-а должен быть прописан с новой строки.

Ну а состоит этот файл из нескольких важных директив и команд:

  • User-agent. Ключевая директива, которая применяется для указания инструкций боту конкретной поисковой системы.
  • Disallow. Команда, запрещающая индексировать определенную часть сайта. К примеру, указав на своем сайте “Disallow: /wp-admin”, вы запретите поисковым ботам индексировать папку “/wp-admin”.
  • Allow. Директива, которая разрешает индексировать определенную часть сайта. В реальности эта директива используется довольно редко, ведь она применяется автоматически для всех URL-ов, у которых нет директивы Disallow.
  • Sitemap. Указывает роботу ПС, где находится карта сайта. Как показывает практика, указывать в роботс тхт путь к карте вашего сайте просто необходимо, ведь это положительно сказывается на скорости индексации ресурса.

Как составить robots.txt и какие действия предпринимать дальше

Здесь все зависит от каждого конкретного сайта и дать исчерпывающий универсальный ответ на этот счет нельзя. Лучше обратитесь к нам, и мы настроим ваш роботс тхт, опираясь на конкретные особенности именно вашего веб-ресурса.

А как только настройка robots.txt будет завершена, вам необходимо проверить корректность файла на бесплатных онлайн-сервисах по типу. Далее останется лишь ждать, пока на ресурс придут боты ПС, просканируют ваш роботс тхт и начнут индексировать нужный вам контент.

Если же вы хотите знать, как посмотреть robots.txt чужого сайта, то здесь все очень просто — достаточно добавить к основному домену сайта приставку /robots.txt и нажать “Enter”. То есть, у вас должна получится ссылка по типу site.com/robots.txt. И никогда не пренебрегайте настройкой этого файла, ведь он такой же важный, как метатег title или description.

9

Добавить комментарий

Ваш адрес email не будет опубликован.

одиннадцать + четыре =

  • Сделал бы акцент на том, что это все таки рекомендация, закрывать самое тайное нужно паролями.

    И не пхайте в роботс всё подряд! Если у вас много страниц для закрытия – подумайте, может что-то не так с сайтом?
    Ну это так, из опыта, наболевшее.

    А статья четкая. Спасибо!

    1. С одной стороны вы правы, а с другой стороны часто бывает так, что у сайта нужно еще много чего закрывать из-за того, что изначально «в коробке» есть проблемные места, и разработчики не учли эти моменты.

  • Все красиво и внятно рассказал, что слов нет, стопятьсот тебе в карму!!!

  • Подскажите, пожалуйста, что означает, если в команде User-Agent не указано ничего? Т.е. нет ни *, ни имени робота, просто пусто.

    1. В строке с описанием User Agent содержится следующая информация:

      Название и версия браузера.
      Язык.
      Версия операционной системы.
      Программное обеспечение, установленное на используемом устройстве.
      Тип устройства, с которого пользователь зашел на сайт.

      Если указывают *, значит работает для всех, то есть общий вариант всем.

  • Тоже мне профессионалы своего дела, даже не показали примеров, как правильно сделать, какие типы можно заполнить

    1. Добрый день, racie.

      А как сделать и показать вам параметры и примеры, когда все индивидуально и местами многие не используют этого. А современные CMS уже имеют всегда под свой движок свои стандартные настройки. Дальше уже сеошник или вебмастер сам решает, как правильно заполнить данные и что запрещать к индексу.