Дневник Предпринимателя "inDV"
УстановитеFlash player
On-Line Радио от автора Дневника Предпринимателя "inDV" для действующих и начинающих предпринимателей и бизнесменов.

Формат радиостанции: All Talk

Жанры: House, Trap, Dubstep, Drum&Bass

Сейчас в эфире: Загрузка ...

  • Подписаться на статьи

    Введите свой Email-адрес:

    Подписавшись, вы будете получать все новые статьи себе на почту сразу после их публикации.
Рубрики: SEO, Продвижение | Интернет-Бизнес | 28.10.2016 | 09:16 | 155 Просмотров

Как правильно составить robots.txt

Доброго времени суток, уважаемые коллеги, читатели и подписчики! В сегодняшней статье я решил задеть тему, которая будет интересна всем владельцам сайтов. Если вы в интернет-бизнесе, то невозможно не знать про такой инструмент, как robots.txt. Как он влияет на оценку сайта поисковыми роботами, для чего он нужен, как он работает и как правильно составить robots.txt – все это сегодня будет скомпоновано в этой статье. А теперь приступим.

На самом деле, даже я долгое время не знал, как правильно составить robots.txt, я не понимал, за что отвечает та или иная директива, но со временем опыт взял свое и даже у меня robots.txt теперь идеален. Как я это понял? Да просто я знаю теперь, что за что отвечает и грамотность индексации страниц не подвела, значит, все сделано правильно.

Перед основой сегодняшней статьи хочу от себя добавить, что факт добавления файла robots.txt обеспечил моему сайту грамотную индексацию, в результате чего в поисковых системах обнаружены только те страницы, которые должны находиться моими потенциальными читателями и клиентами. Думаю, стоит начать.

Что такое robots.txt и как он работает?

Итак, что такое robots.txt? Определение несложное. Robots.txt – это обыкновенный текстовый файл (файл блокнота), в который прописываются параметры индексирования для поисковых машин отдельных страниц или целых директорий. Следует понимать, что отсутствие этого файла в директории вашего сайта даст поисковым роботам возможность индексировать все, что есть на вашем сайте, от мусора, дублей страниц, до страниц с комментариями, навигацией и поиском. Поверьте моему опыту, в будущем это может плохо сказаться на вашем сайте: могут быть наложены фильтры со стороны Google и Яндекс, что еще страшней, полный выброс вашего сайта из поиска. Собственно, чтобы это не случилось, нам нужно разрешить роботам нужное для индексации и запретить роботам ненужное – так он и работает.

Правила:

  • Находиться файл robots.txt должен непосредственно в главной директории вашего сайта и открываться по ссылке: www.ваш-сайт.ru/robots.txt
  • Создать файл можно, как в блокноте, так и в файловом хранилище вашего сайта
  • Параметры индексации лучше прописывать для каждого робота отдельно: Googlebot, Googlebot-Image, YandexBot, YandexMedia, YandexImages и т.д. (о них и других роботах подробнее ниже)

После создания robots.txt, желательно их проверить в Яндекс Вебмастере и Google.

Обозначения директивов

Настало время для распределения понятий, чтобы вы понимали, что за что отвечает, а не копировали готовый, чтобы ответить на сегодняшний вопрос “Как правильно составить robots.txt“, как делают многие. Даже я, когда изучал этот момент, ходил по множеству блогов, предлагающих готовый файл к скачиванию, скачивал, а они были настолько разные, что наводило на мысль: “Вы там че ох****ли все?”, ну, это было года три назад. Сегодня лучше составлять его своими ручками, ведь у всех сайты разные, правильно? Вот и начнем, правда, пока с определений.

Роботы

  1. YandexBot – это робот поиска Яндекс, который заходит на сайт с целью обнаружения новых страниц;
  2. YandexMedia – это тоже робот Яндекс, он индексирует медиафайлы: видео, аудио;
  3. YandexImages – это тоже робот Яндекс, но он приходит на сайт за картинками;
  4. Googlebot – это робот поиска Google, который заходит на сайт с целью обнаружения новых страниц;
  5. Googlebot-Image – это тоже робот Google, но он приходит на сайт за картинками;
  6. Mediapartners-Google – это робот Google Adsense.

Есть еще несколько роботов от Яндекса, но они не так важны для сайта на WordPress или сайта, работающего на любой другой системе управления, о них в этой статье мы говорить не будем, ведь речь о блогах, информационных порталах и познавательных интернет-энциклопедиях. Далее поговорим о директивах, которые существуют.

Директивы и Спецсимволы

  1. Disallow – директива, запрещающая индексацию;
  2. Allow – директива, запрещающая индексацию;
  3. User-agent – обращение к определенному виду роботов;
  4. * – обозначение последующей директории страниц или файлов;
  5. $ – обозначение определенного вида последующей директории страниц или файлов;
  6. Sitemap – директива, предоставляющая путь к карте сайта;
  7. Host – директива, определяющая главное зеркало сайта.

Все, остальные директивы и специальные символы нам не понадобятся, хоть их и более сотни.

Дополню этот аспект информацией, которую от меня часто требуют через обратную связь. Мне за последние полгода уже 14 раз приходил один и тот же вопрос: “Можно ли с помощью robots.txt заблокировать доступ плохим роботам, которые приходят на сайт с целью обнаружения уязвимостей?”, отвечу здесь. Теоретически – да, на практике – нет. “Да” заключается только в том, что все роботы подчиняются этому файлу, “Нет” – в том, что названия их мы не все знаем, поэтому, если не прописать его имя под директивой User-agent: “…плохой робот…”, то он спокойно проскочит на ваш сайт, как ни крути.

Как правильно составить robots.txt

Как правильно составить robots.txt? Давайте перейдем к самому главному. Я буду делать опор на свой сайт, но буду пояснять каждое действие, чтобы каждый смог понять, что я делаю и как подойти к логичному итогу.

Итак, открываем блокнот.

Открываем блокнот

А теперь открываем директорию сайта.

Открываем директорию сайта

Yandex

И начинаем, пожалуй, с Яндекса. Я не буду относить содержимое к какому-то определенному роботу, оставлю общий для Яндекса. В моем случае получается следующее:

  1. User-agent: Yandex # Только для индексируемого робота Яндекс
  2. Disallow: /cgi-bin # Эта директория всегда должна быть закрыта от индексации
  3. Disallow: /wp-admin # Эта административная директория, поэтому тоже всегда должна быть закрыта от индексации
  4. Disallow: /wp-includes # Эта директория содержит админ-данные, она тоже закрыта от индексации
  5. Disallow: /radio # Эта директория создана мной, там компоненты радиоплеера и потоков, они в поиске быть не должны, тоже закрыты
  6. Disallow: /strategy/style # Там находятся файлы, составляющие дизайн отдельной страницы, созданной специально для стратегий развития бизнеса, можете посмотреть пример, директория тоже закрыта от индексации
  7. Disallow: /statistic # Закрытая директория со статистикой с количеством статей, вложений средств, тиц и т.д. (смотрите в правой боковой колонке снизу)
  8. Disallow: /wp-content/plugins # ↓
  9. Disallow: /wp-content/cache # ↓
  10. Disallow: /wp-content/themes # Плагины, шаблон дизайна сайта… – все это также закрывается от индексации
  11. Disallow: /trackback # ↓
  12. Disallow: */trackback # ↓
  13. Disallow: */*/trackback # ↓
  14. Disallow: */*/feed/*/ # ↓
  15. Disallow: */feed # Страницы и вложенные страницы с комментариями к статьям, они также должны быть закрыты, да, еще и фиды
  16. Disallow: /wp-json # Иногда от нас не зависит, будут создаваться дубли страниц или нет, поэтому заблаговременно их тоже закрываем от индексации
  17. Disallow: /search # Когда пользуются поиском на вашем сайте, то создаются страницы с выдачей, они также закрываются от индексации
  18. Disallow: /*?* # Существуют случаи, когда необходимо удалить страницу, но она будет в поиске еще долго, этим параметром мы ускоряем процесс удаления несуществующей страницы из поиска
  19. Allow: /themes # В своем случае я разрешил индексирование этой директории, поскольку там находятся шаблоны, которые можно скачивать, просматривать в демо-режиме, можете ознакомиться с примером
  20. Allow: /strategy # Выше в шестой строчке я рассказал про стратегии, так вот, они в этой директории, их я рекомендую роботам для индексации

Googlebot

На этом я закончу работу с яндексом, теперь будем обращаться непосредственно к Google роботам. Ничего сложного тут нет, просто копируем все строчки и вставляем ниже, исправив только User-agent.

  1. User-agent: Googlebot # Только для индексируемого робота Google
  2. Disallow: /cgi-bin
  3. Disallow: /wp-admin
  4. Disallow: /wp-includes
  5. Disallow: /radio
  6. Disallow: /strategy/style
  7. Disallow: /statistic
  8. Disallow: /wp-content/plugins
  9. Disallow: /wp-content/cache
  10. Disallow: /wp-content/themes
  11. Disallow: /trackback
  12. Disallow: */trackback
  13. Disallow: */*/trackback
  14. Disallow: */*/feed/*/
  15. Disallow: */feed
  16. Disallow: /wp-json
  17. Disallow: /search
  18. Disallow: /*?*
  19. Allow: /themes
  20. Allow: /strategy

Теперь нужно прописать последние две строчки, которые адресуются всем роботам:

  1. Host: indv.center # Основное зеркало моего сайта
  2. Sitemap: http://indv.center/sitemap_index.xml # Тут я подсказываю роботу, где находится карта сайта со ссылками на статьи, рубрики и страницы.

У меня получилось следующее:

Мой robots.txt

Ставим директивы

Вам рекомендую проделать те же действия, так как правильно составить robots.txt, исходя из существующих директорий, которые вы хотите или не хотите предложить роботам для индексации в поисковых системах, функции не разнятся. Если ваш сайт работает на WordPress и вы ничего не придумываете, ничего не добавляете в директорию и у вас нет никаких дополнительных фишек, файлов, медиа-материалов, то вы можете спокойно использовать стандартный файл robots.txt, он выглядит следующим образом:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /wp-json
Disallow: /search
Disallow: /*?*

User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /wp-json
Disallow: /search
Disallow: /*?*

Host: адрес вашего сайта без http://, но можно www.ваш-сайт.ru
Sitemap: http://ваш-сайт.ru/sitemap.xml

Кроме того, если вы создали какие-либо отдельные страницы, на которых разместили рекламу от Google Adsense, но запретили их к индексированию, то разрешите роботам Google Adsense доступ к этим страницам, тогда вас не забанят. Сделать это надо так:

  1. User-agent: Mediapartners-Google
  2. Disallow:

Все, что осталось, это сохранить файл под именем robots.txt и залить в главную директорию вашего сайта.

Собственно, здесь я с вами и попрощаюсь, надеюсь, теперь вы знаете, как правильно составить robots.txt для любого сайта, работающего на любой CMS, рекомендую подписаться на статьи в правой боковой колонке сайта, чтобы получать мои новые статьи. Желаю вам быстрой индексации, до новых встреч!

C этой статьей также читают следующие:

Оставить комментарий

Наверх