×

Правильное составление Robots.txt

Май 2, 2012 7 комментариев

Правильное составление Robots.txt и частые ошибки

Если файл robots.txt составлен верно, то можно не слишком беспокоиться по поводу дальнейшей судьбы молодого ресурса. Все дело в том, что поисковые системы зачастую предъявляют повышенные требования к ресурсам, которые недавно появились в сети. Такие сайты могут внезапно угодить под фильтр, например, из-за большого количества дублируемого контента. Так что в robots.txt нужно обязательно запретить от индексации некоторые страницы, которые не должны находиться в выдаче. Самое главное, это не допустить ошибок при составлении, а то так ненароком можно и весь ресурс запретить к индексации.

Как нетрудно догадаться, robots.txt – это обычный текстовый файл, который обязательно находится в корневом каталоге сайта. Поисковый робот первым делом считывает его, а затем уже выполняет свою работу, придерживаясь правил, записанных в этом файле.

В интернете полно генераторов robots.txt, например, http://pr-cy.ru/robots, но гораздо надежнее составить его вручную.

Часто допускают такую ошибку в названии самого файла: пишут robot.txt, а нужно robots.txt. Еще в название часто вставляют буквы в другом регистре Robots.txt или даже ROBOTS.TXT, а это в корне неправильно. Название файла обязательно должно быть в нижнем регистре.

В самом начале всегда стоит директива User-agent:, которая отвечает за то, к каким поисковым системам относятся нижестоящие правила. User-agent: Yandex – будет являться руководством к действию поисковой системы Яндекс, нетрудно догадаться, что нужно прописать для Google. Если вам нужно задать правила сразу для всех поисковиков, то пишите User-agent: *.

Ниже будут находиться несколько строчек с Disallow:, например, Disallow: /tags/. Disallow – это запрет от индексации какой-либо директории или конкретной страницы. В одной строчке можно запретить только что-то одно, ни в коем случае не пишите в одну строчку несколько категорий.

Поисковой системе Яндекс полезно прописать — Host: sitename.ru или Host: www.sitename.ru, это нужно для того, чтобы поисковик знал главное зеркало сайта, хотя без этого можно спокойно обойтись. Только ни в коем случае не добавляйте http:// в адрес, это тоже является распространенной ошибкой.

Относитесь к редактированию robots.txt с повышенным вниманием, чтобы избежать проблем с индексацией. И помните, что если вы хотите, чтобы поисковая система не индексировала страницы, но ходила по ссылкам, расположенным на них, то пользуйтесь мета-тегом noindex.

Файл robots.txt этого сайта можно увидеть ниже:

User-agent: *
Allow: /
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/plugins/*
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: /feed
Disallow: */feed
Disallow: /rss
Disallow: */rss
Disallow: /author*
Disallow: /category/*/*
Disallow: /tag
Disallow: /comments
Disallow: */comments
Disallow: */comment-page*
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
Allow: /upload

User-agent: Yandex
Disallow: /cgi-bin
# запрещаем индексацию системных папок
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
# запрещаем индексацию категорий
Disallow: /category*
# запрещаем индексацию архивов по датам. Прописываем вручную актуальные года
#Disallow: /2012*
# запрещаем индексацию архива автора
Disallow: /author*
# запрещаем индексацию страницы входа и регистрации
Disallow: /wp-login.php
Disallow: /wp-register.php
# запрещаем индексацию трекбеков, rss-ленты
Disallow: /trackback
Disallow: /feed
Disallow: /rss
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: /xmlrpc.php
# запрещаем индексацию постраничных комментариев
Disallow: */comments
Disallow: */comment-page*
# запрещаем индексацию результатов поиска и другого возможного "мусора"
Disallow: /*?*
Disallow: /*?
# разрешаем индексацию вложений, особо мнительным можно запретить папку wp-content целиком
Allow: /wp-content/uploads
Allow: /upload

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

# digg mirror
User-agent: duggmirror
Disallow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Yandex
Crawl-delay: 5

Host: seomoneymaker.ru
Sitemap: http://seomoneymaker.ru/sitemap.xml

Комментарии
Analitik
AnalitikМай 17, 2012 @ 13:49

Я правильно понял, что можно прост ои без затей скопировать ваш роботх и поставить себе? А все комментарии в нём после знака # можно тоже оставить?
Я пока пользуюсь для запрета индексирования платиновым плагином сео, но яндекс всё равно проиндексировал теги и категории. Правда я уже после этого их запретил.
Так можно взять ваш роботх и всё будет хорошо?

Ответить
admin
adminМай 20, 2012 @ 13:28

Да, можно его скопировать, только адрес в host на свой поменяйте.

Ответить
Menelom
MenelomМай 20, 2012 @ 15:20

Да…дизайн явно надо было бы сменить:)
Что что-нибудь поярче бы (

Ответить
Analitik
AnalitikМай 24, 2012 @ 23:23

Ваш обзор готов http://analitikos.ru/obzor-bloga-9/

Ответить
admin
adminИюнь 3, 2012 @ 16:24

Огромное спасибо! Очень понравился обзор!

Ответить
Элина
ЭлинаДекабрь 11, 2012 @ 23:35

Добрый вечер.

У меня возник вопрос — в поле HOST писать сайт с www или без?

В Яндекс.Вебмастере проиндексирован с www, смотрю через pr-cy — без www,

Ответить
admin
adminДекабрь 20, 2012 @ 23:20

Я пишу без www

Ответить
Оставить комментарий