Правильное составление Robots.txt
Если файл robots.txt составлен верно, то можно не слишком беспокоиться по поводу дальнейшей судьбы молодого ресурса. Все дело в том, что поисковые системы зачастую предъявляют повышенные требования к ресурсам, которые недавно появились в сети. Такие сайты могут внезапно угодить под фильтр, например, из-за большого количества дублируемого контента. Так что в robots.txt нужно обязательно запретить от индексации некоторые страницы, которые не должны находиться в выдаче. Самое главное, это не допустить ошибок при составлении, а то так ненароком можно и весь ресурс запретить к индексации.
Как нетрудно догадаться, robots.txt – это обычный текстовый файл, который обязательно находится в корневом каталоге сайта. Поисковый робот первым делом считывает его, а затем уже выполняет свою работу, придерживаясь правил, записанных в этом файле.
В интернете полно генераторов robots.txt, например, http://pr-cy.ru/robots, но гораздо надежнее составить его вручную.
Часто допускают такую ошибку в названии самого файла: пишут robot.txt, а нужно robots.txt. Еще в название часто вставляют буквы в другом регистре Robots.txt или даже ROBOTS.TXT, а это в корне неправильно. Название файла обязательно должно быть в нижнем регистре.
В самом начале всегда стоит директива User-agent:, которая отвечает за то, к каким поисковым системам относятся нижестоящие правила. User-agent: Yandex – будет являться руководством к действию поисковой системы Яндекс, нетрудно догадаться, что нужно прописать для Google. Если вам нужно задать правила сразу для всех поисковиков, то пишите User-agent: *.
Ниже будут находиться несколько строчек с Disallow:, например, Disallow: /tags/. Disallow – это запрет от индексации какой-либо директории или конкретной страницы. В одной строчке можно запретить только что-то одно, ни в коем случае не пишите в одну строчку несколько категорий.
Поисковой системе Яндекс полезно прописать — Host: sitename.ru или Host: www.sitename.ru, это нужно для того, чтобы поисковик знал главное зеркало сайта, хотя без этого можно спокойно обойтись. Только ни в коем случае не добавляйте http:// в адрес, это тоже является распространенной ошибкой.
Относитесь к редактированию robots.txt с повышенным вниманием, чтобы избежать проблем с индексацией. И помните, что если вы хотите, чтобы поисковая система не индексировала страницы, но ходила по ссылкам, расположенным на них, то пользуйтесь мета-тегом noindex.
Файл robots.txt этого сайта можно увидеть ниже:
User-agent: *
Allow: /
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/plugins/*
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: /feed
Disallow: */feed
Disallow: /rss
Disallow: */rss
Disallow: /author*
Disallow: /category/*/*
Disallow: /tag
Disallow: /comments
Disallow: */comments
Disallow: */comment-page*
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
Allow: /upload
User-agent: Yandex
Disallow: /cgi-bin
# запрещаем индексацию системных папок
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
# запрещаем индексацию категорий
Disallow: /category*
# запрещаем индексацию архивов по датам. Прописываем вручную актуальные года
#Disallow: /2012*
# запрещаем индексацию архива автора
Disallow: /author*
# запрещаем индексацию страницы входа и регистрации
Disallow: /wp-login.php
Disallow: /wp-register.php
# запрещаем индексацию трекбеков, rss-ленты
Disallow: /trackback
Disallow: /feed
Disallow: /rss
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: /xmlrpc.php
# запрещаем индексацию постраничных комментариев
Disallow: */comments
Disallow: */comment-page*
# запрещаем индексацию результатов поиска и другого возможного "мусора"
Disallow: /*?*
Disallow: /*?
# разрешаем индексацию вложений, особо мнительным можно запретить папку wp-content целиком
Allow: /wp-content/uploads
Allow: /upload
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Yandex
Crawl-delay: 5
Host: seomoneymaker.ru
Sitemap: http://seomoneymaker.ru/sitemap.xml
Я правильно понял, что можно прост ои без затей скопировать ваш роботх и поставить себе? А все комментарии в нём после знака # можно тоже оставить?
Я пока пользуюсь для запрета индексирования платиновым плагином сео, но яндекс всё равно проиндексировал теги и категории. Правда я уже после этого их запретил.
Так можно взять ваш роботх и всё будет хорошо?
Да, можно его скопировать, только адрес в host на свой поменяйте.
Да…дизайн явно надо было бы сменить:)
Что что-нибудь поярче бы (
Ваш обзор готов http://analitikos.ru/obzor-bloga-9/
Огромное спасибо! Очень понравился обзор!
Добрый вечер.
У меня возник вопрос — в поле HOST писать сайт с www или без?
В Яндекс.Вебмастере проиндексирован с www, смотрю через pr-cy — без www,
Я пишу без www