Заработок в интернете, обзор партнерских программ, гэмблинг.

Правильное составление Robots.txt

Добавлено | Май 2, 2012 | 7 комментариев

Как прописать robots txt?

Если файл robots.txt составлен верно, то можно не слишком беспокоиться по поводу дальнейшей судьбы молодого ресурса. Все дело в том, что поисковые системы зачастую предъявляют повышенные требования к ресурсам, которые недавно появились в сети. Такие сайты могут внезапно угодить под фильтр, например, из-за большого количества дублируемого контента. Так что в robots.txt нужно обязательно запретить от индексации некоторые страницы, которые не должны находиться в выдаче. Самое главное, это не допустить ошибок при составлении, а то так ненароком можно и весь ресурс запретить к индексации.

Как нетрудно догадаться, robots.txt – это обычный текстовый файл, который обязательно находится в корневом каталоге сайта. Поисковый робот первым делом считывает его, а затем уже выполняет свою работу, придерживаясь правил, записанных в этом файле.

В интернете полно генераторов robots.txt, например, http://pr-cy.ru/robots, но гораздо надежнее составить его вручную.

Часто допускают такую ошибку в названии самого файла: пишут robot.txt, а нужно robots.txt. Еще в название часто вставляют буквы в другом регистре Robots.txt или даже ROBOTS.TXT, а это в корне неправильно. Название файла обязательно должно быть в нижнем регистре.

В самом начале всегда стоит директива User-agent:, которая отвечает за то, к каким поисковым системам относятся нижестоящие правила. User-agent: Yandex – будет являться руководством к действию поисковой системы Яндекс, нетрудно догадаться, что нужно прописать для Google. Если вам нужно задать правила сразу для всех поисковиков, то пишите User-agent: *.

Ниже будут находиться несколько строчек с Disallow:, например, Disallow: /tags/. Disallow – это запрет от индексации какой-либо директории или конкретной страницы. В одной строчке можно запретить только что-то одно, ни в коем случае не пишите в одну строчку несколько категорий.

Поисковой системе Яндекс полезно прописать — Host: sitename.ru или Host: www.sitename.ru, это нужно для того, чтобы поисковик знал главное зеркало сайта, хотя без этого можно спокойно обойтись. Только ни в коем случае не добавляйте http:// в адрес, это тоже является распространенной ошибкой.

Относитесь к редактированию robots.txt с повышенным вниманием, чтобы избежать проблем с индексацией. И помните, что если вы хотите, чтобы поисковая система не индексировала страницы, но ходила по ссылкам, расположенным на них, то пользуйтесь мета-тегом noindex.

Файл robots.txt этого сайта можно увидеть ниже:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
User-agent: *
Allow: /
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/plugins/*
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: /feed
Disallow: */feed
Disallow: /rss
Disallow: */rss
Disallow: /author*
Disallow: /category/*/*
Disallow: /tag
Disallow: /comments
Disallow: */comments
Disallow: */comment-page*
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
Allow: /upload
 
User-agent: Yandex
Disallow: /cgi-bin
# запрещаем индексацию системных папок
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
# запрещаем индексацию категорий
Disallow: /category*
# запрещаем индексацию архивов по датам. Прописываем вручную актуальные года
#Disallow: /2012*
# запрещаем индексацию архива автора
Disallow: /author*
# запрещаем индексацию страницы входа и регистрации
Disallow: /wp-login.php
Disallow: /wp-register.php
# запрещаем индексацию трекбеков, rss-ленты
Disallow: /trackback
Disallow: /feed
Disallow: /rss
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: /xmlrpc.php
# запрещаем индексацию постраничных комментариев
Disallow: */comments
Disallow: */comment-page*
# запрещаем индексацию результатов поиска и другого возможного "мусора"
Disallow: /*?*
Disallow: /*?
# разрешаем индексацию вложений, особо мнительным можно запретить папку wp-content целиком
Allow: /wp-content/uploads
Allow: /upload
 
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
 
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
 
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
 
# digg mirror
User-agent: duggmirror
Disallow: /
 
User-agent: Adsbot-Google
Allow: /
 
User-agent: Googlebot-Mobile
Allow: /
 
User-agent: Yandex
Crawl-delay: 5
 
Host: seomoneymaker.ru
Sitemap: http://seomoneymaker.ru/sitemap.xml
Чтобы получать актуальную информацию не забывайте подписываться на мою RSS рассылку!

Блог находят по запросам:

Комментарии

7 комментариев для “Правильное составление Robots.txt”

  1. Analitik
    Май 17th, 2012 @ 13:49

    Я правильно понял, что можно прост ои без затей скопировать ваш роботх и поставить себе? А все комментарии в нём после знака # можно тоже оставить?
    Я пока пользуюсь для запрета индексирования платиновым плагином сео, но яндекс всё равно проиндексировал теги и категории. Правда я уже после этого их запретил.
    Так можно взять ваш роботх и всё будет хорошо?

  2. admin
    Май 20th, 2012 @ 13:28

    Да, можно его скопировать, только адрес в host на свой поменяйте.

  3. Menelom
    Май 20th, 2012 @ 15:20

    Да…дизайн явно надо было бы сменить:)
    Что что-нибудь поярче бы (

  4. Analitik
    Май 24th, 2012 @ 23:23

    Ваш обзор готов http://analitikos.ru/obzor-bloga-9/

  5. admin
    Июнь 3rd, 2012 @ 16:24

    Огромное спасибо! Очень понравился обзор!

  6. Элина
    Декабрь 11th, 2012 @ 23:35

    Добрый вечер.

    У меня возник вопрос — в поле HOST писать сайт с www или без?

    В Яндекс.Вебмастере проиндексирован с www, смотрю через pr-cy — без www,

  7. admin
    Декабрь 20th, 2012 @ 23:20

    Я пишу без www

Форма комментирования





Наверх