5 мая 2009

Пишем файл robots.txt для WordPress

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы — вебмастер, вы должны знать назначение и синтаксис этого файла. В этой статье мы обсудим как он должен выглядеть и как работать.

Robots.txt — это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д. Имя файла пишется только мелкими строчными буквами на латинице. Robots.txt или ROBOTS.txt — неправильные названия. Роботы будут игнорировать такой файл.

Основные функции

User-agent — имя робота. У каждого бота есть такое уникальное имя (User-agent: Yandex).
Disallow — после этой директивы мы и должны указать файл или папку, к которой запрещаем доступ относительно корня вашего сайта. Разрешается указывать только одну папку или имя файла.

Создадим файл robots.txt и поместим в него следующий код:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: http://domain/sitemap.xml

Этими строчками мы запретили роботам индексировать системные папки (wp-admin, wp-includes, wp-content), страницы с информацией по тегам, rss feed, поисковые результаты. Но, указали точный путь до папки с мультимедиа файлами и карты сайта.

Категория: WordPress Рубрики: Разработка, Советы по Wordpress Автор: Илья Федотов

Комментарии (12)

Добавить новый комментарий

Modlen / 30 Сентябрь 2009 в 13:47

Спасибо, Ваш вариант robots.txt я считаю правильным. Забираю!

Andrey A Dengin / 1 Октябрь 2009 в 19:12

Директиву Allow не нужно писать, т.к. её не существует. И еще я бы разрешил индексирование фидов ботом поиска по блогам Яндекса и боту Гугл-ридера.

Илья Федотов / 1 Октябрь 2009 в 19:47

Andrey, вопрос по этой директиве очень интересный.

На сайте robotstxt говорится, что инструкции Allow не существует. Но в тоже время в википедии есть строчка в которой написано, что эта директива имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. В качестве дополнения советую прочитать статью с сайта seoblog, в которой так же упоминается про Allow.

Про разрешение индексирования фидов по блогам Яндекса и Гугл-ридера согласен, можно добавить.

Reger / 5 Февраль 2010 в 00:06

Считаю, что вот оптимальный robots.txt. Фиды и тэги нужно разрешить, так как они добавляют страниц 3-го уровня.

User-agent: *
Allow: /
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /trackback/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Host: domen.ru
Sitemap: http://domen.ru/sitemap.xml

Илья Федотов / 5 Февраль 2010 в 14:20

Reger, не соглашусь с вами. Зачем вам нужны лишние страницы (теги) в индексе? Трафика с таких страниц вы никогда не получите. На счет фидов, то их лучше закрыть от индексации т.к. wordpress автоматом создает rss-ленту комментариев для каждого поста. Опять же — это лишние страницы, которые никому не нужны.

Так же в вашем варианте есть еще ошибки. Совету почитать статьи на сайте robotstxt и на других блогах, чтобы понять в чем заключались ваши недочеты.

Adengin / 8 Февраль 2010 в 01:17

Если оформить страницу с тегами, таким образом чтобы контент на ней был уникальным то можно получить дополнительный трафик.

Например, если есть блог продающий аудио или видео, страница с тегами может содержать список стилей, направлений, с описанием данного стиля или направления и записями содержащими данный тег.

Blogmen ART / 2 Сентябрь 2010 в 18:28

Спасибо за статью, хоть что-то начал понимать в данном вопросе. Я новичок и тяжело разобраться во всём этом сразу. Спасибо автору.

Anton / 9 Февраль 2011 в 12:55

Спасибо за статью автору. У меня это довольно неосвоенная область и как я считаю — статья легка для понимания. Сделал у себя на сайте всё, как указано в статье. Ещё раз спасибо.

Mosyaka / 19 Август 2011 в 11:27

Директория Allow: /wp-content/uploads/ должна находится поверх директории Disallow: /wp-content, в противном случае робот ее индексировать не будет.

Master / 26 Август 2011 в 02:23

Взял на заметку, спасибо.

Andrewsmarttv / 9 Декабрь 2011 в 12:25

Disallow: /*?* в каком случае ставить?

Илья Федотов / 10 Декабрь 2011 в 14:00

Andrewsmarttv, ни в каком (: Рекомендую прочитать про использование robots.txt и его директивах на ЯндексПомощь.

Добавить новый комментарий

Поиск

Fotografas: Отличная фотография.
Тимофей: Хрень полная. А если у меня данных, ну штук 50-70, в...
Irmaseo: Время решает все.
Дмитрий: Есть еще один вариант – заказать у друга-дизайнер...
Sindor: Полезная статья, спасибо автору!
Ganesa: Клипарты очень и очень выручают, даже те сервисы, которые с...
Елена Калинина: Атомарный дизайн пригодится очень при...
Елена Калинина: Логотип того или иного города легко найти в...

Друзья

Нашли ошибку?

Если вы нашли грамматическую ошибку на сайте, выделите ее и нажмите сочетание клавиш Ctrl+Enter.

Блог о дизайне и веб-мастеринге
Полезные ресурсы для разработчиков и дизайнеров
Статьи о движке WordPress и сервисе Twitter

Лучшие статьи категории «WordPress»

Подписка

Пишем файл robots.txt для WordPress