Файл robots.txt — правильная индексация Вашего блога

Сегодня разговор пойдет про файл robots txt для WordPress. По данному вопросу в Интернете достаточно информации. Но зачастую написано так, что не всегда понятно как же правильно создать этот текстовый файл без ошибок. Да и вопросов на этот счет поступает немало. Итак, поехали…

Robots.txt для WordPress

Robots.txt — файл в текстовом формате, загружаемый на сервере в корневую папку сайта. Он предназначен для продвижения сайта и, соответственно, поисковых роботов различных поисковых систем. При помощи специальных команд и параметров, прописанных в этом файле, можно закрыть конкретные разделы блога от индексации. В поисковой выдаче будет отображаться только нужная пользователям информация. В robots.txt прописываются адрес страницы карты (sitemap.xml), главное зеркало сайта (www либо без www).

Пояснение: Главное зеркало сайта важно прописать в robots.txt, т.к. поисковые роботы распознают адрес сайта с www либо без www, как абсолютно разные сайты. Если обнаруживается, что на данных сайтах размещено одинаковое содержимое, то поисковые роботы их «склеивают». Как узнать какое зеркало на сайте главное? Нужно набрать в адресной строке браузера домен сайта с www, если происходит автоматический переход на этот же сайт, но будет в адресной строке отсутствовать www, то главное зеркало сайта необходимо прописывать без www. Для наглядности показываю ниже на скриншотах.

Создание файла robots.txt для WordPress задача для новичков, особенно при отсутствии навыков и знаний, трудоемкая. Можно скачать правильный готовый файл либо скопировать приведенный листинг шаблона ниже:

User-agent:
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: tatianaanina.ru
Sitemap: http://tatianaanina.ru/sitemap.xml.gz
Sitemap: http://tatianaanina.ru/sitemap.xml

Кодировка копируется в документ текстового формата, имеющий расширение .txt (например, в простую программу Блокнот либо Notepad++), чтобы в результате получилось название файла robots.txt. Очень важно — при редактировании в последних 3-х строках нужно обязательно адрес tatianaanina.ru заменить на домен своего блога, так как в корневой папке блога, кроме robots.txt, располагаются и другие файлы, например wp-content, wp-admin и другие.

В техническую сторону файла можно не вникать, но для желающих знать приведу пояснения каждой строки:

— User-agent

Устанавливает правила для каких поисковиков предназначены команды. Например, прописанный символ “*” (звездочка) — для всех поисковиков, User-agent: Yandex — только для системы Яндекс.

— Disallow

Указываются разделы сайта, которые следует исключить из индексации. Например, дублирование страниц и текстового контента, которые сказываются отрицательно на продвижении в поисковой выдаче. Важно закрыть данные секторы от индексации при помощи правила:

— Disallow: /tag

В коде файла robots.txt, приведенном выше, от индексации закрыто большинство ненужных разделов блога на движке WordPress. Лучше оставить все, как указано.

— Host

Указывается главное зеркало сайта (www либо без www), о нем было рассказано в мною выше.

— Sitemap

Две последние строки предназначены для указания адреса карт сайта, которые создаются плагином Google XML Sitemaps.

Какие возможны проблемы?

При отсутствии на сайте ЧПУ могут с файлом robots.txt возникнуть проблемы. Ссылки в статьях, размещенных на сайте, без ЧПУ выглядят примерно так:

Из-за строки Disallow: /*?* в коде файла robots.txt, могут не индексироваться статьи, опубликованные на сайте. Эта строка задает запрет на индексацию. Следует внести исправления и удалить данные две строки. Без ЧПУ правильно файл robots.txt примерно отображается таким образом:

User-agent: *

Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: tatianaanina.ru
Sitemap: http://tatianaanina.ru/sitemap.xml.gz
Sitemap: http://tatianaanina.ru/sitemap.xml

Грамотное и правильное составление файла robots.txt проверяется на сервисе Яндекс.Вебмастер, где в разделе Настройки индексирования нужно перейти в подраздел Анализ robots.txt>, необходимо нажать на кнопку «Загрузка файла robots.txt» определенного сайта, потом на кнопку – «Проверить».

Рубрика: Сео-оптимизация

Комментарии закрыты.