Война клонов или Robots.txt

Здравствуйте уважаемые читатели! Сегодня у нас очень интересная и очень важная тема. Robots.txt. Начинающие блогеры часто игнорируют его или допускают ошибки в составлении. А зря. И сейчас расскажу почему.

Платформа WordPress – бесплатная, и у нее есть свои достоинства и недостатки. Одним из самых больших недостатков является дублирование контента на блоге. Почему так происходит?

Когда автор выкладывает новую статью в блог – она появляется в индексе сразу на нескольких страницах:

А) На главной

Б) В категории

В) В архиве

Г) В поиске

И это еще не весь перечень. Получается на блоге под разными адресами возникают множество страниц с одинаковым контентом.

Поисковые системы называют такое явление «дублированным контентом» и относятся однозначно плохо. То есть принимают за плагиат, могут выкинуть страницы из выдачи и вообще наложить на сайт страшный и ужасный АГС.

Поэтому при создании блога нужно заранее подготовиться и запретить «левые страницы» к индексации. Вот для этого нам и нужен Robots.txt. Прописав определенные команды, мы покажем и Яндексу и Google на что можно смотреть на нашем сайте, а на что нельзя.

Robots.txt. – это обычный текстовый файл созданный в стандартном Notepade. Его нужно поместить в корневой каталог вашего блога и поисковые боты Яндекса и Гугла зайдя на сайт прочитают его и будут исполнять записанные там команды по индексации. Если файла найдено не будет, боты будут индексировать все подряд.

Основные директивы.

Чтобы научиться составлять файл самому нужно понимать его директивы. Хотя некоторые блогеры вполне успешно подсматривают и переписывают их у старших собратьев.

Просто введите адрес сайта/robots.txt. Переписывая его нужно понимать что файл разный для разных платформ. Для Joomla – один, для WordPress – другой, для форума – третий.

1. Директива User-agent указывает, какой поисковый робот должен выполнять команды написанные ниже.

Например, для Яндекса пишется так: User-agent: Yandex. В рунете только для него и прописывают, ибо это самый весомый поисковик на наших «необьятных».

2. Директивы-братья Allow и Disallow соответственно разрешают или запрещают индексацию для роботов.

Всего в двух строчках можно запретить разведчику Яндекса досматривать наш ресурс:

User-agent: Yandex

Disallow: /

Теперь он не будет индексировать сайт пока мы этого не захотим.

Все просто, ведь правда?

Что же нужно запрещать?

Во первых служебные и системные файлы.

Во вторых нужно запретить индексирование категорий, чтобы там не развелось дублей.

В третьих закрываем RSS-ленту.

В четвертых дубли могут вылезти в результатах поиска.

В пятых запрещаем индексировать комментарии.

В шестых трекбеки.

Война клонов или Robots.txt

Рубрики