Файл robots.txt поможет пресечь дублирование контента
Файл robots.txt поможет пресечь дублирование контента. Перед тем как зайти на сайт поисковик (будь то Яндекс, Гугл) посещает файл robots.txt, и благодаря нему понимает, какие страницы не следует индексировать, а значит, не нужно допускать их появление в поиске.
Файл robots.txt нужно обязательно настраивать на своем сайте, чтобы избежать дублирования страниц. Ведь дублирование страниц может привести к тому, что ваши позиции по тому или иному запросу могут понизиться в поиске того или иного поисковика. Нужно закрыть от дублирования рубрики, архивы, и прочие разделы, на которых страницы ваших сайтов просто дублируются, чтобы поисковик не выбирал самостоятельно, какую страницу следует показать в поиске – действительную страницу, либо какую-то страницу архива или рубрики, где встречается фрагмент текста, который ищет человек. Поэтому мы и создаем и настраиваем файл robots.txt.
Файл robots.txt создается в текстовом редакторе и имеет формат (.txt). Просто нужно прописать в этом файле некоторые реквизиты, а потом загрузить в корневой раздел сайта. И все. Файл robots.txt создан и загружен, а значит, нам удастся избежать дублирования страниц.
Для моего сайта denrp.ru файл robots.txt выглядит следующим образом:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /trackback
Disallow: //trackback
Disallow: //feed//
Disallow: /feed
Disallow: /?*
Disallow: /tagUser-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /trackback
Disallow: //trackback
Disallow: //feed//
Disallow: /feed
Disallow: /?*
Disallow: /tag
Host: https://denrp.ru/
Sitemap: https://denrp.ru/sitemap.xml.gz
Sitemap: https://denrp.ru/sitemap.xml
Вы можете просто скопировать то, что есть у меня, но только вместо адреса моего сайта указать адрес своего сайта. Disallow означает запрет индексации, и вы можете самостоятельно запретить индексировать и что-то другое на вашем сайте, написав это после Disallow.
Вот мы и создали файл robots.txt. Но так как я специализируюсь на вордпрессе, но и файл robots.txt был составлен для блога на вордпрессе. Если у вас блог тоже на вордпрессе то можете смело использовать данные знания.