Дубликаты страниц

Под дубликатами страниц понимается множество страниц с одинаковым (или максимально схожим) содержанием, найденных поисковой системой по разным адресам (URL). Дубликатами также считаются страницы других сайтов, идентичные по содержанию. Все виды дубликатов могут привести к ухудшению ранжирования поисковыми системами как дублированной страницы, так и сайта в целом.

Дубликаты страниц — одна из острых проблем развития поисковых систем, поскольку они приводят к неоправданному росту поисковой базы, непроизводительным расходам вычислительных ресурсов, и в общем итоге — к снижению скорости и полноты поиска.

Разновидности дубликатов

Существуют несколько разновидностей дубликатов, различающихся по степени сходства и механизмам появления.

Точные (полные) дубликаты

Это, как правило, одна и та же страница, которая может иметь разную адресацию из-за ошибок программирования сайта (различные наборы параметров в URI, незначимые для содержания параметры, различный порядок следования параметров). Нередко полные дубликаты порождаются слабой обработкой ошибок в программной части сайта (когда вместо не найденной в базе данных страницы выдается главная, или другая страница «по умолчанию»). Практически неограниченное количество дубликатов может быть порождено непродуманным использованием идентификаторов сессии в URI.

Нечеткие (частичные) дубликаты

Этот вид дубликатов представляет собой страницы, содержание которых различается очень незначительно. Такое очень часто встречается в интернет-магазинах. Страницы каталога товаров с единообразным описанием могут различаться только названием товара (или даже его частью — например, отличается только номер модели), либо одной из характеристик (например, другой цвет изделия той же модели).

К нечетким дубликатам относятся и различные версии страницы. Например, версия для печати имеет то же содержание, что и основная страница, но отличается иным форматированием текста и упрощенным HTML-кодом.

Анонсы новостей в блогах, особенно если не используется функция «читать далее», тоже относятся к нечетким дубликатам. Всем известный WordPress может выводить статью по основному адресу и еще в нескольких категориях — архивах, рубриках, тегах. Таким образом текст статьи может повторяться полностью или частично много раз, и если не закрывать его дубли от индексации — ПС вполне может применить различные фильтры к такому сайту.

Нечеткие дубликаты понимаются поисковой системой как страницы, схожие «до степени смешения» — различия этих страниц настолько малы, что можно считать их несущественными.

Отсутствие или незначительность контента

Это отдельная разновидность нечетких дубликатов — разные страницы, текстовое наполнение которых отсутствует или настолько мало, что навигационных ссылок и «служебной» информации на странице больше, чем собственно контента. Повторяющиеся на группе однотипных страниц блоки поясняющего текста или одинаковые анонсы новостей (статей) могут довести слабо наполненные страницы до состояния нечетких дубликатов.

Характерный пример дубликатов такого вида — страницы интернет-магазинов, которые не несут развернутого описания товара, а только его название и краткий однотипный набор характеристик. В случае больших навигационных блоков на странице это делает соотношение «код/контент» настолько в пользу кода, что на фоне этого кода малый размер контента заставляет ПС считать страницу малозначимой (пустой). Большое количество таких страниц может сильно замедлить первичное индексирование нового сайта в Google. Множество страниц-пустышек резко отрицательно сказывается и на ранжировании остальных страниц сайта.

Борьба с дубликатами

Меры борьбы с полными дубликатами очевидны. Прежде всего это продуманные алгоритмы движка в части работы с формированием URI и навигацией. При использовании сессий необходимо предотвратить открытие сессий для поисковых ботов и неавторизованных посетителей (они могут оставлять ссылки с идентификатором сессии на других сайтах).

Если не используется псевдостатика, или используется, но есть ссылки с GET-параметрами, необходимо обеспечить одинаковый порядок следования параметров в ссылках. Также очень желательно отсутствие пустых параметров и проверка на незначимые (излишние) параметры. Залог успеха в борьбе с дубликатами — хорошая обработка ошибок в URI. По любой «битой» ссылке движок должен отдавать в заголовке статус 404 Not Found.

Появления в индексе нечетких дубликатов можно избежать, тщательно продумывая ссылочную структуру сайта — опять-таки на уровне движка. Необходимо исключить индексирование страниц поиска по сайту, различных вариантов сортировки (товаров, объявлений, статей… в общем, любых списков, которые вы собираетесь выдавать в отсортированном виде). Также исключается индексирование различных видов фильтрации товаров (например, по типу и по бренду). Здесь есть два приемлемых варианта: либо канонизация1) URL, либо мета-тег robots с директивой «noindex,follow». У любого списка (товаров, статей) должен индексироваться только один вариант выдачи. То есть, если товары можно отсортировать по параметрам, и при этом в URL появляется довесок (например из 1c-bitrix: ?FILTER[PFROM]=23) - эти страницы в индекс попадать не должны.

Обсудить canonical на форуме

дубликаты.txt · создано: 2012/02/19 00:45 — Zanuda · Последние изменения: 2012/11/30 04:49 — donc
Наверх
Driven by DokuWiki