Яндекс обещает более точное определение оригиналов страниц

18.12.2009 Дорожный блокнот яндекс, контент

Яндекс в загадочной форме сообщил, что в алгоритмы определения источника контента внесены какие-то улучшения. Никаких деталей, как обычно, можно только фантазировать.

Определение первоисточника текста, размещённого в сети, это сложная задача, которая ещё не решена в общем виде. Однако нам удалось построить алгоритм, который во многих случаях по косвенным признакам определяет, какая из группы страниц с одинаковым текстом является оригиналом. Этот алгоритм уже работает в российской формуле ранжирования, а через некоторое время он будет включён и для всех остальных стран.

Алгоритм ещё не обладает стопроцентными полнотой и точностью, но и мы работаем над его улучшением. Будем рады примерам некорректного ранжирования оригиналов и копий, что позволит нам быстрее повысить качество разработанного алгоритма.

Я немного напряг мозг, но ничего толкового у меня не получилось выдумать. Как узнать где вот эта, например, заметка появилась изначально? Например, у меня ее выдернули роботом через 2 минуты после написания. Какие факторы могут учитываться? Я такие придумал:

Какая страница быстрее попадет в индекс, это очевидное и самое простое.
Есть ли в содержимом ссылки на другие страницы на том же сайте.
Чьи RSS ленты быстрее появляются в Feedburner и различных агрегаторах.
От кого резвее приходят пинги (на Pingomatic etc.).
На чью страницу быстрее появляются ссылки извне.

Добрая часть этого списка актуальна для продвинутых блогов и новостных ресурсов, то есть какой-нибудь статический сайт без фида, без пингов и т.д. обречен. С другой стороны, с таких сайтов сложно воровать содержимое в автоматическом режиме.

Мне больше всего нравится пункт 2. Если в украденной странице нет ссылок, которые есть в исходнике, или, еще того круче, есть ссылка на оригинальный сайт, то дальше можно не думать особо. У кого есть еще какие догадки?

Войдите на сайт для отправки комментариев

Яндекс обещает более точное определение оригиналов страниц

Похожие записи

Да наверное по пингам. Ссылки

Про индексацию

Навигация