Яндекс обещает более точное определение оригиналов страниц

Яндекс в загадочной форме сообщил, что в алгоритмы определения источника контента внесены какие-то улучшения. Никаких деталей, как обычно, можно только фантазировать.

Определение первоисточника текста, размещённого в сети, это сложная задача, которая ещё не решена в общем виде. Однако нам удалось построить алгоритм, который во многих случаях по косвенным признакам определяет, какая из группы страниц с одинаковым текстом является оригиналом. Этот алгоритм уже работает в российской формуле ранжирования, а через некоторое время он будет включён и для всех остальных стран.

Алгоритм ещё не обладает стопроцентными полнотой и точностью, но и мы работаем над его улучшением. Будем рады примерам некорректного ранжирования оригиналов и копий, что позволит нам быстрее повысить качество разработанного алгоритма.

Я немного напряг мозг, но ничего толкового у меня не получилось выдумать. Как узнать где вот эта, например, заметка появилась изначально? Например, у меня ее выдернули роботом через 2 минуты после написания. Какие факторы могут учитываться? Я такие придумал:

  1. Какая страница быстрее попадет в индекс, это очевидное и самое простое.
  2. Есть ли в содержимом ссылки на другие страницы на том же сайте.
  3. Чьи RSS ленты быстрее появляются в Feedburner и различных агрегаторах.
  4. От кого резвее приходят пинги (на Pingomatic etc.).
  5. На чью страницу быстрее появляются ссылки извне.

Добрая часть этого списка актуальна для продвинутых блогов и новостных ресурсов, то есть какой-нибудь статический сайт без фида, без пингов и т.д. обречен. С другой стороны, с таких сайтов сложно воровать содержимое в автоматическом режиме.

Мне больше всего нравится пункт 2. Если в украденной странице нет ссылок, которые есть в исходнике, или, еще того круче, есть ссылка на оригинальный сайт, то дальше можно не думать особо. У кого есть еще какие догадки?

Да наверное по пингам. Ссылки

Да наверное по пингам. Ссылки есть или их нет- это не тот вариант, хотя кто его знает.
Ну факт с индексацией, я отвергаю сразу и основательно. Ведь если у меня прокачанный сайт, то я смогу воровать контент у новичков, я то быстрее в индекс попаду. Да и Яндекс индексирует почти всех выдачами, а значит одинаково.
RSS-агрегаторы тоже могут подводить, то не сработало, то ещё что-то.
Я не предложу вообще варианта, слишком тяжело это, но тема хорошая, что бы задуматься.

Про индексацию

Я выразился некорректно. В выдачу страницы попадают пачками, это правда, но робот, который ищет новые страницы и добавляет их в очередь на индексацию — этот ходит постоянно. Ставит он дату при этом? Почему нет, сложностей не вижу.

Дата добавления (нахождения URL) — единственный универсальный критерий. Остальные из перечисленных могут быть, а могут и нет. Не так часто ссылки в тексте ставят, полагаются на навигацию. Пинги, фиды и прочее — многие этим вообще не заморачиваются.

Все это как-то зыбко. В индекс можно раньше попасть, ссылки можно убрать или заменить, пинги обкрадываемый сайт может и не использовать — таких сколько угодно.

Янекс умный, может, что-то хитрое изобрели. Любопытно, да.