Мелкий WEB бизнес должен умереть

То, что творит сейчас Гугл со своим поголовным выкидыванием страниц в Supplemental Results, является по сути убийством мелкого интернет бизнеса. Выживут похоже только крупные игроки, имеющие хорошие ресурсы или достаточно денег на раскрутку.
Глобализация мать ее…

Duplication Penalty

Интересен все же внутренний алгоритм определения похожести страниц. Мне кажется, что должны использоваться шинглы, иначе невозможно управиться с огромной базой. Еще такая шальная мысль мелькнула, что на самом деле сравнение происходит только в момент конкретного запроса пользователя. В этом случае строится первоначальное ранжирование, а затем сравниваются шинглы страниц и удаляются похожие с меньшими весовыми коэффициентами.