Duplication Penalty
Интересен все же внутренний алгоритм определения похожести страниц. Мне кажется, что должны использоваться шинглы, иначе невозможно управиться с огромной базой. Еще такая шальная мысль мелькнула, что на самом деле сравнение происходит только в момент конкретного запроса пользователя. В этом случае строится первоначальное ранжирование, а затем сравниваются шинглы страниц и удаляются похожие с меньшими весовыми коэффициентами.
