Duplication Penalty

Интересен все же внутренний алгоритм определения похожести страниц. Мне кажется, что должны использоваться шинглы, иначе невозможно управиться с огромной базой. Еще такая шальная мысль мелькнула, что на самом деле сравнение происходит только в момент конкретного запроса пользователя. В этом случае строится первоначальное ранжирование, а затем сравниваются шинглы страниц и удаляются похожие с меньшими весовыми коэффициентами.

Comments »

The URI to TrackBack this entry is: http://blackdog.blogsome.com/2006/11/07/duplication-penalty/trackback/

No comments yet.

RSS feed for comments on this post.

Leave a comment

Line and paragraph breaks automatic, e-mail address never displayed, HTML allowed: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>