- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Владимир
Subject: Re: Detect clone algoritm

>Клоны -- документы, имеющие одинаковые значения Hash32 вычисляемой по всем 
>секциям документа. Копии одного и того же документа имеют одинаковые значения 
>Hash32. Это позволяет не индексировать дубликады документов в коллекции. 
>Однако: всли в файле sections.conf определена только секция title, тогда все 
>документы с разными телами, но одинаковыми title будут считаться клонами.

Применение вот этого механизма сняло все вопросы. 
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;topic_id=1190818033

Ответить