Думаю, вполне возможно сделать это средствами сфинкса -- нужно "лишь" научиться выделять ключевые слова для произвольного текста, а потом задавать в поиск запросы из этих слов.
Не знаю, как у сфинкса устроена формула релевантности и есть ли там какой-то аналог нестрогого поиска или возможность хоть как-то задавать словам веса, но если есть, то это облегчает решение. 2012/9/12 Анатолий Шарифулин <[email protected]> > Не понял, если не нужны, тогда просто по словам. > Я так и начал делать :) > > Ещё хочется это сделать средствами sphinx, но пока в поиске решения. > > > 2012/9/11 Михаил Монашёв <[email protected]> > >> Здравствуйте. >> >> > Самый примитивный аглоритм такой. >> > Качаешь где-нить новостей побольше, разбиваешь всё на слова, удаляешь >> > у них окончания, делаешь из соседних слов шинглы, генеришь таблицу из >> > двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют >> > популярные шинглы (границу популярности определяй сам), далее по >> > новости можешь искать другие новости, у которых такие же шинглы. Чем >> > больше шинглов совпало, тем более похожая новость. >> >> Вдогонку... >> >> Шинглы здесь не нужны. Если их использовать, то будут вылезать >> дубликаты текстов вместо схожих по смыслу. Вместо шинглов надо >> использовать просто слова без окончаний. А уже в следующих версиях >> алгоритма вместо слов выдавать признаки текста: имена собственные, их >> же с действиями(глаголами), шинглы от цитируемых текстов и т.п. >> >> -- >> С уважением, >> Михаил mailto:[email protected] >> >> -- >> Moscow.pm mailing list >> [email protected] | http://moscow.pm.org >> > > > > -- > С уважением, > Анатолий Шарифулин. > > -- > Moscow.pm mailing list > [email protected] | http://moscow.pm.org > >
-- Moscow.pm mailing list [email protected] | http://moscow.pm.org
