- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: bricha Subject: Автоматическое Структурирование базы новостей
Как сделать автоматическое связывание новостей по их содержанию, как сделано например на яндексе вот http://news.yandex.ru/yandsearch?cl4url=www.regnum.ru/news/592928.html&country=Russia&cat=0 Вроде как это можно сделать на основе метода Neo, но только не пойму где хранится эта сеть? почему-то таблицы crossdict,ncrossdict,ndict пустые,в таблице links все строчки примерно такие mysql> select * from links order by ot limit 10; +----+----+------------+-------+ | ot | k | weight | valid | +----+----+------------+-------+ | 0 | 2 | 0 | t | | 2 | 2 | 0 | t | | 3 | 3 | 0.00518672 | t | | 4 | 4 | 0.00518672 | t | | 5 | 5 | 0.00518672 | t | | 6 | 6 | 0.00518672 | t | | 7 | 7 | 0.00518672 | t | | 8 | 8 | 0.00518672 | t | | 9 | 9 | 0.00518672 | t | | 10 | 10 | 0.00518672 | t | +----+----+------------+-------+ mysql> select weight,valid from links group by weight,valid; +-------------+-------+ | weight | valid | +-------------+-------+ | 0 | t | | 0.000134591 | t | | 0.00518672 | t | +-------------+-------+ 3 rows in set (0.02 sec) всего в links 9229 строк. в url 9228 записей, pop_tank у всех одинаковый mysql> select rec_id,url,pop_rank from url limit 10; +--------+-----------+------------+ | rec_id | url | pop_rank | +--------+-----------+------------+ | 2 | htdb:/ | 9e-06 | | 3 | htdb:/760 | 1.3451e-05 | | 4 | htdb:/761 | 1.3451e-05 | | 5 | htdb:/762 | 1.3451e-05 | | 6 | htdb:/763 | 1.3451e-05 | | 7 | htdb:/764 | 1.3451e-05 | | 8 | htdb:/765 | 1.3451e-05 | | 9 | htdb:/766 | 1.3451e-05 | | 10 | htdb:/767 | 1.3451e-05 | | 11 | htdb:/768 | 1.3451e-05 | +--------+-----------+------------+ 10 rows in set (0.01 sec) метод для простоты взял single,индексирую htdb во так: HTDBList "select id from news where id < 10000" HTDBDoc "SELECT CONCAT(\ 'HTTP/1.0 200 OK\\r\\n',\ 'Content-type: text/plain\\r\\n',\ '\\r\\n',\ title,'\n',announce,'\n',body) \ FROM news WHERE id='$1'" - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
