Да слышал про такой алгоритм, если одна статья или сайт не в базе, то не работает.
четверг, 14 июня 2012 г. пользователь Alexandr Alexeev писал: > Алгоритм примерно такой: > - грузим две страницы с разным контентом (например, две новости) > - делаем diff > - все, кроме одинаковых частей - это контент > > 14 июня 2012 г., 13:47 пользователь Анатолий Шарифулин < > [email protected] <javascript:_e({}, 'cvml', > '[email protected]');>>написал: > >> Привет! >> >> Может кто-нибудь знает алгоритмы или реализации Safari Reader, >> Readability или Evernote Clearly. >> >> На CPAN нашёл только старые реализации: >> >> https://metacpan.org/module/HTML::ExtractMain (алгоритм readability.js) >> https://metacpan.org/module/HTML::ExtractContent >> >> Но они не очень. >> >> -- >> С уважением, >> Анатолий Шарифулин. >> >> -- >> Moscow.pm mailing list >> [email protected] <javascript:_e({}, 'cvml', '[email protected]');> | >> http://moscow.pm.org >> >> > > > -- > С уважением, Александр > Личный блог: http://eax.me/ > Мой форум: http://it-talk.org/ > Мой Twitter: http://twitter.com/afiskon > > -- С уважением, Анатолий Шарифулин.
_______________________________________________ Kiev-pm mailing list [email protected] http://mail.pm.org/mailman/listinfo/kiev-pm
