Hello! On Tuesday 09 February 2010 15:48:55 Serhiy Storchaka wrote: > >> Такие файлы лучше сразу отвергать. > > > > Эдак мы рискуем выплеснуть с водой и некоторые хорошие книги. На > > либрусеке, к примеру, такие точно были. > > Доли процента. И в этом случае следует не прятать проблему под ковёр, а > взять, да и исправить испорченные документы. Иначе с ними не смогут > работать и другие программы. Да и других проблем наверняка в них хватает. > > Советую набор утилит для починки плохих fb2: > https://fb2-perl-tools.svn.sourceforge.net/svnroot/fb2-perl-tools/trunk/fb2-python-tools
Спасибо, но сейчас у меня задача несколько иная - обеспечить индексирование оригинального набора документов. _Посоветовать_ исправить - хорошо, но уж никак не игнорировать. Если "по уму", то все не-юникодные документы следует тоже выбросить, но что же тогда останется... Собственно, написание индексатора для набора _валидных юникодных_ документов - тривиально, но малополезно (в этом случае не нужны цепочки фильтров, да и сама обработка несложная). Best regards, Alexey Pechnikov. http://pechnikov.tel/

