Alexey Pechnikov wrote:
On Tuesday 09 February 2010 23:42:08 Serhiy Storchaka wrote:
Десятикратная разница в скорости показывает проблему реализации. Но все
равно непосредственно сам поиск как минимум на два порядка быстрее,
нежели построение фрагмента с найденным текстом.
Это вы
Hello!
On Wednesday 10 February 2010 21:23:44 Serhiy Storchaka wrote:
Если объём записи достаточно большой (содержимое документа) и исключить
кеширование (большая база и не повторяющийся запрос), то извлечение
содержимого из файла и из базы будет мало отличаться.
Это ничему не противоречит -
Hello!
On Tuesday 09 February 2010 06:56:25 Stanislav Vlasov wrote:
9 февраля 2010 г. 1:42 пользователь Alexey Pechnikov
pechni...@mobigroup.ru написал:
==
Вопрос к сообществу: кто подскажет способ преобразовать в
форматированный текст форматы fb2,
Alexey Pechnikov пишет:
.xslt для fb2 и различных форматов - на сайте грибузера должны быть.
А как сайт называется?
http://www.fictionbook.org/index.php/FictionBook
--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact
9 февраля 2010 г. 15:15 пользователь Alexey Pechnikov
pechni...@mobigroup.ru написал:
xsltproc -o - file.xslt -
Пока что делаю вот так для всех xml-файлов:
$ exec sed 's/ / and /g' | xsltproc
/usr/share/sqlite3-poisk/file_textfilter/application/xml.xslt - | sed '/^$/d'
Хм... Тоже вариант,
Hello!
On Tuesday 09 February 2010 13:50:37 Stanislav Vlasov wrote:
9 февраля 2010 г. 15:15 пользователь Alexey Pechnikov
pechni...@mobigroup.ru написал:
xsltproc -o - file.xslt -
Пока что делаю вот так для всех xml-файлов:
$ exec sed 's/ / and /g' | xsltproc
9 февраля 2010 г. 16:14 пользователь Alexey Pechnikov
pechni...@mobigroup.ru написал:
xsltproc -o - file.xslt -
Пока что делаю вот так для всех xml-файлов:
$ exec sed 's/ / and /g' | xsltproc
/usr/share/sqlite3-poisk/file_textfilter/application/xml.xslt - | sed
'/^$/d'
Хм... Тоже
Alexey Pechnikov wrote:
$ time find /tmp/* | POISK_DB=DB ./poisk-add-file.tcl
Лучше бы чтение имён файлов из stdin сделать опциональным, при указании
специального ключика.
Сейчас
обрабатываю как xml, с помощью sed заменяя амперсанд (кривой
xml в fb2 - вместо amp; в нем фигачат просто ).
Alexey Pechnikov wrote:
Утилита find в дебиане майм-тип для *.fb2 отдает как application/xml,
так что или верить расширению, или пользоваться универсальным парсером для
xml. В обоих случаях есть свои плюсы и минусы.
The environment variable MAGIC can be used to set the default magic
number
Hello!
On Tuesday 09 February 2010 15:03:36 Serhiy Storchaka wrote:
Alexey Pechnikov wrote:
Утилита find в дебиане майм-тип для *.fb2 отдает как application/xml,
так что или верить расширению, или пользоваться универсальным парсером для
xml. В обоих случаях есть свои плюсы и минусы.
The
Hello!
On Tuesday 09 February 2010 15:00:18 Serhiy Storchaka wrote:
Alexey Pechnikov wrote:
$ time find /tmp/* | POISK_DB=DB ./poisk-add-file.tcl
Лучше бы чтение имён файлов из stdin сделать опциональным, при указании
специального ключика.
Ок.
Сейчас
обрабатываю как xml, с помощью
Alexey Pechnikov wrote:
On Tuesday 09 February 2010 15:00:18 Serhiy Storchaka wrote:
Alexey Pechnikov wrote:
Сейчас
обрабатываю как xml, с помощью sed заменяя амперсанд (кривой
xml в fb2 - вместо amp; в нем фигачат просто ).
Такие файлы лучше сразу отвергать.
Эдак мы рискуем
Hello!
On Tuesday 09 February 2010 15:48:55 Serhiy Storchaka wrote:
Такие файлы лучше сразу отвергать.
Эдак мы рискуем выплеснуть с водой и некоторые хорошие книги. На
либрусеке, к примеру, такие точно были.
Доли процента. И в этом случае следует не прятать проблему под ковёр, а
Alexey Pechnikov wrote:
Спасибо, но сейчас у меня задача несколько иная - обеспечить
индексирование оригинального набора документов. _Посоветовать_ исправить -
хорошо, но уж никак не игнорировать. Если по уму, то все не-юникодные
документы следует тоже выбросить, но что же тогда останется...
Hello!
On Monday 08 February 2010 23:42:16 Alexey Pechnikov wrote:
Кто поделится библиотекой либрусек в разных форматах? Думаю,
электронные библиотеки - первый кандидат на тестирование. У меня
несколько сот книжек с либрусека было скачано, пока его не прикрыли,
их индексацию проверил, в
On Tue, Feb 09, 2010 at 05:19:18PM +0300, Alexey Pechnikov wrote:
Hello!
Что касается электронной библиотеки, есть такой вопрос: насколько
опревдана библиотека с поддержкой одного лишь формата (fb2 или epub)?
Поддерживать fb2 IMHO не надо. Надо поддерживать XML + архиваторы и
компрессоры. То
Hello!
On Tuesday 09 February 2010 17:44:46 Иван Лох wrote:
Что касается электронной библиотеки, есть такой вопрос: насколько
опревдана библиотека с поддержкой одного лишь формата (fb2 или epub)?
Поддерживать fb2 IMHO не надо. Надо поддерживать XML + архиваторы и
компрессоры. То есть
On 2010.02.09 at 00:49:12 +0300, Alexey Pechnikov wrote:
Hello!
On Tuesday 09 February 2010 00:21:33 Grey Fenrir wrote:
всё уже украдено:
http://torrents.ru/forum/viewtopic.php?t=1855424
Там регистрироваться надо. Мне бы http или ftp.
Кроме torrents.ru существуют нормальные трекеры.
А
Hello!
On Tuesday 09 February 2010 21:09:59 Иван Лох wrote:
Да вот не хотелось бы в базу _встраивать_ xslt-процессор, который в таком
А чего та встраивать-то? Это маленькая библиотека.
Тоже верно - на фоне libICU, необходимой для поддержки юникода..
Ну если парсер быстрый и один и тот-же
Alexey Pechnikov wrote:
Когда каждый документ будет fb2-файлом, упакованным в zip-архив, то нужно
достать файл из архива, преобразовать в текст и получить найденный
фрагмент - то есть придется немало операций выполнить. Так что идея
открывать _много_ файлов для построения выделенных фрагментов
Hello!
Вот более наглядно:
sqlite select rowid from file_text where file_text match 'london';
...
CPU Time: user 0.00 sys 0.00
sqlite select snippet(file_text) from file_text where file_text match 'london';
...
CPU Time: user 0.464029 sys 0.048003
То есть сам поиск практически не стоит
Hello!
On Tuesday 09 February 2010 23:00:20 Serhiy Storchaka wrote:
Когда каждый документ будет fb2-файлом, упакованным в zip-архив, то нужно
достать файл из архива, преобразовать в текст и получить найденный
фрагмент - то есть придется немало операций выполнить. Так что идея
открывать
Alexey Pechnikov wrote:
Десятикратная разница в скорости показывает проблему реализации. Но все
равно непосредственно сам поиск как минимум на два порядка быстрее, нежели
построение фрагмента с найденным текстом.
Это вы тестируете когда база закеширована в памяти? На стогигабайтной базе с
Hello!
On Tuesday 09 February 2010 23:42:08 Serhiy Storchaka wrote:
Десятикратная разница в скорости показывает проблему реализации. Но все
равно непосредственно сам поиск как минимум на два порядка быстрее, нежели
построение фрагмента с найденным текстом.
Это вы тестируете когда база
Hello!
Итак, сделал поддержку архивов (пока скрипт только для zip
написал, но добавить прочие несложно), все обработчики
реализованы раздельными шелл-скриптами (без башизмов!),
большинство depends перемещены в recommends, а в обработчиках
сделана функция самотестирования (при запуске индексатора
On Mon, 8 Feb 2010 23:42:16 +0300
Alexey Pechnikov wrote:
Кто поделится библиотекой либрусек в разных форматах? Думаю,
электронные библиотеки - первый кандидат на тестирование. У меня
несколько сот книжек с либрусека было скачано, пока его не прикрыли,
их индексацию проверил, в zip-архиве и
Hello!
On Tuesday 09 February 2010 00:21:33 Grey Fenrir wrote:
всё уже украдено:
http://torrents.ru/forum/viewtopic.php?t=1855424
Там регистрироваться надо. Мне бы http или ftp.
Best regards, Alexey Pechnikov.
http://pechnikov.tel/
9 февраля 2010 г. 1:42 пользователь Alexey Pechnikov
pechni...@mobigroup.ru написал:
==
Вопрос к сообществу: кто подскажет способ преобразовать в
форматированный текст форматы fb2, epub? Парсер должен брать
ввод на stdin и выдавать на stdout, без
Завершил цикл Google Mapplets
http://geomapx.blogspot.com/2007/06/google-mapplets.html
сделал авторский перевод введения в карты гугл (для одного печатного журнала
пойдет, потому старался писать как можно проще, чтоб малознакомые с интернет
люди разобрались):
Добрый день!
Продолжение вот такое:
Прокатила последовательность команд:
net join
net rpc join
net ads join xxx
тепрь все видит и слышит :)
Но не авторизует
Почитал сырцы сабжа еще немного. Прилагаю патч, который может быть интересен
владельцам карточек от NVIDIA. Патч разрешает Pixel Clock вплоть до 230 МГц.
Подозреваю, что для GPU NV3 и старше это допустимо. На своем компе тестил
только до 140 МГц: дальше монитор не тянет. Карточка - GeForce2 MX
В сообщении от 5 Май 2006 14:10 Sergievskaya Irina написал(a):
Во первых стоило писать в тот же тред, а не начинать новый, так было бы
удобнее.
Hello debian-russian,
Заранее прошу прощения за длинный пост, но хотелось бы разобратся.
Была прислана такая рекомендация
#file
В сообщении от 5 Май 2006 19:14 Hodot D.A. написал(a):
В сообщении от 5 Май 2006 14:10 Sergievskaya Irina написал(a):
Во первых стоило писать в тот же тред, а не начинать новый, так было бы
удобнее.
Hello debian-russian,
Заранее прошу прощения за длинный пост, но хотелось бы разобратся.
Hello Hodot,
Friday, May 5, 2006, 8:45:06 PM, you wrote:
Нечаянно вышло... сорь :)
Дублирую.
Это после команды pon ?
в таком случае видно что ppp0 не поднялся
Честно говоря, я обладаю самым минимумом знаний, посему не
поняла, что именно не поднялось и соответственно,как это лечить.
Может http://pptpclient.sourceforge.net/ поможет?
там хороший (очень) howto, есть графическая утилита для настройки.
Кстати, провайдер может как требовать тот или иной тип шифрования, так и
наоборот запрещать использовать какое-либо шифрование (обычно пишется в
бумажке\книжечке им выдаваемых).
Sergievskaya Irina пишет:
Hello debian-russian,
Заранее прошу прощения за длинный пост, но хотелось бы разобратся.
Была прислана такая рекомендация
#file /etc/ppp/options.pptp
lock
+chap
nobsdcomp
noauth
nodeflate
ipparam ai
defaultroute
#file /etc/ppp/chap-secrets
# Secrets for authentication
Sergievskaya Irina пишет:
Hello Hodot,
Friday, May 5, 2006, 8:45:06 PM, you wrote:
Нечаянно вышло... сорь :)
Дублирую.
Это после команды pon ?
в таком случае видно что ppp0 не поднялся
Честно говоря, я обладаю самым минимумом знаний, посему не
поняла, что именно не поднялось и
On Tue, 20 May 2003 02:06:28 +0300
Bogdan [EMAIL PROTECTED] wrote:
1) Как сменить набор иконок в наутилусе? Не mime-типыб а навигцию всякую
2) Как побороть то явление, что дефолтные шрифты очень маленькие, а
поправленые на control-centrer при перезагрузке XFree теряются
Заметил такое явление
On Tue, 20 May 2003 11:38:25 +0300
Bogdan [EMAIL PROTECTED] wrote:
On Tue, 20 May 2003 02:06:28 +0300
Bogdan [EMAIL PROTECTED] wrote:
1) Как сменить набор иконок в наутилусе? Не mime-типыб а навигцию всякую
2) Как побороть то явление, что дефолтные шрифты очень маленькие, а
поправленые
Здравствуйте.
Сегодня столкнулся вот с какой проблемой.
Согласно ридми к jabber поправил /etc/jabber/jabber.cfg
-
#!/bin/sh
# JABBER_HOSTNAME (which is then passed to jabberd in the -h switch)
+Kenobi ([EMAIL PROTECTED]) wrote:
Здравствуйте.
Сегодня столкнулся вот с какой проблемой.
Согласно ридми к jabber поправил /etc/jabber/jabber.cfg
-
#!/bin/sh
# JABBER_HOSTNAME (which is then passed to jabberd in
Самое странное, что jabberd с родным стартовам скриптом не работает :(
Или это только у меня, а у вас как?
ЗЫ. А это, случаем, не баг?
Привет, коллеги.
On Fri, Jan 24, 2003 at 03:16:41PM +0200, Alexander Timoshenko wrote:
Достаточно стандартные грабли при unclean shutdown. Рекомендую
проверять наличие процессов а не .pid файла Нечто вроде
if [ x == x`ps ax | grep jabberd | grep -v grep` ] ;
then
rm -f
On Mon, 19 Mar 2001, BeerBong wrote:
Date: Mon, 19 Mar 2001 15:08:23 +0400
From: BeerBong [EMAIL PROTECTED]
To: debian-russian debian-russian@lists.debian.org
Subject: Продолжение проблем с ядром
Resent-From: debian-russian@lists.debian.org
В пятницу были проблемы с __alloc_pages
В пятницу были проблемы с __alloc_pages...
Было ясно что проблемы со свопом, у которого работа в 2.4.2 изменилась
(Размер свопа был такой же как и размер RAM), срочно был проведен
даунгрейд
до 2.2.18, в субботу, воскресенье сервер вел себя достойно, не
капризничал.
В понедельник в
45 matches
Mail list logo