On 05/08/2011 01:02 PM, Adrian Fita wrote:
> Salut.
>
> Caut o soluţie de căutare prin fişiere gen locate/slocate, dar care să
> permită interogări după parametrii lui find (gen -user, -ctime, size,
> perm, etc.). Am nevoie de o treabă de asta pt. că nu e nostim deloc
> atunci cînd ai de căutat prin terabytes de date, alcătuite din milioane
> şi milioane de fişiere de cîţiva kilo fiecare. Indexarea ar fi ideal să
> se facă folosind ceva inotify, ca să nu trebuiască să-l pornesc periodic
> cu cron, cu initofy evitînd astfel utilizarea excesivă a storage-ului,
> iar fişierele apar imediat în index. Mă rog, indexarea din cron aş putea
> s-o pornesc cu ceva ionice, dar fişierele nu mai apar instant în index.
>
> Ştiu de motoarele de căutare de desktop, dar acestea au o
> funcţionalitate mult peste nevoile mele şi consumă prea multe resurse.
> Eu _nu_ am nevoie să caut prin conţinutul fişierelor, iar din ce am
> văzut, aceste motoare de căutare nu se pot configura să _nu indexeze
> conţinutul_ şi nici n-am văzut prin uneltele lor de interogare parametri
> corespunzători celor din find.
>
> Deci, ştie cineva de o astfel de soluţie, sau măcar are idee cum se
> poate adapta un motor de căutare de desktop să facă numai ce am nevoie,
> fără să consume resurse excesiv?

banuiesc ca ai putea face ceva de genul asta cu solr si un pic de
scripting, dar s-ar putea sa fie un pic overkill sa pornesti un jetty +
solr pe masina respectiva; altfel, se descurca frumos cu indecsi de
milioane de documente, are interfata HTTP, cerinte mici de spatiu pe
disc (depinde cat de mult stochezi in index); un scriptulet cu
inotify/dnotify/gamin/ce mai e la moda acum pt monitorizat directoare nu
e greu de facut sa-ti urmareasca directorul respectiv si sa adauge
fisierele nou create in index

alta alternativa ar fi sa folosesti direct lucene sau xapian (eviti sa
pornesti un server http), la lucene e mai complicat cu binding-urile pt
limbajele de scripting [1] (dar poti folosi variantele care merg pe JVM
- jython, jruby, jperl, groovy, rhino, etc.), xapian sta mai bine aici [2].

[1] http://lucene.apache.org/ - exista numai pylucene care iti include o
masina virtuala Java in interpretorul de Python; merge bine, din cate
imi amintesc, nu m-am mai jucat de mult cu el
[2] http://trac.xapian.org/wiki/SampleCode
_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui