On 05/08/2011 01:02 PM, Adrian Fita wrote: > Salut. > > Caut o soluţie de căutare prin fişiere gen locate/slocate, dar care să > permită interogări după parametrii lui find (gen -user, -ctime, size, > perm, etc.). Am nevoie de o treabă de asta pt. că nu e nostim deloc > atunci cînd ai de căutat prin terabytes de date, alcătuite din milioane > şi milioane de fişiere de cîţiva kilo fiecare. Indexarea ar fi ideal să > se facă folosind ceva inotify, ca să nu trebuiască să-l pornesc periodic > cu cron, cu initofy evitînd astfel utilizarea excesivă a storage-ului, > iar fişierele apar imediat în index. Mă rog, indexarea din cron aş putea > s-o pornesc cu ceva ionice, dar fişierele nu mai apar instant în index. > > Ştiu de motoarele de căutare de desktop, dar acestea au o > funcţionalitate mult peste nevoile mele şi consumă prea multe resurse. > Eu _nu_ am nevoie să caut prin conţinutul fişierelor, iar din ce am > văzut, aceste motoare de căutare nu se pot configura să _nu indexeze > conţinutul_ şi nici n-am văzut prin uneltele lor de interogare parametri > corespunzători celor din find. > > Deci, ştie cineva de o astfel de soluţie, sau măcar are idee cum se > poate adapta un motor de căutare de desktop să facă numai ce am nevoie, > fără să consume resurse excesiv?
banuiesc ca ai putea face ceva de genul asta cu solr si un pic de scripting, dar s-ar putea sa fie un pic overkill sa pornesti un jetty + solr pe masina respectiva; altfel, se descurca frumos cu indecsi de milioane de documente, are interfata HTTP, cerinte mici de spatiu pe disc (depinde cat de mult stochezi in index); un scriptulet cu inotify/dnotify/gamin/ce mai e la moda acum pt monitorizat directoare nu e greu de facut sa-ti urmareasca directorul respectiv si sa adauge fisierele nou create in index alta alternativa ar fi sa folosesti direct lucene sau xapian (eviti sa pornesti un server http), la lucene e mai complicat cu binding-urile pt limbajele de scripting [1] (dar poti folosi variantele care merg pe JVM - jython, jruby, jperl, groovy, rhino, etc.), xapian sta mai bine aici [2]. [1] http://lucene.apache.org/ - exista numai pylucene care iti include o masina virtuala Java in interpretorul de Python; merge bine, din cate imi amintesc, nu m-am mai jucat de mult cu el [2] http://trac.xapian.org/wiki/SampleCode _______________________________________________ RLUG mailing list [email protected] http://lists.lug.ro/mailman/listinfo/rlug
