Re: [JUG-Indonesia] Apache TIKA

Ifnu bima Mon, 31 May 2010 06:07:33 -0700

> Teman-teman Juggers adayang punya experience dengan apache TIKA.  
> http://tika.apache.org/index.html
>
> saya kurang bisa mengikuti getting started nya
>
> tujuan nya untuk mengindex file di local file sharing server biar kalo 
> searching file bisa ngebut,..
> tq all.


Digunakan untuk desktop sendiri apa digunakan di server? kalau dipake
untuk desktop bisa lihat-lihat implementasi dari apache lucene di sini

http://wiki.apache.org/lucene-java/PoweredBy

Kalau untuk server sepertinya masalah utamanya adalah gimana caranya
membuat API yang bisa dipanggil dari aplikasi yang jalan di webserver.
Tika sendiri cuma semacam proxy facade untuk melakukan indexing
terhadap berbagai macam file, implementasi gimana cara indexing setiap
jenis file dilakukan oleh library berbeda-beda: nekohtml untuk html
file, poi untuk office, itext untuk pdf dan seterusnya. Input dari
tika adalah file dokumen dan outputnya adalah string, nah setelah
dioutput string text ini baru masuk ke dalam lucene untuk diindex
lebih lanjut.

Setelah dari tika diparsing dokumen menjadi text, kemudian diteruskan
ke lucene untuk diindex. Langkah berikutnya adalah membuat query
language untuk mendapatkan dokumen. Google mempunyai sintax query
language untuk menyempitkan pencarian, misalnya menggunakan tanda
petik atau menggunakan site: atau menggunakan sintaks lain. Nah
tantangan paling besar justru gimana cara mendefinisikan search query
ini kemudian menterjemahkanya ke dalam lucene query. Biasanya search
query language ini termasuk ke dalam DSL (Domain specific language)
terhadap dokumen yang diindex. Misalnya kalau di instansi pemerintahan
kan banyak kategori dokumen, jadi bisa dibuat query language seperti
ini misalnya "pembatalan keputusan type:SK" dimana SK diterjemahkan
sebagai jenis dokumen yang termasuk kategori Surat Keputusan . ;)

--

regards

Re: [JUG-Indonesia] Apache TIKA

Kirim email ke