> Teman-teman Juggers adayang punya experience dengan apache TIKA. > http://tika.apache.org/index.html > > saya kurang bisa mengikuti getting started nya > > tujuan nya untuk mengindex file di local file sharing server biar kalo > searching file bisa ngebut,.. > tq all.
Digunakan untuk desktop sendiri apa digunakan di server? kalau dipake untuk desktop bisa lihat-lihat implementasi dari apache lucene di sini http://wiki.apache.org/lucene-java/PoweredBy Kalau untuk server sepertinya masalah utamanya adalah gimana caranya membuat API yang bisa dipanggil dari aplikasi yang jalan di webserver. Tika sendiri cuma semacam proxy facade untuk melakukan indexing terhadap berbagai macam file, implementasi gimana cara indexing setiap jenis file dilakukan oleh library berbeda-beda: nekohtml untuk html file, poi untuk office, itext untuk pdf dan seterusnya. Input dari tika adalah file dokumen dan outputnya adalah string, nah setelah dioutput string text ini baru masuk ke dalam lucene untuk diindex lebih lanjut. Setelah dari tika diparsing dokumen menjadi text, kemudian diteruskan ke lucene untuk diindex. Langkah berikutnya adalah membuat query language untuk mendapatkan dokumen. Google mempunyai sintax query language untuk menyempitkan pencarian, misalnya menggunakan tanda petik atau menggunakan site: atau menggunakan sintaks lain. Nah tantangan paling besar justru gimana cara mendefinisikan search query ini kemudian menterjemahkanya ke dalam lucene query. Biasanya search query language ini termasuk ke dalam DSL (Domain specific language) terhadap dokumen yang diindex. Misalnya kalau di instansi pemerintahan kan banyak kategori dokumen, jadi bisa dibuat query language seperti ini misalnya "pembatalan keputusan type:SK" dimana SK diterjemahkan sebagai jenis dokumen yang termasuk kategori Surat Keputusan . ;) -- regards

