[id-ruby] Baca wikipedia offline - ikutlah mengembankan!

Stian Haklev Mon, 14 May 2007 10:33:24 -0700

Halo rekan2 semuanya...

aku sudah lama penggemar besar Wikipedia, dan sering pengen baca Wikipedia
ketika lagi tidak ada internet (khususnya di Indonesia kan sering, tapi
bahkan di Norwegia, kalau aku di bis, atau di luar di mana)... mereka
mengadakan kumpulan semua halaman dalam html, dengan 7zip - tapi filenya
banyak sekali dan besar sekali bila diextract... contohnya Wikipedia bahasa
indonesia sekitar 80 mb download, kalau di uncompress sizenya 2G!.. na
bayangkan dengan yg bahasa inggeris yg 6 GB downloadnya aja! Jadi aku sudah
lama sedang mencari cara baca wikipedia offline tanpa harus extract.


akhirnya lumayan berhasil. aku bikin fileformat binary sendiri, dengan pakai
library bzip2, tapi indexnya aku bikin sendiri supaya cepat sekali bahkan
dengan berjuta-juta file (coba pake 7zip unextract one file dari 7z file
dengan sejuta file - butuh berapa menit!)... programnya sudah jalan dengan
lumayan baik (pasti masih harus diperbaiki tapi jalan)... aku bahkan pernah
tawarin ke majlaah info-linux untuk membikinnya tutorial ruby dari script
ini dan mereka setuju... jadi

1) saya senang kalo teman2 mau main2 dengan script ini dan kasih tunjukkan
bagaimana bisa diperbaiki, tidak hanya fungsinya tapi juga kecepatan,
kebesaran file hasilnya, dan bahkan ke-estetisnya kodenya - kalau nanti akan
pake kode ini utk mengajar org lain...
2) yg penting sekali: nanti aku mau bikin CD / DVD beberapa wikipedia yg
bisa didistribusikan secara bebas... mereka harusnya bisa jalan langsung
dari CD / DVD utk mac, linux dan windows untuk org yg belum pernah
menginstal ruby ... aku sudah main2 dengan rubyscript2exe, yang lumayan
berhasil, tapi sekarang dia juga pake dua extension binary (mongrel utk
webserver dan bzip2 utk compression). aku pernah bikin satu binary utk mac
yg jalan di mac-ku, tapi tidak di mac temanku - jadi ada file yg salah...
aku belum sempat lebih investigate.
juga - sekarang kan cuma tekstbased. aku pernah mulai bikin yg simpel banget
yg Tk based (sebenarnya hanya utk bilang "server is running" click here to
stop it - karena semua informasinya di baca dengan webbrowser ke localhost,
jadi ga susah... tapi pasti bisa diperbaiki...

jadi anyway tolong di take a look, jangan ketawa kalo kode ruby saya kurang
pas, dan semua masukkan sangat welcome. aku attach kode snapshot di sini,
tapi kode yg terbaru bisa didapet di git://repo.or.cz/zip-doc (dia diupdate
satu/dua kali sehari)... nanti kalau ada orang yg mau kontribusi, kasih tau,
dan aku kasih aksess ke repo itu.

(dengan program ini kan bisa bikin dump file sendiri, tapi karena butuh
waktu yg agak panjang aku sedang upload contoh wikipedia indonesia, yg 50 MB
- bentar lagi aku kasih alamatnya)

Ini alamat dumpfilenya: http://70.47.70.10/zip-doc/id.zdump

stian


[Non-text portions of this message have been removed]

[id-ruby] Baca wikipedia offline - ikutlah mengembankan!

Kirim email ke