On Saturday 19 February 2005 23:21, Achmad Husni Thamrin wrote:
> On Sun, 20 Feb 2005 01:10:38 +0900, Pakcik <[EMAIL PROTECTED]> wrote:
> > iseng2 bikin crawler,  cari blog2 orang Indonesia. Ada ide nggak
> > gimana caranya mengenali site itu, site orang Indonesia??
> >
> > metode skrg cuma cari kata2 yg cuman biasanya ada dalam bahasa
> > Indonesia, seperti "dan", "atau", "yang". kasih thresholdnya misalnya
> > 10, kalau ada 10 ditemukan, berarti site orang Indonesia.
>
> Coba cari di google dengan kata kunci "web language identification"
> atau semacamnya.
>
> Link paling atas untuk kata kunci di atas malah paper soal
> identifikasi web bahasa Indonesia kerjaannya anak NUS.
>
> Ada juga yang bikin sensus bahasa di web,
> http://www.language-observatory.org/ Menurut jadwal di situ, bulan ini
> harusnya keluar sensus pertama.

itu buat mengenali site berbahasa indonesia, bukan site orang indonesia. gak 
semua site orang indonesia itu berbahasa indonesia. contohnya avianto.com, hi 
boy!

ide saya:
- cek IP, kalau IP berasal dari Indonesia, maka kemungkinan besar site orang 
indonesia
- cek bahasa, ini bisa pake metode heuristic seperti mas husni, atau header 
Content-Language atau atribut lang="id" di XHTML, yang pakai bahasa indonesia 
kemungkinan besar orang indonesia
- cek charset, kalau charsetnya aneh-aneh (misalnya cp1251, cp1256, eucjp, 
dsb) maka hampir gak mungkin itu site orang indonesia
- kalau unicode, cek karakter, kalau banyak karakter aneh-aneh (non latin, 
atau ber-umlaut) maka kemungkinan bukan orang indonesia
- kalau dilink oleh banyak orang indonesia maka kemungkinan orang indonesia
- kalau melink ke banyak orang indonesia maka kemungkinan orang indonesia
- cek contact whois, kalau orang indonesia maka kemungkinan besar milik orang 
indonesia, caranya mungkin cek alamat email

Kirim email ke