On Saturday 19 February 2005 23:21, Achmad Husni Thamrin wrote: > On Sun, 20 Feb 2005 01:10:38 +0900, Pakcik <[EMAIL PROTECTED]> wrote: > > iseng2 bikin crawler, cari blog2 orang Indonesia. Ada ide nggak > > gimana caranya mengenali site itu, site orang Indonesia?? > > > > metode skrg cuma cari kata2 yg cuman biasanya ada dalam bahasa > > Indonesia, seperti "dan", "atau", "yang". kasih thresholdnya misalnya > > 10, kalau ada 10 ditemukan, berarti site orang Indonesia. > > Coba cari di google dengan kata kunci "web language identification" > atau semacamnya. > > Link paling atas untuk kata kunci di atas malah paper soal > identifikasi web bahasa Indonesia kerjaannya anak NUS. > > Ada juga yang bikin sensus bahasa di web, > http://www.language-observatory.org/ Menurut jadwal di situ, bulan ini > harusnya keluar sensus pertama.
itu buat mengenali site berbahasa indonesia, bukan site orang indonesia. gak semua site orang indonesia itu berbahasa indonesia. contohnya avianto.com, hi boy! ide saya: - cek IP, kalau IP berasal dari Indonesia, maka kemungkinan besar site orang indonesia - cek bahasa, ini bisa pake metode heuristic seperti mas husni, atau header Content-Language atau atribut lang="id" di XHTML, yang pakai bahasa indonesia kemungkinan besar orang indonesia - cek charset, kalau charsetnya aneh-aneh (misalnya cp1251, cp1256, eucjp, dsb) maka hampir gak mungkin itu site orang indonesia - kalau unicode, cek karakter, kalau banyak karakter aneh-aneh (non latin, atau ber-umlaut) maka kemungkinan bukan orang indonesia - kalau dilink oleh banyak orang indonesia maka kemungkinan orang indonesia - kalau melink ke banyak orang indonesia maka kemungkinan orang indonesia - cek contact whois, kalau orang indonesia maka kemungkinan besar milik orang indonesia, caranya mungkin cek alamat email
