Re: [ask] Crawl Forum Site

2018-12-05 Thread tkg_cangkul

Hi Lewis,

I've try to crawl from forum thread. But there are so many words that 
missing. especially from the quote or comment.


for example :
PFA the sample result from : 
https://m.kaskus.co.id/post/5bf06fb6c0d770e37e8b4567/?order=asc


From that *forum_solr_index.txt *file, on *content* field. There are so 
many words missing.

For example :

there are comment post like pict below:



The result that i've got only : *perusahaan jadi curiga gan ..*

Is there any advice for this case?

Pls Help

Best Regards,

Tukang Cangkul



On 04/12/18 10:00, lewis john mcgibbney wrote:

Hi Tukang,
In short yes. It would help if you could provide an example of what you've
tried and what you encountered/what your results were.
Lewis

On Mon, Dec 3, 2018 at 6:42 PM  wrote:


From: tkg_cangkul 
To: user@nutch.apache.org
Cc:
Bcc:
Date: Tue, 04 Dec 2018 09:40:47 +0700
Subject: [ask] Crawl Forum Site
Hi,

Is there possible to crawling Web Forum with Apache Nutch?
If possible, is there any configuration that i must add?
I've try it but i've nothing.

Pls help . Need advice.

Thanks

Best Regards,
Tukang Cangkul




{
"date":"2018-11-18T00:00:00Z",
"enforce_crawling__s":["0"],
"title":"SIa-siakah Izasah Saya? | KASKUS",
"url":"https://m.kaskus.co.id/post/5bf06fb6c0d770e37e8b4567/?order=asc;,
"content":"18-11-2018 01:29\nSIa-siakah Izasah Saya?\nHalo selamat pagi 
agan dan sista dimanapun kalian berada, ane disini mutlak ingin bercerita 
tentang apa yang ane rasakan selama 2 tahun terakhir ini, tidak maksud merengek 
atau jadi pecundang yang menyerah terhadap keadaan, ini hanya suatu bentuk 
curahan dan juga berbagi pengalaman saja\nAnd the story begin..\nRasa 
kesal, bersalah, marah, kecewa bahkan frustasi yang menjadi bibit-bibit 
keputusasaan bergejolak seiring berjalannya waktu yang tak terasa bergulir 
dengan kecepatan penuh. Hal ini mulai ane rasakan ketika ane lulus di sebuah 
Universitas di Bandung yang terkenal super mahal- dan susah nilai bisa tebak? 
dengan slogan A untuk Tuhan B untuk saya (ujar dosen) C untuk orang beruntung D 
dan E untuk kalian. hahaha sadar tak sadar memang ucapan yang sudah menjadi 
urban legend di kampus ane itu benar adanya. begitu mati-matiannya ane 
memperjuangkan sks demi sks untuk mendapatkan nilai yang baik, minimal B karena 
ambisi yang entah datang dari mana.\nDengan mengikuti kegiatan kampus yang 
memiliki profit di dalamnya ane tetep fokus di dunia perkuliahan untuk mencari 
nilai demi nilai agar kelak ketika lulus ane memiliki akses yang mungkin akan 
memudahkan ane untuk melanjutkan study atau mencari pekerjaan pikir ane waktu 
itu. Dan waktupun tak terasa berjalan begitu cepat hingga sampailah ane pada 
tahun 2016 Mei tepatnya untuk melaksanakan sidang akhir sebagai salah satu 
syarat kelulusan di kampus ane tercinta.\nDengan segala perjuangan yang ane 
lakuin ane pun sampai pada titik terakhir tersebut. Singkat cerita selesailah 
sudah segala syarat kelulusan untuk ane dapet izasah dan di wisuda dari kampus 
ane. Dengan IPK yang memuaskan bagi ane mengingat susahnya mencari nilai di 
kampus tersebut, dan yang menjadi kebanggaan lainnya adalah ketepatan waktu ya 
ane lulus tepat 4 tahun dengan dimulai pada tahun 2012 dan keluar pada tahun 
2016.\nAne pun memiliki perasaan gembira pada saat itu dan sama sekali tidak 
memiliki beban apapun karena merasa tugas ane sebagai pelajar atau mahasiswa 
telah berakhir. Dengan berbekal selembar kertas yang begitu bernilai untuk 
menyongsong masa depan, rasa syukur dan terimakasih kepada tuhan serta kedua 
orang tua yang telah berjibaku dalam hal ekonomi untuk membiayayi ane selama di 
kampus terbayar sudah. Rencana pun berlanjut untuk melanjutkan ke jenjang 
berikutnya, karena pada saat ane lulus di umur 21 tahun ane merasa belum 
terpikirkan untuk bekerja secara full time, ane masih ingin menghabiskan waktu 
ane untuk bermain lah kasarnya naun tetap ada kegiatan harian yakni kuliah 
lagi.\nAne pun gencar mencari kampus yang membuka lowongan penerimaan masuk di 
periode tersebut, setelah ane berusaha mengumpulkan bahan-bahan untuk masuk ke 
kampus tersebut ane terpaksa mengurungkan niat tersebut karena adanya 
percakapan dari orang tua ane yang tidak memiliki cukup biaya untuk melanjutkan 
jenjang study ane. Dengan alasan sang adik berbarengan untuk masuk ke jenjang 
S1. Apa mau dikata? yasudah ane menanggapi hal tersebut dengan bijak dan 
santai. yasudah bu pak kan masih ada tahun-tahun berikutnya, toh memang bukan 
rezeki, jawab ane.\nKemudian tak terasa 6 bulan sudah semenjak ane wisuda ane 
lebih banyak menghabiskan waktu dengan hal-hal tidak jelas, alias nongkrong dan 
nongkrong serta bermain kegemaran ane yakni bermain BAND wkwkw cita-cita sih 
pengen jadi rokeseta hahaha. Dan untuk keseharian ane mulai berbisnis 
apapun dari mulai jualan barang bekas sampai jualan baju di lapakan-lapakan 
a

Re: [ask] Crawl Forum Site

2018-12-03 Thread lewis john mcgibbney
Hi Tukang,
In short yes. It would help if you could provide an example of what you've
tried and what you encountered/what your results were.
Lewis

On Mon, Dec 3, 2018 at 6:42 PM  wrote:

>
> From: tkg_cangkul 
> To: user@nutch.apache.org
> Cc:
> Bcc:
> Date: Tue, 04 Dec 2018 09:40:47 +0700
> Subject: [ask] Crawl Forum Site
> Hi,
>
> Is there possible to crawling Web Forum with Apache Nutch?
> If possible, is there any configuration that i must add?
> I've try it but i've nothing.
>
> Pls help . Need advice.
>
> Thanks
>
> Best Regards,
> Tukang Cangkul
>
>

-- 
http://home.apache.org/~lewismc/
http://people.apache.org/keys/committer/lewismc


[ask] Crawl Forum Site

2018-12-03 Thread tkg_cangkul

Hi,

Is there possible to crawling Web Forum with Apache Nutch?
If possible, is there any configuration that i must add?
I've try it but i've nothing.

Pls help . Need advice.

Thanks

Best Regards,
Tukang Cangkul