[ 
https://issues.apache.org/jira/browse/NUTCH-1530?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=13576898#comment-13576898
 ] 

Roland commented on NUTCH-1530:
-------------------------------

Hi Edward,

there must be another factor causing this, because I'm running nutch & 
cassandra (via separate inject - generate - fetch - parse cycle) for german 
sites and it works well.
e.g. kleinanzeigen.ebay.de:
=> (column=c, value=Einbauküche sehr gut und günstig in Nordrhein-Westfalen - 
Emsdetten | eBay Kleinanzeigen Kostenlos. Einfach. Lokal. Meine Kleinanzeigen 
Anzeige aufgeben Merkliste eBay Suchen GRATIS Anzeige aufgeben Was In Allen 
Kategorien Wo + 0 km + 5 km + 10 km + 20 km + 50 km + 100 km + 200 km Finden 
Beliebte Suchen:  Ihc  |  Chihuahua  |  Vespa  |  Ipad  |  Anhänger  |  
Abendkleid Kleinanzeigen > Haus & Garten > Küche & Esszimmer Leider gibt es 
diese Anzeige nicht mehr: Einbauküche sehr gut und günstig Hier gibt es eine 
Küche im guten Zustand. Es sind leider nicht mehr all...

[this is nutch 2.1 & cassandra 1.2.1]

--Roland
                
> Umlauts (üäö) garbled when fetch and parse in separate calls (OK when 
> fetcher.parse is true)
> --------------------------------------------------------------------------------------------
>
>                 Key: NUTCH-1530
>                 URL: https://issues.apache.org/jira/browse/NUTCH-1530
>             Project: Nutch
>          Issue Type: Bug
>          Components: parser
>    Affects Versions: 2.1
>         Environment: Using Cassandra-1.2.1 as data store.
>            Reporter: Edward Ackroyd
>
> When crawling http://www.spiegel.de (popular German news site) in separate 
> fetch and parse calls (nutch fetch, then nutch parse, fetcher.parse=false) 
> this lands in Cassandra (umlauts all garbled, for example '�' instead of 
> 'ö'):
> [default@webpage] list p;
> RowKey: de.spiegel.www:http/
> => (column=c, value=SPIEGEL ONLINE - Nachrichten Schlagzeilen Hilfe RSS 
> Newsletter Mobil Wetter TV-Programm Dienstag, 12. Februar 2013 SPIEGEL ONLINE 
> NACHRICHTEN Home Politik Deutschland Ausland   Wirtschaft B�rse Verbraucher 
> & Service Unternehmen & M�rkte Staat & Soziales Jobsuche Immowelt   
> Panorama Justiz Leute Gesellschaft Partnersuche Eurojackpot Tarifvergleiche   
> Sport Wintersport Fu�ball Bundesliga...
> However, when fetcher.parse=true and the fetch call does the parsing, the 
> correct umlauts land in Cassandra:
> [default@webpage] list p;
> RowKey: de.spiegel.www:http/
> => (column=c, value=SPIEGEL ONLINE - Nachrichten Schlagzeilen Hilfe RSS 
> Newsletter Mobil Wetter TV-Programm Dienstag, 12. Februar 2013 SPIEGEL ONLINE 
> NACHRICHTEN Home Politik Deutschland Ausland   Wirtschaft Börse Verbraucher & 
> Service Unternehmen & Märkte Staat & Soziales Jobsuche Immowelt   Panorama 
> Justiz Leute Gesellschaft Partnersuche Eurojackpot Tarifvergleiche   Sport 
> Wintersport Fußball Bundesliga...
> Seems the content is over-encoded when fetching/parsing in separate calls.

--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators
For more information on JIRA, see: http://www.atlassian.com/software/jira

Reply via email to