Steffen Grunewald schrieb:
> On Mon 2012-03-12 (00:56), Michael Bemmerl wrote:
>>> Ich würde jedenfalls erst einmal die Geocoder-DB ansehen, welche 
>>> Überraschungen dort noch warten.
>> Richtig, in der Datenbank ist Mischmasch zwischen ISO-8819-x und UTF-8.
>> Beispiel ID 7: "Châteaugiron". Das â ist als 0xE2 in der DB, wäre als
>> UTF-8 aber 0xC3 0xA2.
> 
> Und noch schlimmer, der zugehörige Großbuchstabe wäre 0xC2, ein weit
> verbreiteter UTF-8-"Präfix".

> Ein einzelnes Byte >=0x80 ließe sich ja u.U. noch erkennen (und mit ein
> wenig Hintergrund, der die Zuordnung der Codierung erlaubt, auch automatisch
> korrekt nach UTF-8 wandeln), aber was ist mit aufeinanderfolgenden solchen
> Zeichen ("äß", etc, s.o.)? 

Die Änderung am Code, wodurch UTF-8-Zeichen in die Latin-1-DB gekommen
sind, ist ja am 10.08.2011 gepushed worden. Eventuell wäre es somit
möglich, nur die Texte der Bugs zu konvertieren, die vor diesem Datum in
die DB eingetragen worden sind?

Grüße,
Michael

Attachment: signature.asc
Description: OpenPGP digital signature

_______________________________________________
Talk-de mailing list
[email protected]
http://lists.openstreetmap.org/listinfo/talk-de

Antwort per Email an