Re: [Talk-de] OSBugs bug?

2012-03-14 Diskussionsfäden Michael Bemmerl
Steffen Grunewald schrieb:
 On Mon 2012-03-12 (00:56), Michael Bemmerl wrote:
 Ich würde jedenfalls erst einmal die Geocoder-DB ansehen, welche 
 Überraschungen dort noch warten.
 Richtig, in der Datenbank ist Mischmasch zwischen ISO-8819-x und UTF-8.
 Beispiel ID 7: Châteaugiron. Das â ist als 0xE2 in der DB, wäre als
 UTF-8 aber 0xC3 0xA2.
 
 Und noch schlimmer, der zugehörige Großbuchstabe wäre 0xC2, ein weit
 verbreiteter UTF-8-Präfix.

 Ein einzelnes Byte =0x80 ließe sich ja u.U. noch erkennen (und mit ein
 wenig Hintergrund, der die Zuordnung der Codierung erlaubt, auch automatisch
 korrekt nach UTF-8 wandeln), aber was ist mit aufeinanderfolgenden solchen
 Zeichen (äß, etc, s.o.)? 

Die Änderung am Code, wodurch UTF-8-Zeichen in die Latin-1-DB gekommen
sind, ist ja am 10.08.2011 gepushed worden. Eventuell wäre es somit
möglich, nur die Texte der Bugs zu konvertieren, die vor diesem Datum in
die DB eingetragen worden sind?

Grüße,
Michael



signature.asc
Description: OpenPGP digital signature
___
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de


Re: [Talk-de] OSBugs bug?

2012-03-13 Diskussionsfäden Steffen Grunewald
On Mon 2012-03-12 (00:56), Michael Bemmerl wrote:
  Ich würde jedenfalls erst einmal die Geocoder-DB ansehen, welche 
  Überraschungen dort noch warten.
 
 Richtig, in der Datenbank ist Mischmasch zwischen ISO-8819-x und UTF-8.
 Beispiel ID 7: Châteaugiron. Das â ist als 0xE2 in der DB, wäre als
 UTF-8 aber 0xC3 0xA2.

Und noch schlimmer, der zugehörige Großbuchstabe wäre 0xC2, ein weit
verbreiteter UTF-8-Präfix.

Sehe ich das richtig, daß die DB mehr oder weniger read-only ist, dieser
Mischmasch also bis in alle Ewigkeit bleibt?

Ein einzelnes Byte =0x80 ließe sich ja u.U. noch erkennen (und mit ein
wenig Hintergrund, der die Zuordnung der Codierung erlaubt, auch automatisch
korrekt nach UTF-8 wandeln), aber was ist mit aufeinanderfolgenden solchen
Zeichen (äß, etc, s.o.)? 
Andererseits: OSB ist doch nicht das einzige Projekt, das diese Daten nutzt?
Wie machen das die anderen?

S


___
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de


Re: [Talk-de] OSBugs bug?

2012-03-11 Diskussionsfäden Steffen Grunewald
On Sat 2012-03-10 (00:20), Michael Bemmerl wrote:
 Mitja Kleider schrieb:
  On 03/09/2012 07:28 PM, Steffen Grunewald wrote:
  (wenn encode(utf-8) einen Fehler
  produziert, dann schlimmstenfalls den near XYZ-Teil ganz weglassen,
  hier in der Gegend produziert geonames teilweise ziemlich haarsträubende 
  Sachen).
  
  Stimmt, der Ortsname ist nicht besonders präzise, sollte man mal durch
  einen OSM Geocoder ersetzen ;)
  
  Ich habe near XYZ auf dem Server rausgenommen, damit der Feed wieder
  funktioniert. Vielleicht hast du ja Lust, [1] weiter voranzutreiben.
 
 Ich hab' das mal auf meinem lokalen Rechner ausprobiert, und konnte den
 Fehler bei mir lösen, indem ich den MySQL-Client auf UTF-8 konfiguriert
 habe. Bei mir ist (auch?) noch die Standard-Zeichenkodierung von Mysql
 auf latin1 eingestellt. Auch das encode(utf-8) brauchte es nicht mehr.
 
 Ich hab' die Änderung mal in meinen Fork eingecheckt [1].

Hmm, ich habe jetzt erst einmal in den Sourcecode geguckt, Python ist
nicht meine Baustelle - und irgendwie vermute ich ja, daß die Daten in der 
DB auch noch ein Mix aus ISO8819-irgendwas und UTF-8 sein werden - in dem
Fall hülfe gar nix außer ausgiebiger Fehlerbehandlung.
Gut, man könnte wahrscheinlich gucken, ob =0x80 ohne UTF-konforme 
Fortsetzung auftauchen und dann mit Latin-xy weiterzumachen versuchen...
(was bei äß vermutlich spektakulär in die Hose geht).
Ich würde jedenfalls erst einmal die Geocoder-DB ansehen, welche 
Überraschungen dort noch warten.

Anstelle des near $name könnte ich mir (etwa auf volle Bogenminuten 
gerundete) Positionen vorstellen, ich sehe zwar die Koordinaten im Link,
aber nur in Dezimalgrad...

S

___
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de


Re: [Talk-de] OSBugs bug?

2012-03-11 Diskussionsfäden Michael Bemmerl
Steffen Grunewald schrieb:
 Hmm, ich habe jetzt erst einmal in den Sourcecode geguckt, Python ist
 nicht meine Baustelle - und irgendwie vermute ich ja, daß die Daten in der 
 DB auch noch ein Mix aus ISO8819-irgendwas und UTF-8 sein werden - in dem
 Fall hülfe gar nix außer ausgiebiger Fehlerbehandlung.
 Gut, man könnte wahrscheinlich gucken, ob =0x80 ohne UTF-konforme 
 Fortsetzung auftauchen und dann mit Latin-xy weiterzumachen versuchen...
 (was bei äß vermutlich spektakulär in die Hose geht).
 Ich würde jedenfalls erst einmal die Geocoder-DB ansehen, welche 
 Überraschungen dort noch warten.

Richtig, in der Datenbank ist Mischmasch zwischen ISO-8819-x und UTF-8.
Beispiel ID 7: Châteaugiron. Das â ist als 0xE2 in der DB, wäre als
UTF-8 aber 0xC3 0xA2.

Grüße,
Michael



signature.asc
Description: OpenPGP digital signature
___
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de


Re: [Talk-de] OSBugs bug?

2012-03-09 Diskussionsfäden Steffen Grunewald
On Wed 2012-01-25 (10:08), Steffen Grunewald wrote:
 [...] wie ist denn der Stand bei dem OSBugs-Bug, der die RSS nach
 wie vor in bestimmten Zoomstufen unbenutzbar macht?
 
  
 http://openstreetbugs.schokokeks.org/?lat=52.38579lon=13.0503zoom=15layers=B00T
 
 [...] der generierte RSS-Feed
  
 http://openstreetbugs.schokokeks.org/api/0.1/getRSSfeed?b=52.37873t=52.39285l=13.02803r=13.07257
 ist leer.

Naja, leer stimmt so nicht - ein paar öffnende XML-Tags sind schon da.

Gefunden habe ich dann doch noch was (fast ein halbes Jahr alt):

https://github.com/emka/openstreetbugs/issues/29

Wenn ich mir die Diskussion ansehe, dann ist das UTF-8-Encoding von Geonames
(bzw. sein Fehlen) die (eine) Ursache.

Ich stecke nicht genug in Python drin, um abschätzen zu können, ob man da
evtl. was mit Exceptions machen kann (wenn encode(utf-8) einen Fehler
produziert, dann schlimmstenfalls den near XYZ-Teil ganz weglassen,
hier in der Gegend produziert geonames teilweise ziemlich haarsträubende 
Sachen).

Nur um diese vage Idee einzubringen, werde ich mich nicht bei github anmelden,
und Python lernen ganz sicher nicht - ich bleibe bei Ruby ;) (das sich auch
mit encodings herumschlägt)

 Klappt da was mit dem sanitizing nicht?

Das wäre auch noch zu klären - anscheinend sind einige ISO-8859-x Einträge
(vor der Konvertierung nach UTF-8) in der Datenbank gelandet, die sich nun
natürlich nicht sauber in UTF-8 umwandeln lassen (jedenfalls nicht, wenn man
das x nicht kennt)...

Ärgerlich ist es jedenfalls, wenn man sonst so ziemlich alles auf RSS 
umgestellt hat - ganz abgesehen davon, daß das Überfliegen eines RSS-Feeds
selbst im Browser schneller geht als das Abmausen aller roten Kreuzchen.

S

___
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de


Re: [Talk-de] OSBugs bug?

2012-03-09 Diskussionsfäden Mitja Kleider
On 03/09/2012 07:28 PM, Steffen Grunewald wrote:
 (wenn encode(utf-8) einen Fehler
 produziert, dann schlimmstenfalls den near XYZ-Teil ganz weglassen,
 hier in der Gegend produziert geonames teilweise ziemlich haarsträubende 
 Sachen).

Stimmt, der Ortsname ist nicht besonders präzise, sollte man mal durch
einen OSM Geocoder ersetzen ;)

Ich habe near XYZ auf dem Server rausgenommen, damit der Feed wieder
funktioniert. Vielleicht hast du ja Lust, [1] weiter voranzutreiben.

[1]
https://wiki.openstreetmap.org/wiki/Top_Ten_Tasks/Progress/OpenStreetBugs/notes_integration

Gruß,
Mitja

___
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de


Re: [Talk-de] OSBugs bug?

2012-03-09 Diskussionsfäden Michael Bemmerl
Mitja Kleider schrieb:
 On 03/09/2012 07:28 PM, Steffen Grunewald wrote:
 (wenn encode(utf-8) einen Fehler
 produziert, dann schlimmstenfalls den near XYZ-Teil ganz weglassen,
 hier in der Gegend produziert geonames teilweise ziemlich haarsträubende 
 Sachen).
 
 Stimmt, der Ortsname ist nicht besonders präzise, sollte man mal durch
 einen OSM Geocoder ersetzen ;)
 
 Ich habe near XYZ auf dem Server rausgenommen, damit der Feed wieder
 funktioniert. Vielleicht hast du ja Lust, [1] weiter voranzutreiben.

Ich hab' das mal auf meinem lokalen Rechner ausprobiert, und konnte den
Fehler bei mir lösen, indem ich den MySQL-Client auf UTF-8 konfiguriert
habe. Bei mir ist (auch?) noch die Standard-Zeichenkodierung von Mysql
auf latin1 eingestellt. Auch das encode(utf-8) brauchte es nicht mehr.

Ich hab' die Änderung mal in meinen Fork eingecheckt [1].

Grüße,
Michael

[1]
https://github.com/mibe/openstreetbugs/commit/91e886529fe069dfcdc0b3ed4a92af667541f7e4



signature.asc
Description: OpenPGP digital signature
___
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de


[Talk-de] OSBugs bug?

2012-01-25 Diskussionsfäden Steffen Grunewald
Hallo,

da in einem anderen Thread gerade über die Gewinnung neuer Mapper
diskutiert wird und auch die OSBugs als Mitwirkungsmöglichkeit genannt
wurden: wie ist denn der Stand bei dem OSBugs-Bug, der die RSS nach
wie vor in bestimmten Zoomstufen unbenutzbar macht?

Beispiel:
 
http://openstreetbugs.schokokeks.org/?lat=52.38579lon=13.0503zoom=15layers=B00T

Da sind eine gute Handvoll offener OSBugs drauf, und mindestens einer, der
seit ein paar Wochen geschlossen ist - bei letzterem hätte ich gern einmal
nachgelesen, was genau passiert ist, aber der generierte RSS-Feed
 
http://openstreetbugs.schokokeks.org/api/0.1/getRSSfeed?b=52.37873t=52.39285l=13.02803r=13.07257
ist leer.

Zoome ich in das fragliche Gebiet hinein:
 
http://openstreetbugs.schokokeks.org/?lat=52.39052lon=13.06465zoom=18layers=B00T
dann gibt es plötzlich auch wieder ein RSS mit Inhalt:
 
http://openstreetbugs.schokokeks.org/api/0.1/getRSSfeed?b=52.38964t=52.3914l=13.06187r=13.06743

Klappt da was mit dem sanitizing nicht?

S

___
Talk-de mailing list
Talk-de@openstreetmap.org
http://lists.openstreetmap.org/listinfo/talk-de