On Fri, Jun 11, 2010 at 08:53:00PM +0200, Claus Färber wrote: > Das ist noch völlig legales XML mit -- abgesehen von dem zusätzlichen > Attribut dc:user -- identischer Bedeutung. > > Regexe würde ich für XML nur dann gerade noch verwenden, wenn ich eine > einmalige Quick-and-Dirty-Lösung brauche und manuell kontrollieren kann. > > Ansonsten nimm einen echten XML-Parser wie XML::Parser. Den gibt es > fertig auf CPAN und ist oft eh schon installiert.
Der punkt ist das fast alle scripte die OSM daten weiterverarbeiten keinen wirklichen XML parser nehmen sondern meist nur mit perl dahingebastelte sachen die exakt fuer dieses format passen. Dazu kommt das die OSM Daten auch sicherlich nicht mit beliebigem inhalt gefuellt sein koennen weil defakto nur eine datenbank gedumped wird deren format reichlich steif ist. D.h. wenn da sowas wie oben drin auftauchen wuerde dann wuerde nicht nur das eine script auf die backe gehen ... Ach ja - und wir koennen ja nochmal ein "libxml" vs "handcraftet" shootout fuer das planet file machen ;) Im moment spiele ich ein wenig mit parallelen libxml parsern rum um das planet in endlicher zeit zu lesen und in space optimized abzuspeichern bzw im speicher zu halten (Koennte ab 16GB gehen) ... Derzeit kann ich 6 cores locker auslasten wenn einer bzip2 auspackt und die anderen 5 jeweils 4MB chunks parsen ... Flo -- Florian Lohoff f...@zz.de "Es ist ein grobes Missverständnis und eine Fehlwahrnehmung, dem Staat im Internet Zensur- und Überwachungsabsichten zu unterstellen." - - Bundesminister Dr. Wolfgang Schäuble -- 10. Juli in Berlin
signature.asc
Description: Digital signature
_______________________________________________ Talk-de mailing list Talk-de@openstreetmap.org http://lists.openstreetmap.org/listinfo/talk-de