On Fri 2017-01-20 20:19:31, Jan Martinec wrote: > (A když jsme u toho párování, porovnávání a podobných mňamek, __normalizace > velkých písmen už teď zdaleka nestačí__ - je třeba používat nástroje, který > má daný jazyk pro Unicode. Ne proto, že by to jinak nešlo, ale proto, že to > tuhle práci udělá samo, i pro případy, který by mě ani nenapadly. Což > znamená mj. to, že když ty stringy budeš porovnávat po bajtech, tak tě > kousne nejen whitespace, ale i případ, kdy "Bělá" je sice v Unicode rovno > "Bělá", ale převedený __na bajty__ bez normalizace do NFC nebo NFD to není > identický, protože to první jsou čtyři znaky, a druhý je fskutčnosti znaků > šest, totiž "B(kombinující háček)el(kombinující čárka)a", a obojí je > rovnocenný způsob zápisu - ani jedno není workaround či hack.
Hmm. To abychom do kernelu pridali unicodovej normalizator. Ne-e,
sorry.
Zapsat pomoci 6-ti znaku na co staci 4 znaky je workaround a hack.
Podobne by mi prislo rozumny normalizovat _pred_ ulozenim do osm databaze.
Pavel
--
(english) http://www.livejournal.com/~pavelmachek
(cesky, pictures)
http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html
signature.asc
Description: Digital signature
_______________________________________________ Talk-cz mailing list [email protected] https://lists.openstreetmap.org/listinfo/talk-cz

