Re: [Talk-cz] Nedělitelná mezera v OSM datech - poznámka na okraj

Pavel Machek Tue, 31 Jan 2017 03:43:39 -0800

On Fri 2017-01-20 20:19:31, Jan Martinec wrote:
> (A když jsme u toho párování, porovnávání a podobných mňamek, __normalizace
> velkých písmen už teď zdaleka nestačí__ - je třeba používat nástroje, který
> má daný jazyk pro Unicode. Ne proto, že by to jinak nešlo, ale proto, že to
> tuhle práci udělá samo, i pro případy, který by mě ani nenapadly. Což
> znamená mj. to, že když ty stringy budeš porovnávat po bajtech, tak tě
> kousne nejen whitespace, ale i případ, kdy "Bělá" je sice v Unicode rovno
> "Bělá", ale převedený __na bajty__ bez normalizace do NFC nebo NFD to není
> identický, protože to první jsou čtyři znaky, a druhý je fskutčnosti znaků
> šest, totiž "B(kombinující háček)el(kombinující čárka)a", a obojí je
> rovnocenný způsob zápisu - ani jedno není workaround či  hack.


Hmm. To abychom do kernelu pridali unicodovej normalizator. Ne-e,
sorry.

Zapsat pomoci 6-ti znaku na co staci 4 znaky je workaround a hack.

Podobne by mi prislo rozumny normalizovat _pred_ ulozenim do osm databaze.

                                                                        Pavel
-- 
(english) http://www.livejournal.com/~pavelmachek
(cesky, pictures) 
http://atrey.karlin.mff.cuni.cz/~pavel/picture/horses/blog.html

signature.asc
Description: Digital signature

_______________________________________________
Talk-cz mailing list
[email protected]
https://lists.openstreetmap.org/listinfo/talk-cz

Re: [Talk-cz] Nedělitelná mezera v OSM datech - poznámka na okraj

Odpovedet emailem