On 10.06.2016 15:24, Adrian Popa wrote: > Salutare, > > Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) pentru > care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII. Cu > siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au > corespondent ASCII, așa că ele pot fi înlocuite cu "". > > Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă să > convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional > "tr '/ăâșțî/aasti/'" presupun că nu o să meargă. > > Aveți ceva recomandări despre cum aș putea trata problema făra să > reinventez roata (de ex cu script http://www.perlmonks.org/?node_id=963341)
Soluții ar fi, dar ești sigur că vrei o asemenea blasfemie?!? Mă gândesc că poate o fi vreun sistem de operare vechi și/sau vreun hardware foarte limitat, dar nu văd asta într-un tablou general ce include 9 GB de fișiere text. Nu mai bine rezolvi problema pe care o ai cu textele non-ASCII? Și care e de fapt problema respectivă?
signature.asc
Description: OpenPGP digital signature
_______________________________________________ RLUG mailing list [email protected] http://lists.lug.ro/mailman/listinfo/rlug
