On 10.06.2016 15:24, Adrian Popa wrote:
> Salutare,
> 
> Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) pentru
> care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII. Cu
> siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au
> corespondent ASCII, așa că ele pot fi înlocuite cu "".
> 
> Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă să
> convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional
> "tr '/ăâșțî/aasti/'" presupun că nu o să meargă.
> 
> Aveți ceva recomandări despre cum aș putea trata problema făra să
> reinventez roata (de ex cu script http://www.perlmonks.org/?node_id=963341)

Soluții ar fi, dar ești sigur că vrei o asemenea blasfemie?!?  Mă
gândesc că poate o fi vreun sistem de operare vechi și/sau vreun
hardware foarte limitat, dar nu văd asta într-un tablou general ce
include 9 GB de fișiere text.  Nu mai bine rezolvi problema pe care o ai
cu textele non-ASCII?  Și care e de fapt problema respectivă?


Attachment: signature.asc
Description: OpenPGP digital signature

_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui