Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-15 Fir de Conversatie Ionel Mugurel Ciobîcă
On 14-06-2016, at 14h 13'28", Adrian Popa wrote about "Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII" > Mi-ai fost de mare ajutor - mulțumesc! Cu plăcere. > Pe sistemul pe care încercam am locale setat la "C": > > Acum mai rămâne

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-14 Fir de Conversatie Adrian Popa
nu o să mai țină cont de locale-ul din consolă, de vreme ce îi specific input și output encoding... Acum mai rămâne să văd de unde îmi modific locale-ul pe Ubuntul ăsta. Mulțumesc tuturor! 2016-06-14 13:46 GMT+03:00 Ionel Mugurel Ciobîcă <i.m.ciob...@gmail.com>: > On 14-06-2016, at 11h

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-14 Fir de Conversatie Ionel Mugurel Ciobîcă
On 14-06-2016, at 11h 09'18", Adrian Popa wrote about "Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII" > Mulțumesc pentru ajutor, > > $ cat 'Claus von Stauffenberg' | html2text -utf8 > /tmp/c.txt > $ file /tmp/c.txt > /tmp/c.txt: UTF-8 Unic

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-14 Fir de Conversatie Adrian Popa
scoate semne de întrebare sau caractere neconvertite). Dacă mai aveți idei, ascult... 2016-06-13 19:01 GMT+03:00 Ionel Mugurel Ciobîcă <i.m.ciob...@gmail.com>: > On 13-06-2016, at 12h 05'10", Adrian Popa wrote about "Re: [rlug] > Transliterate - înlocuire diacritice cu echiv

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-13 Fir de Conversatie Ionel Mugurel Ciobîcă
On 13-06-2016, at 12h 05'10", Adrian Popa wrote about "Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII" > Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut > testul cu stringul "și" care e reprezentat ok într-un editor de t

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-13 Fir de Conversatie Adrian Popa
Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut testul cu stringul "și" care e reprezentat ok într-un editor de text, dar e reprezentat ca "?i" în terminal (presupun că din cauza fontului?). adrianp@frost:~/development/dictionaries$ echo "?i" | iconv -f UTF-8 -t

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-11 Fir de Conversatie Sîrbu Lucian
iconv .../TRANSLIT merge ok, cand are inputul definit cum trebuie. Nu cred ca acopera nici el toate ciudateniile de caractere, mai ales ca utf8 e f f f extins. Dar caracterele romanesti le-am testat acum 2-3 ani si isi facea treaba bine. On Fri, Jun 10, 2016 at 5:11 PM, Adrian Popa

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
html2text. O sa verific daca pot specifica encoding, mersu! On 10 Jun 2016 16:08, "Claudiu Nicolaie CISMARU" wrote: > > Poate problema e că inputul nu e UTF8? > > adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt > > wiki_ro_full.txt: Non-ISO extended-ASCII

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Claudiu Nicolaie CISMARU
> Poate problema e că inputul nu e UTF8? > adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt > wiki_ro_full.txt: Non-ISO extended-ASCII text, with LF, NEL line terminators Inputul tau este un amalgam. Cum ai extras textul? ___ RLUG

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
Varianta cu iconv pare destul de elegantă, doar că scuipă sânge când se lovește de caractere nesuportate: cat wiki_ro_full.txt | iconv -f UTF-8 -t ISO8859-1//TRANSLIT ... �nclinarea ecuatorului pe orbiticonv: illegal input sequence at position 15514 Dacă îl rulez cu -c trece mai departe, dar

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Mișu Moldovan
On 10.06.2016 15:24, Adrian Popa wrote: > Salutare, > > Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) pentru > care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII. Cu > siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au >

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Petru Rațiu
Poate vorbesc prostii dar cu iconv ai incercat? $ echo "șlițuleț" | iconv -t ISO8859-1//TRANSLIT slitulet 2016-06-10 15:35 GMT+03:00 Adrian Popa : > Am omis să spun că inputul arată în halul ăsta (văzut cu less): > > United World Chart single-ul a atins pozi<9B>ia cu

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
Ba merge și cu sed și cu tr, doar că trebuie să îi spun eu toate cazurile și în ce să le convertească. Speram la un tool care să le facă "automagic" și să știe el în ce se convertește fiecare (presupun că există un standard pe undeva...). 2016-06-10 15:37 GMT+03:00 Adrian Minta

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Minta
Salut, nu merge cu sed: sed -i "s/<9B>/t/" fisier.txt On 06/10/2016 03:35 PM, Adrian Popa wrote: > Am omis să spun că inputul arată în halul ăsta (văzut cu less): > > United World Chart single-ul a atins pozi<9B>ia cu num<83>rul 7, > acumulnd peste 2,25 > > Dacă îl deschid cu un editor care

Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
Am omis să spun că inputul arată în halul ăsta (văzut cu less): United World Chart single-ul a atins pozi<9B>ia cu num<83>rul 7, acumulnd peste 2,25 Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok. 2016-06-10 15:24 GMT+03:00 Adrian Popa : >

[rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
Salutare, Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) pentru care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII. Cu siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au corespondent ASCII, așa că ele pot fi înlocuite cu "". Caut o