On 14-06-2016, at 14h 13'28", Adrian Popa wrote about "Re: [rlug] Transliterate
- înlocuire diacritice cu echivalentul ASCII"
> Mi-ai fost de mare ajutor - mulțumesc!
Cu plăcere.
> Pe sistemul pe care încercam am locale setat la "C":
>
> Acum mai rămâne
nu o să mai țină cont de locale-ul din consolă, de vreme ce îi
specific input și output encoding...
Acum mai rămâne să văd de unde îmi modific locale-ul pe Ubuntul ăsta.
Mulțumesc tuturor!
2016-06-14 13:46 GMT+03:00 Ionel Mugurel Ciobîcă <i.m.ciob...@gmail.com>:
> On 14-06-2016, at 11h
On 14-06-2016, at 11h 09'18", Adrian Popa wrote about "Re: [rlug] Transliterate
- înlocuire diacritice cu echivalentul ASCII"
> Mulțumesc pentru ajutor,
>
> $ cat 'Claus von Stauffenberg' | html2text -utf8 > /tmp/c.txt
> $ file /tmp/c.txt
> /tmp/c.txt: UTF-8 Unic
scoate semne de întrebare sau caractere
neconvertite).
Dacă mai aveți idei, ascult...
2016-06-13 19:01 GMT+03:00 Ionel Mugurel Ciobîcă <i.m.ciob...@gmail.com>:
> On 13-06-2016, at 12h 05'10", Adrian Popa wrote about "Re: [rlug]
> Transliterate - înlocuire diacritice cu echiv
On 13-06-2016, at 12h 05'10", Adrian Popa wrote about "Re: [rlug] Transliterate
- înlocuire diacritice cu echivalentul ASCII"
> Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut
> testul cu stringul "și" care e reprezentat ok într-un editor de t
Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut
testul cu stringul "și" care e reprezentat ok într-un editor de text, dar e
reprezentat ca "?i" în terminal (presupun că din cauza fontului?).
adrianp@frost:~/development/dictionaries$ echo "?i" | iconv -f UTF-8 -t
iconv .../TRANSLIT merge ok, cand are inputul definit cum trebuie. Nu
cred ca acopera nici el toate ciudateniile de caractere, mai ales ca utf8 e
f f f extins. Dar caracterele romanesti le-am testat acum 2-3 ani si isi
facea treaba bine.
On Fri, Jun 10, 2016 at 5:11 PM, Adrian Popa
html2text. O sa verific daca pot specifica encoding, mersu!
On 10 Jun 2016 16:08, "Claudiu Nicolaie CISMARU"
wrote:
> > Poate problema e că inputul nu e UTF8?
> > adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt
> > wiki_ro_full.txt: Non-ISO extended-ASCII
> Poate problema e că inputul nu e UTF8?
> adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt
> wiki_ro_full.txt: Non-ISO extended-ASCII text, with LF, NEL line terminators
Inputul tau este un amalgam. Cum ai extras textul?
___
RLUG
Varianta cu iconv pare destul de elegantă, doar că scuipă sânge când se
lovește de caractere nesuportate:
cat wiki_ro_full.txt | iconv -f UTF-8 -t ISO8859-1//TRANSLIT
...
�nclinarea ecuatorului pe orbiticonv: illegal input sequence at position
15514
Dacă îl rulez cu -c trece mai departe, dar
On 10.06.2016 15:24, Adrian Popa wrote:
> Salutare,
>
> Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) pentru
> care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII. Cu
> siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au
>
Poate vorbesc prostii dar cu iconv ai incercat?
$ echo "șlițuleț" | iconv -t ISO8859-1//TRANSLIT
slitulet
2016-06-10 15:35 GMT+03:00 Adrian Popa :
> Am omis să spun că inputul arată în halul ăsta (văzut cu less):
>
> United World Chart single-ul a atins pozi<9B>ia cu
Ba merge și cu sed și cu tr, doar că trebuie să îi spun eu toate cazurile
și în ce să le convertească. Speram la un tool care să le facă "automagic"
și să știe el în ce se convertește fiecare (presupun că există un standard
pe undeva...).
2016-06-10 15:37 GMT+03:00 Adrian Minta
Salut,
nu merge cu sed:
sed -i "s/<9B>/t/" fisier.txt
On 06/10/2016 03:35 PM, Adrian Popa wrote:
> Am omis să spun că inputul arată în halul ăsta (văzut cu less):
>
> United World Chart single-ul a atins pozi<9B>ia cu num<83>rul 7,
> acumulnd peste 2,25
>
> Dacă îl deschid cu un editor care
Am omis să spun că inputul arată în halul ăsta (văzut cu less):
United World Chart single-ul a atins pozi<9B>ia cu num<83>rul 7,
acumulnd peste 2,25
Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok.
2016-06-10 15:24 GMT+03:00 Adrian Popa :
>
Salutare,
Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) pentru
care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII. Cu
siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au
corespondent ASCII, așa că ele pot fi înlocuite cu "".
Caut o
16 matches
Mail list logo