Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-15 Fir de Conversatie Ionel Mugurel Ciobîcă
On 14-06-2016, at 14h 13'28", Adrian Popa wrote about "Re: [rlug] Transliterate 
- înlocuire diacritice cu echivalentul ASCII"

> Mi-ai fost de mare ajutor - mulțumesc!

Cu plăcere.
 
> Pe sistemul pe care încercam am locale setat la "C":
> 
> Acum mai rămâne să văd de unde îmi modific locale-ul pe Ubuntul ăsta.
> 

În funcție de SHELL definește toate acele LC_, sau dacă te
grăbești definește doar LC_ALL. Asta ca user.

Apoi, ca root, vezi fișierele: /etc/locale.alias, /etc/locale.gen,
/etc/locale.nopurge.

În /etc/locale.alias vezi să NU fie definit romanian ca
ro_RO.ISO-8859-2. Eu am așa acolo:

  romanian.latin10 ro_RO.ISO-8859-16
  romanian.latin2  ro_RO.ISO-8859-2
  romanian ro_RO.UTF-8
  româneștero_RO.UTF-8

În /etc/locale.gen comentează tot ce nu vrei, după care lasă, sau
adaugă ce-ți trebuie, de exemplu:

en_US UTF-8
ro_RO UTF-8
ro_RO.ISO-8859-16 ISO-8859-16

etc.

În /etc/locale.nopurge, la sfîrșit să ai localele pe care le vrei în
system. Pentru instalările noi localele programelor sînt șterse
automat dacă nu sînt listate acolo. De exemplu poți avea:

en
en_US
en_US.UTF-8
ro
ro_RO
ro_RO.ISO-8859-16
ro_RO.UTF-8

Apoi rulează locale-gen. Dacă nu ai unele fișiere fii sigur că ai
instalat locales, localepurge, localization-config, etc.


Mugurel
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-14 Fir de Conversatie Adrian Popa
Mi-ai fost de mare ajutor - mulțumesc!

Pe sistemul pe care încercam am locale setat la "C":

LANG=en_US.UTF-8
LANGUAGE=en
LC_CTYPE="C"
LC_NUMERIC="C"
LC_TIME="C"
LC_COLLATE="C"
LC_MONETARY="C"
LC_MESSAGES="C"
LC_PAPER="C"
LC_NAME="C"
LC_ADDRESS="C"
LC_TELEPHONE="C"
LC_MEASUREMENT="C"
LC_IDENTIFICATION="C"
LC_ALL=C

Pe un alt sistem pe care am:
LANG=en_US.UTF-8
LANGUAGE=en
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC=en_US.UTF-8
LC_TIME=en_US.UTF-8
LC_COLLATE="en_US.UTF-8"
LC_MONETARY=en_US.UTF-8
LC_MESSAGES=POSIX
LC_PAPER=en_US.UTF-8
LC_NAME=en_US.UTF-8
LC_ADDRESS=en_US.UTF-8
LC_TELEPHONE=en_US.UTF-8
LC_MEASUREMENT=en_US.UTF-8
LC_IDENTIFICATION=en_US.UTF-8
LC_ALL=

iconv se comportă normal și îmi scoate diacriticele din text. Am presupus
că iconv nu o să mai țină cont de locale-ul din consolă, de vreme ce îi
specific input și output encoding...
Acum mai rămâne să văd de unde îmi modific locale-ul pe Ubuntul ăsta.

Mulțumesc tuturor!


2016-06-14 13:46 GMT+03:00 Ionel Mugurel Ciobîcă <i.m.ciob...@gmail.com>:

> On 14-06-2016, at 11h 09'18", Adrian Popa wrote about "Re: [rlug]
> Transliterate - înlocuire diacritice cu echivalentul ASCII"
> > Mulțumesc pentru ajutor,
> >
> > $ cat 'Claus von Stauffenberg' | html2text -utf8 > /tmp/c.txt
> > $ file /tmp/c.txt
> > /tmp/c.txt: UTF-8 Unicode text
> > $ iconv -f UTF-8 -t US-ASCII//TRANSLIT /tmp/c.txt > /tmp/d.txt
> > $ file /tmp/d.txt
> > /tmp/d.txt: ASCII text
> >
> > Doar că rezultatul are semne de întrebare în loc de literele
> > transliterate... Am încercat și iso8859-x, dar rezultatul e același (nu
> > moare la conversie, dar scoate semne de întrebare sau caractere
> > neconvertite).
> >
> > Dacă mai aveți idei, ascult...
> >
>
> Dacă mă uit la fișierele /tmp/c.txt și /tmp/d.txt văd că c.txt este
> OK, doar că are o săgeată sus la Note, între 1. și Genealogia_conților.
>
> Într-adevăr după conversia la ascii, acolo unde era săgeata văd acum
> un semn de întrebare. Restul trece OK.
>
> Săgeata nu trece pentru că nu este definită în (LC_CTYPE din) locale.
> Și în fond în ce ai vrea să o schimbi? În |^ sau ^|?
>
> Dacă ai mai multe semne de întrebare în d.txt, dă un output la comanda
> locale și vezi ce ai la LC_CTYPE. Apoi caută în
> /usr/share/i18n/locales/ (sau unde ai tu localele) ce este în fișierul
> respectiv la LC_CTYPE. De multe ori este un copy de la alt locale,
> etc. Urmărește pînă dai de care trebuie și vezi ce ai greșit acolo...
>
> Dacă te joci cu iconv -f UTF-8 -t iso8859-16 /tmp/c.txt > /tmp/e.txt
> găsești toate caracterele neromânești. De exemplu ai un en dash între
> Bavaria și d. 21_iulie 1944, săgeata aia, încă un en dash la între
> November 1907 și 20. Juli 1944, și ultimul între Bayern2Radio_ și
> radioWissen.
>
> Ghilimelele nemțești/românești „“ se transformă în ,,". Dacă le vrei altfel
> trebuie să le redefinești tu.
>
> Dacă modifici fișiere în /usr/share/i18n/locales/ trebuie să
> (re)rulezi /usr/sbin/locale-gen.
>
>
> Mugurel
> ___
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-14 Fir de Conversatie Ionel Mugurel Ciobîcă
On 14-06-2016, at 11h 09'18", Adrian Popa wrote about "Re: [rlug] Transliterate 
- înlocuire diacritice cu echivalentul ASCII"
> Mulțumesc pentru ajutor,
> 
> $ cat 'Claus von Stauffenberg' | html2text -utf8 > /tmp/c.txt
> $ file /tmp/c.txt
> /tmp/c.txt: UTF-8 Unicode text
> $ iconv -f UTF-8 -t US-ASCII//TRANSLIT /tmp/c.txt > /tmp/d.txt
> $ file /tmp/d.txt
> /tmp/d.txt: ASCII text
> 
> Doar că rezultatul are semne de întrebare în loc de literele
> transliterate... Am încercat și iso8859-x, dar rezultatul e același (nu
> moare la conversie, dar scoate semne de întrebare sau caractere
> neconvertite).
> 
> Dacă mai aveți idei, ascult...
> 

Dacă mă uit la fișierele /tmp/c.txt și /tmp/d.txt văd că c.txt este
OK, doar că are o săgeată sus la Note, între 1. și Genealogia_conților.

Într-adevăr după conversia la ascii, acolo unde era săgeata văd acum
un semn de întrebare. Restul trece OK.

Săgeata nu trece pentru că nu este definită în (LC_CTYPE din) locale.
Și în fond în ce ai vrea să o schimbi? În |^ sau ^|?

Dacă ai mai multe semne de întrebare în d.txt, dă un output la comanda
locale și vezi ce ai la LC_CTYPE. Apoi caută în
/usr/share/i18n/locales/ (sau unde ai tu localele) ce este în fișierul
respectiv la LC_CTYPE. De multe ori este un copy de la alt locale,
etc. Urmărește pînă dai de care trebuie și vezi ce ai greșit acolo...

Dacă te joci cu iconv -f UTF-8 -t iso8859-16 /tmp/c.txt > /tmp/e.txt
găsești toate caracterele neromânești. De exemplu ai un en dash între
Bavaria și d. 21_iulie 1944, săgeata aia, încă un en dash la între
November 1907 și 20. Juli 1944, și ultimul între Bayern2Radio_ și
radioWissen. 

Ghilimelele nemțești/românești „“ se transformă în ,,". Dacă le vrei altfel
trebuie să le redefinești tu.

Dacă modifici fișiere în /usr/share/i18n/locales/ trebuie să
(re)rulezi /usr/sbin/locale-gen.


Mugurel
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-14 Fir de Conversatie Adrian Popa
Mulțumesc pentru ajutor,

Mecanismul prin care încerc să convertesc textul e următorul:
* am un director cu mii de fișiere HTML (provin din proiectul Kiwix -
wikipedia dump) pe care le procesez cu html2text:

find zimdump/A -print0 | xargs -0 -n 1 html2text -utf8 >>  wiki_ro_full.txt

Un fișier de test poți găsi aici (
http://www.mediafire.com/download/86yrz7b0wya2f1t/Claus_von_Stauffenberg):

$ file  'Claus von Stauffenberg'
Claus von Stauffenberg: HTML document, UTF-8 Unicode text, with very long
lines
$ cat 'Claus von Stauffenberg' | html2text -utf8 > /tmp/c.txt
$ file /tmp/c.txt
/tmp/c.txt: UTF-8 Unicode text
$ iconv -f UTF-8 -t US-ASCII//TRANSLIT /tmp/c.txt > /tmp/d.txt
$ file /tmp/d.txt
/tmp/d.txt: ASCII text


Doar că rezultatul are semne de întrebare în loc de literele
transliterate... Am încercat și iso8859-x, dar rezultatul e același (nu
moare la conversie, dar scoate semne de întrebare sau caractere
neconvertite).

Dacă mai aveți idei, ascult...

2016-06-13 19:01 GMT+03:00 Ionel Mugurel Ciobîcă <i.m.ciob...@gmail.com>:

> On 13-06-2016, at 12h 05'10", Adrian Popa wrote about "Re: [rlug]
> Transliterate - înlocuire diacritice cu echivalentul ASCII"
> > Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut
> > testul cu stringul "și" care e reprezentat ok într-un editor de text,
> dar e
> > reprezentat ca "?i" în terminal (presupun că din cauza fontului?).
> >
>
> Am ceva experiență cu texte amestecate (iso-8859-x și UTF-8), dacă
> vrei trimite-mi fișierul pe direct (sau o parte din el și-l voi căuta
> de bube).
>
> Ce pot spune este să vă feriți de tail și head -c că ăsta rupe
> literele românești fără să-i pese.
>
> Am mai văzut unii deștepți care au textele encodate dublu în unicode.
> De exemplu ă este ă în dublu unicode. Dacă ai așa ceva trebuie mai
> întîi să iei bucata aia și să o treci prin iconv -f UTF-8 -t iso8859-x
> ca să fie doar o dată unicode.
>
> Dacă vrei să faci debug singur îți sugerez să faci cu iconv -f UTF-8
> -t iso8859-x, cu x=1,2,15,16 depinde de ce fel de limbi ai acolo și
> iconv îți va da poziția unde crapă. Dacă moare la caracterul 79, vezi
> cu cat textul-tău.txt | head -c 89 | tail -c 20 ce ai acolo la mijloc,
> de ce nu trece prin iconv.
>
> Trebuie să ții cont și de alte semne, nu numai de litere. Poți avea
> ghilimele (de toate mamele), liniuțe, spații, și alte drăcii, unele
> din ele poate nu-s definite cum trebuie la TRANSLIT. Ca să nu mai zic
> că poate ai tu un locale mînărit care are alte reguli la
> transliterare. Ca de exepmlu să descompună K în |<...
>
> La mine de exemplu î-ul turcesc (adică i fără punct: ı) nu trece la
> translit:
>
> # echo ı | iconv -f utf-8 -t ASCII//TRANSLIT
> ?
>
> Și asta nu este de la encoding. Pur și simplu așa schimbă iconv
> caracterul ăla în semn de întrebare. İ de exemplu trece:
>
> # echo Iıİi | iconv -f utf-8 -t ASCII//TRANSLIT
> I?Ii
>
> La turci I face pereche cu ı (ambele citite ca î) și İ cu i (ambele
> citite ca i).
>
>
> Mugurel
> ___
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-13 Fir de Conversatie Ionel Mugurel Ciobîcă
On 13-06-2016, at 12h 05'10", Adrian Popa wrote about "Re: [rlug] Transliterate 
- înlocuire diacritice cu echivalentul ASCII"
> Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut
> testul cu stringul "și" care e reprezentat ok într-un editor de text, dar e
> reprezentat ca "?i" în terminal (presupun că din cauza fontului?).
> 

Am ceva experiență cu texte amestecate (iso-8859-x și UTF-8), dacă
vrei trimite-mi fișierul pe direct (sau o parte din el și-l voi căuta
de bube).

Ce pot spune este să vă feriți de tail și head -c că ăsta rupe
literele românești fără să-i pese. 

Am mai văzut unii deștepți care au textele encodate dublu în unicode.
De exemplu ă este ă în dublu unicode. Dacă ai așa ceva trebuie mai
întîi să iei bucata aia și să o treci prin iconv -f UTF-8 -t iso8859-x
ca să fie doar o dată unicode.

Dacă vrei să faci debug singur îți sugerez să faci cu iconv -f UTF-8
-t iso8859-x, cu x=1,2,15,16 depinde de ce fel de limbi ai acolo și
iconv îți va da poziția unde crapă. Dacă moare la caracterul 79, vezi
cu cat textul-tău.txt | head -c 89 | tail -c 20 ce ai acolo la mijloc,
de ce nu trece prin iconv.

Trebuie să ții cont și de alte semne, nu numai de litere. Poți avea
ghilimele (de toate mamele), liniuțe, spații, și alte drăcii, unele
din ele poate nu-s definite cum trebuie la TRANSLIT. Ca să nu mai zic
că poate ai tu un locale mînărit care are alte reguli la
transliterare. Ca de exepmlu să descompună K în |<...

La mine de exemplu î-ul turcesc (adică i fără punct: ı) nu trece la
translit:

# echo ı | iconv -f utf-8 -t ASCII//TRANSLIT
?

Și asta nu este de la encoding. Pur și simplu așa schimbă iconv
caracterul ăla în semn de întrebare. İ de exemplu trece:

# echo Iıİi | iconv -f utf-8 -t ASCII//TRANSLIT
I?Ii

La turci I face pereche cu ı (ambele citite ca î) și İ cu i (ambele
citite ca i).


Mugurel
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-13 Fir de Conversatie Adrian Popa
Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut
testul cu stringul "și" care e reprezentat ok într-un editor de text, dar e
reprezentat ca "?i" în terminal (presupun că din cauza fontului?).

adrianp@frost:~/development/dictionaries$ echo "?i" | iconv -f UTF-8 -t
ASCII//TRANSLIT
?i
adrianp@frost:~/development/dictionaries$ echo "?i" | iconv -f UTF-8 -t
ASCII//TRANSLIT | hexdump
000 693f 000a
003
adrianp@frost:~/development/dictionaries$ echo "?i" | od -h
000 693f 000a
003
adrianp@frost:~/development/dictionaries$ echo $LANG
en_US.UTF-8

După cum se vede, outputul din iconv e identic cu inputul... Problema e că
"69" reprezintă "i" în ASCII, iar "3f" reprezintă "?". Ceea ce înseamnă că
shellul meu nu suportă UTF-8, nu-i așa?

2016-06-11 22:33 GMT+03:00 Sîrbu Lucian :

>  iconv  .../TRANSLIT   merge ok, cand are inputul definit cum trebuie. Nu
> cred ca acopera nici el toate ciudateniile de caractere, mai ales ca utf8 e
> f f f extins. Dar caracterele romanesti le-am testat acum 2-3 ani si isi
> facea treaba bine.
>
> On Fri, Jun 10, 2016 at 5:11 PM, Adrian Popa 
> wrote:
>
> > html2text. O sa verific daca pot specifica encoding, mersu!
> > On 10 Jun 2016 16:08, "Claudiu Nicolaie CISMARU" <
> clau...@virtuamagic.com>
> > wrote:
> >
> > > > Poate problema e că inputul nu e UTF8?
> > > > adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt
> > > > wiki_ro_full.txt: Non-ISO extended-ASCII text, with LF, NEL line
> > > terminators
> > >
> > > Inputul tau este un amalgam. Cum ai extras textul?
> > >
> > >
> > ___
> > RLUG mailing list
> > RLUG@lists.lug.ro
> > http://lists.lug.ro/mailman/listinfo/rlug
> >
>
>
>
> --
> 
> THE END of this transmission
> ___
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-11 Fir de Conversatie Sîrbu Lucian
 iconv  .../TRANSLIT   merge ok, cand are inputul definit cum trebuie. Nu
cred ca acopera nici el toate ciudateniile de caractere, mai ales ca utf8 e
f f f extins. Dar caracterele romanesti le-am testat acum 2-3 ani si isi
facea treaba bine.

On Fri, Jun 10, 2016 at 5:11 PM, Adrian Popa 
wrote:

> html2text. O sa verific daca pot specifica encoding, mersu!
> On 10 Jun 2016 16:08, "Claudiu Nicolaie CISMARU" 
> wrote:
>
> > > Poate problema e că inputul nu e UTF8?
> > > adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt
> > > wiki_ro_full.txt: Non-ISO extended-ASCII text, with LF, NEL line
> > terminators
> >
> > Inputul tau este un amalgam. Cum ai extras textul?
> >
> >
> ___
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>



-- 

THE END of this transmission
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
html2text. O sa verific daca pot specifica encoding, mersu!
On 10 Jun 2016 16:08, "Claudiu Nicolaie CISMARU" 
wrote:

> > Poate problema e că inputul nu e UTF8?
> > adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt
> > wiki_ro_full.txt: Non-ISO extended-ASCII text, with LF, NEL line
> terminators
>
> Inputul tau este un amalgam. Cum ai extras textul?
>
>
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Claudiu Nicolaie CISMARU
> Poate problema e că inputul nu e UTF8?
> adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt
> wiki_ro_full.txt: Non-ISO extended-ASCII text, with LF, NEL line terminators

Inputul tau este un amalgam. Cum ai extras textul?

___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
Varianta cu iconv pare destul de elegantă, doar că scuipă sânge când se
lovește de caractere nesuportate:

cat wiki_ro_full.txt | iconv  -f UTF-8 -t ISO8859-1//TRANSLIT
...
�nclinarea ecuatorului pe orbiticonv: illegal input sequence at position
15514

Dacă îl rulez cu -c trece mai departe, dar îmi sare multe diacritice.

Dacă îl rulez fără -f UTF-8:

cat wiki_ro_full.txt | iconv -c -t ISO8859-1//TRANSLIT
...
Vezi iAsteroizi n ficiune  Asteroizi n astrologie (ocultaie)  Comet

Scopul meu e să convertesc diacriticele în primul rând, dar aș vrea o
soluție universală care să poată merge și pe limbi cu alte tipuri de
caractere.

Poate problema e că inputul nu e UTF8?
adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt
wiki_ro_full.txt: Non-ISO extended-ASCII text, with LF, NEL line terminators



2016-06-10 15:49 GMT+03:00 Mișu Moldovan :

> On 10.06.2016 15:24, Adrian Popa wrote:
> > Salutare,
> >
> > Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro)
> pentru
> > care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII.
> Cu
> > siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au
> > corespondent ASCII, așa că ele pot fi înlocuite cu "".
> >
> > Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă
> să
> > convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional
> > "tr '/ăâșțî/aasti/'" presupun că nu o să meargă.
> >
> > Aveți ceva recomandări despre cum aș putea trata problema făra să
> > reinventez roata (de ex cu script
> http://www.perlmonks.org/?node_id=963341)
>
> Soluții ar fi, dar ești sigur că vrei o asemenea blasfemie?!?  Mă
> gândesc că poate o fi vreun sistem de operare vechi și/sau vreun
> hardware foarte limitat, dar nu văd asta într-un tablou general ce
> include 9 GB de fișiere text.  Nu mai bine rezolvi problema pe care o ai
> cu textele non-ASCII?  Și care e de fapt problema respectivă?
>
>
>
> ___
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>
>
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Mișu Moldovan
On 10.06.2016 15:24, Adrian Popa wrote:
> Salutare,
> 
> Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) pentru
> care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII. Cu
> siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au
> corespondent ASCII, așa că ele pot fi înlocuite cu "".
> 
> Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă să
> convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional
> "tr '/ăâșțî/aasti/'" presupun că nu o să meargă.
> 
> Aveți ceva recomandări despre cum aș putea trata problema făra să
> reinventez roata (de ex cu script http://www.perlmonks.org/?node_id=963341)

Soluții ar fi, dar ești sigur că vrei o asemenea blasfemie?!?  Mă
gândesc că poate o fi vreun sistem de operare vechi și/sau vreun
hardware foarte limitat, dar nu văd asta într-un tablou general ce
include 9 GB de fișiere text.  Nu mai bine rezolvi problema pe care o ai
cu textele non-ASCII?  Și care e de fapt problema respectivă?




signature.asc
Description: OpenPGP digital signature
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Petru Rațiu
Poate vorbesc prostii dar cu iconv ai incercat?

$ echo "șlițuleț" | iconv -t ISO8859-1//TRANSLIT
slitulet

2016-06-10 15:35 GMT+03:00 Adrian Popa :

> Am omis să spun că inputul arată în halul ăsta (văzut cu less):
>
> United World Chart single-ul a atins pozi<9B>ia cu num<83>rul 7,
> acumulnd peste 2,25
>
> Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok.
>
> 2016-06-10 15:24 GMT+03:00 Adrian Popa :
>
> > Salutare,
> >
> > Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro)
> > pentru care vreau să înlocuiesc diacriticele cu caracterele echivalente
> > ASCII. Cu siguranță am și alte caractere UTF8 care nu sunt diacritice și
> > care nu au corespondent ASCII, așa că ele pot fi înlocuite cu "".
> >
> > Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă
> să
> > convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional
> > "tr '/ăâșțî/aasti/'" presupun că nu o să meargă.
> >
> > Aveți ceva recomandări despre cum aș putea trata problema făra să
> > reinventez roata (de ex cu script
> http://www.perlmonks.org/?node_id=963341
> > )
> >
> > Multumesc,
> > Adrian
> >
> ___
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
Ba merge și cu sed și cu tr, doar că trebuie să îi spun eu toate cazurile
și în ce să le convertească. Speram la un tool care să le facă "automagic"
și să știe el în ce se convertește fiecare (presupun că există un standard
pe undeva...).



2016-06-10 15:37 GMT+03:00 Adrian Minta :

> Salut,
> nu merge cu sed:
>
> sed -i "s/<9B>/t/" fisier.txt
>
>
> On 06/10/2016 03:35 PM, Adrian Popa wrote:
> > Am omis să spun că inputul arată în halul ăsta (văzut cu less):
> >
> > United World Chart single-ul a atins pozi<9B>ia cu num<83>rul 7,
> > acumulnd peste 2,25
> >
> > Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok.
> >
> > 2016-06-10 15:24 GMT+03:00 Adrian Popa :
> >
> >
>
> ___
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Minta
Salut,
nu merge cu sed:

sed -i "s/<9B>/t/" fisier.txt


On 06/10/2016 03:35 PM, Adrian Popa wrote:
> Am omis să spun că inputul arată în halul ăsta (văzut cu less):
>
> United World Chart single-ul a atins pozi<9B>ia cu num<83>rul 7,
> acumulnd peste 2,25
>
> Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok.
>
> 2016-06-10 15:24 GMT+03:00 Adrian Popa :
>
>

___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


Re: [rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
Am omis să spun că inputul arată în halul ăsta (văzut cu less):

United World Chart single-ul a atins pozi<9B>ia cu num<83>rul 7,
acumulnd peste 2,25

Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok.

2016-06-10 15:24 GMT+03:00 Adrian Popa :

> Salutare,
>
> Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro)
> pentru care vreau să înlocuiesc diacriticele cu caracterele echivalente
> ASCII. Cu siguranță am și alte caractere UTF8 care nu sunt diacritice și
> care nu au corespondent ASCII, așa că ele pot fi înlocuite cu "".
>
> Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă să
> convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional
> "tr '/ăâșțî/aasti/'" presupun că nu o să meargă.
>
> Aveți ceva recomandări despre cum aș putea trata problema făra să
> reinventez roata (de ex cu script http://www.perlmonks.org/?node_id=963341
> )
>
> Multumesc,
> Adrian
>
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug


[rlug] Transliterate - înlocuire diacritice cu echivalentul ASCII

2016-06-10 Fir de Conversatie Adrian Popa
Salutare,

Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) pentru
care vreau să înlocuiesc diacriticele cu caracterele echivalente ASCII. Cu
siguranță am și alte caractere UTF8 care nu sunt diacritice și care nu au
corespondent ASCII, așa că ele pot fi înlocuite cu "".

Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă să
convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional
"tr '/ăâșțî/aasti/'" presupun că nu o să meargă.

Aveți ceva recomandări despre cum aș putea trata problema făra să
reinventez roata (de ex cu script http://www.perlmonks.org/?node_id=963341)

Multumesc,
Adrian
___
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug