Re: [Python] It's 1999 all over again

Daniele Varrazzo Thu, 13 Feb 2014 15:35:10 -0800

On 2014-02-13 18:50, Dario Bertini wrote:

On 02/13/2014 05:03 PM, Daniele Varrazzo wrote:
- sai che a[n] non è un carattere ma è un byte. La bugia deiwidecharnon regge. Neanche quella di unicode in python che però si rompe aldifuori del BMP (a meno che non lo compili 4 byte per carattere blahblah)
Forse sono pignolo, ma "la bugia dei widechar non regge" non vuoldire
quasi nulla visto che:
- non specifichi cos'è un widechar (è un codeunit a 16 bit, o un
codepoint memorizzato in 32?)
- non chiarisci in che modo non regge

wchar_t è compiler dependent: potrebbe essere anche 8 bit. Tanto peressere utile.

Se fosse 16 bit, comunque ti servono 2 unità per esprimere un caratterefuori BMP (surrogate pairs)


Se fosse 32 bit, comunque ci sono i caratteri combinanti. Non ne esci.

Cosa non regge è l'idea che se hai widechar, non mi interessa quantowide, comunque né accesso casuale né lunghezza siano operazionigenericamente utili. Anche in utf32:


    In [3]: s = u'\u0075\u0301'

    In [4]: len(s)
    Out[4]: 2

    In [5]: print s
    ú

Python da questo punto di vista non ha nessun problema, con Py3.3
l'astrazione unicode non mi sembra sia leaky e comunque mi risultachetutte le distro linux fornissero da diversi anni solo le wide builddi
python di default

Non lo sapevo. Che spreco. Nessuno usa i caratteri fuori dal BMP <grin>Non so come verificarlo ma sembra sia così:

sys.getsizeof(u'aa') - sys.getsizeof(u'a')

insomma: di default le cose funzionano bene da anni... anche se sono
d'accordo che il fardello cognitivo del ricordarsi di "fallire
graziosamente" sulle narrow build fosse un deal breaker

- tipicamente l'i/o non richiede encoding/decoding


Questo vuol dire che se i dati che leggi non sono codificati
correttamente te ne accorgi proprio nel mezzo dell'elaborazione

Anche in python. Tutto funziona finché non arriva un accento e le cosesi rompono. Magari si rompono in I/O, mentre tutto quello che occorrevaera leggere una stringa da un database e scriverla su una pagina web:per un programma scritto negli ultimi 10 anni ci sono buone chance cheentrambi siano utf8 e la codifica/decodifica non era necessaria: unaccento sarebbe arrivato indenne a destinazione, anche se Python nonl'avrebbe visto come codepoint singolo.

Il problema sono i dati legacy. Go credo non ne voglia avere a chefare, e ne approfitta per fare pulizia. Se scrivi un programma oggi dazero sarà bene che faccia tutto con unicode/utf8. Il problema dellecodifiche 8 bit è un problema che hanno i linguaggi colla, e Go hadeciso di semplificare su questo punto e guardare al presente/futuroinvece che al passato. Anche ora, con tutte le interfacce che gestisco(database, web, email, file...) non uso praticamente nessun encoding chenon sia utf8. Se proprio c'è un input latin1 ok, ci sarà un decodersull'interfaccia che lo converte: non cambia rispetto a Python.

penso sarebbe stato meglio fare di len("whatever") un compile errorinGo, e fornire una funzione size() allo scopo... size si presta dimeno
ad essere fraintesa come "lunghezza di un testo"

se uno non sa che cosa sta facendo, a livello di usare una stringasenza sapere se sono codepoint o una codifica, non vedo la necessità divenirgli incontro. Meglio faccia un altro lavoro. Altrimenti rischia dicentrare male la stringa in cinese nello schermo.

Se per questo vorrei una macchina del tempo per dare una martellatasulle dita di chi ha implementato str.encode() e unicode.decode(),perpretando sempre di più l'idea che str e unicode sianointercambiabili. Ho bestemmiato i miei santi migliori dietro allelibrerie che chiamano x.decode() qualunque cosa sia x, e siccome va beneagli americani va bene a tutti. O meglio magari funziona nella shell masi rompe in crontab perchè una variabile d'ambiente è diversa [1]. Daread unicode l'interfaccia non di una lista ma di un iterabile avrebbefatto notare che len(unicode) non è un'operazione poi così utile - e seproprio ti serve fai len(list(u)). Invece che ha fatto in python3? Haazzoppato bytes rimuovendo l'operatore %, quindi tutto *deve* essere[de]codificato. A questo punto ecco il bastone, lì ci sono i cuccioli difoca... Ok fine rant :)

È un linguaggio opinionato
Anche Python è un linguaggio opinionato: solo perchè a te nonpiacciono
i bytes literals (così mi sembra), non vuol dire che "paghi sempre
l'overhead necessario" :P


Perché non mi dovrebbero piacere i byte literal? :)

E sì, paghi overhead in codifica (input), elaborazione (4 volte lamemoria e quindi il tempo per processarla) e decodifica (output) anchedove non sarebbe stato necessario: è un fatto che non vedo come si possanegare. Usare unicode ovunque mi va benissimo: è giusto ed è il presentee il futuro. È la scelta di rappresentarlo internamente come array dicodepoint che crea delle strozzature. Go non ha queste chicane, il chelo rende più efficiente sull'I/O di qualunque magia possa fare Python.Penso gli dia più questo che il fatto di essere compilato.



-- Daniele

[1] ok, questo è un problema diverso, ma deriva dal fatto che in pythontutti gli encoding hanno la stessa importanza, che è una panzanacolossale visto che solo uno gestisce il dominio completo, mentre glialtri esplodono su diversi sottoinsiemi.


    piro@bagheera:~$ python -c 'print u"\u20ac"'
    €
    piro@bagheera:~$ LC_CTYPE=C python -c 'print u"\u20ac"'
    Traceback (most recent call last):
      File "<string>", line 1, in <module>

UnicodeEncodeError: 'ascii' codec can't encode character u'\u20ac'in position 0: ordinal not in range(128)

Cosa vorrei da un linguaggio moderno? Che se chiedo di scriveredell'unicode in un file i dati, grazie, per favore, convertilinell'unico encoding che può gestire tutto il dominio unicode, no, nonvoglio fare una partita alla roulette degli encoding. Se in quel filestrano e curioso voglio scriverci in LATIN15 ti passerò dei bytecodificati da me. Sì esistono terminali che non gestiscono utf8. Sì,sono io il coglione se ti chiedo di stamparci sopra €, non è colpa tua:un risultato indeterminato va bene. Ma ti prego, non crashare alle 3 dimattina per un print.


_______________________________________________
Python mailing list
[email protected]
http://lists.python.it/mailman/listinfo/python

Re: [Python] It's 1999 all over again

Rispondere a