Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio Sun, 08 Sep 2024 10:06:00 -0700

In realtà Giancarlo ho ben chiaro il dibattito in corso, gli interessi in 
gioco, 
le "strane alleanze" e i fiumi di soldi che stanno inquinando questo dibattito.


E sono rassegnato al divorzio dalla realtà che tutto ciò comporta.

Tuttavia, da informatico più interessato allo stato di diritto che ai soldi in 
questione
non posso che descrivere i software cui il dibattito fa riferimento.

Il 8 Settembre 2024 15:34:15 UTC, GC F ha scritto:
> Quel che conta è che...

Bene, finalmente concordiamo che ogni riferimento al data mining è infondato e 
fuorviante.

> si utilizzino espressioni proteggibili per
> creare/addestrare uno strumento

Ecco quando su parla di "AI training" si parla del processo di programmazione 
statistica
attraverso cui si ottiene un software.

Questo software è un opera derivata dai dataset sorgenti (e da pochi altri dati 
decisi 
dai "data scientist").

Ancor prima che questo software venga eseguito e produca output che riproduca in
tutto o in parte un'opera usata per programmarlo, la sua realizzazione deve 
rispettare
i diritti degli autori di tutte le opere che costituiscono il dataset sorgente.

Questi autori possono aver ceduto il diritto di creare quel software come opera 
derivata
dalle proprie opere (come fanno i giornalisti o i romanzieri che lavorano come 
"chatbot helper") 
e in tal caso siamo tutti contenti.

Tuttavia, per creare un'opera derivata dalle loro (come il software in 
questione) tale 
cessione è necessaria nei termini del diritto d'autore.

> Anche se il processo di training AI si basa su
> riproduzioni meccaniche di opere nella loro interezza, questo non implica
> di per sé la violazione del diritto d'autore, se tale riproduzione è votata
> alla creazione di uno strumento che poi utilizzi quelle riproduzioni
> meccaniche a fini trasformativi. 

Temo che questo passaggio evidenzi un malinteso di fondo: non stiamo discutendo 
della
legittimità di creare un dataset contenente copie di testi coperti dal diritto 
d'autore, ne della
loro copia in memoria durante il processo impropriamente chiamato "training".

Stiamo parlando del processo di creazione di un'opera derivata (il "modello").

> certe sue affermazioni sono forse "ingenue" [...] (eg "Anche se poi le aziende
> forniscono accesso a quelle opere derivate "a pezzetti", le opere sono
> state integralmente incluse nel processo di programmazione statistica (il
> "training" della "AI")"). 

Beh, più che ingenuo, direi che distinguere fra software e output del software 
è ovvio.

Mi pare invece incredibile che li si possa confondere e mi chiedo come sia 
possibile
nel 2024 una confusione tanto evidente.

In questo però potrei essere "ingenuo", in effetti.


> La questione dell'applicazione della "dicotomia
> idea/espressione" al TDM è proprio relativa al fatto che per estrarre dati,
> non proteggibili, si debbano effettuare copie meccaniche integrali
> dell'espressione proteggibile in cui quei dati sono contenuti.

Sennonché non stiamo parlando di dette copie, ma del software che ne viene 
compilato.


Sia chiaro: se il processo di compilazione / compressione lossy cancella il 
diritto 
degli autori a me va benissimo!

L'importante è che valga anche per i binari x86_64 di Microsoft, per gli mp4 
ottenuti dai film Disney,
etc...



Giacomo

Re: [nexa] AI Training is Copyright Infringement

Reply via email to