Re: [nexa] AI Training is Copyright Infringement

Giacomo Tesio Fri, 06 Sep 2024 07:27:19 -0700

Ciao 380°,

On Fri, 06 Sep 2024 12:47:39 +0200 380° <[email protected]> wrote:


> Non capisco perché la parte "text mining" che del processo di
> c.d. "machine learning" non rientri tranquillamente nella definizione
> di "text and data mining" riportata sopra.

Perché il processo di "machine learning" (più propriamente
programmazione statistica) usato per la realizzazione di un
"AI generativa" produce matrici numeriche inintelligibili.

Non a caso vengono definite "black box".

> > Il processo di programmazione statistica di un LLM o di qualsiasi
> > altra "IA generativa" non comporta in alcun modo l'estrazione di
> > conoscenza "human-understandable" sui testi e più in generale sui
> > dati usati come sorgente.  
> 
> e perché il ‘text and data mining’ definito sopra comporta
> l'estrazione di conoscenza "human-understandable" sui testi
> analizzati?

Perché quella definizione chiarisce che l'analisi effettuata
costituisce data mining solo quando è effettuata "in order
to generate information".

Le matrici numeriche _generate_ da tali processi che costituiscono gli
eseguibili di cui parliamo non veicolano alcuna informazione.

> il fatto che la definizione dica "includes but is not limited to
> patterns..." non è secondario

Non secondario, ma subordinato (anche grammaticalmente) alla
generazione di informazioni.

D'altro canto, non parliamo di locuzioni inedite: persino Wikipedia è
cristallina in merito a cosa costituisca il data mining:

https://en.wikipedia.org/wiki/Data_mining


> quindi il processo di "machine learning" a cosa sarebbe ricondicibile,
> secondo te?

Il processo di "machine learning" è un processo di compilazione
costituito da una forma di compressione dati con perdita che produce
una rappresentazione eseguibile da parte di una certa "architettura"
(ovvero una macchina virtuale programmata allo scopo).

La scelta delle tecniche e dei dati da utilizzare (il dataset sorgente,
ma anche i valori iniziali delle matrici, gli hyperparameters etc..)
costituisce invece l'attività di programmazione statistica operata da
programmatori che si fanno pomposamente chiamare "data scientist".


> > Tuttavia NON è ciò che avviene durante la programmazione statistica
> > di un "AI generativa" che è semplicemente un'opera derivata dei dati
> > sorgente  
> 
> Il software (programmato statisticamente) è un'opera derivata dei
> testi (dati?) utilizzati per il "machine learning": ho capito bene?

Sì.

Esattamente come un binario eseguibile dall'architettura x86_64 è
un'opera derivata dai sorgenti usati per compilarlo, una matrice
eseguibile dall'architettura GPT-4 è un'opera derivata dei testi
usati per realizzarla.


> Per essere considerata opera derivata, è mio modestissimo parere che
> tale opera debba essere espressa in una forma (linguaggio)
> comprensibile agli umani, ma non mi pare proprio che il software
> programmato statisticamente (che è del tutto analogo al software
> binario) rientri in questa categoria.

Se così fosse, i binari compilati a partire da sorgenti proprietari 
non sarebbero protetti dal diritto d'autore.

Sarei felicissimo di scoprirlo, ma ne dubito fortemente perché
corrisponderebbe alla abolizione del copyright sul software.
Verrebbe meno anche il copyleft e alcuni modelli di business
che vi si basano, ma sarebbe comunque una vittoria.

> > non troppo dissimile da un jpeg o da uno zip danneggiato ma
> > ancora utilizzabile.  
> 
> ...oppure ho capito male e tu non ti stai riferendo al software
> (binario) come opera derivata ma all'output dei sistem "AI
> generativi"?

Io sto parlando dei cosiddetti "modelli AI" ovvero le matrici
eseguibili (binari nella memoria della GPU, ma la codifica è 
irrilevante...) che vengono eseguiti dalle macchine virtuali preposte
(le cosiddette "architetture") a loro volta eseguite da GPU etc...

Tali matrici sono oggetto del diritto d'autore di coloro che hanno
scritto i testi da cui sono state compilate.


Poi sì, come conseguenza, l'output calcolato dal LLM è necessariamente
un'opera derivata dalla matrice che sta eseguendo e dunque sarà
utilizzati durante la sua programmazione.
soggetta al diritto d'autore di coloro che avevano scritto i testi

E' una sorta di (ovvia?) proprietà transitiva.


Naturalmente le matrici di cui parliamo (e gli output degli LLM) non
sono SOLO opera derivata dai testi in questione perché ad esempio c'è
anche un piccolo contributo del prompt (il cui peso è indicativamente
pari al rapporto fra la sua lunghezza in byte e la lunghezza in byte di
tutti i testi usati durante il processo di programmazione statistica,
quindi trascurabile ma non nullo).

Ma negare i diritti degli autori nella realizzazione delle matrici di
cui parliamo è tecnicamente e logicamente infondato.


Abolire il diritto d'autore VA BENISSIMO ! ! !

L'importante è che venga abolito per tutti, non solo per qualcuno.


Giacomo

Re: [nexa] AI Training is Copyright Infringement

Reply via email to