Re: [nexa] AI Training is Copyright Infringement

GC F Wed, 11 Sep 2024 08:28:36 -0700

Un ultimo appunto, ad nauseam mi scuso, ma forse c'è una premessa errata in
tutta questa diatriba: *l'argomentazione che il "software programmato
statisticamente impropriamente detto modello" è un'opera derivata dai testi
protetti usati per realizzarlo è ovvia, giuridicamente* (ogni fair use è
potenzialmente un'opera derivata - altrimenti la questione della sua
legittimità non si porrebbe neppure), *ma questo non implica che vi sia
violazione dei diritti autoriali* se (1) l'utilizzazione dei testi protetti
è trasformativa, anche se a fini commerciali (2) non ci sono effetti
rilevanti sul mercato potenziale dell'opera protetta e (3) l'utilizzo ha un
valore pubblico rilevante (fattore creato giurisprudenzialmente). Ci sono
altri due fattori, la natura dell'opera protetta e la quantità e
sostanzialità della porzione utilizzata, ma secondo giurisprudenza sono
irrilevanti se l'uso è trasformativo. Nel valutare i fattori la
giurisprudenza utilizza un approccio equity-base, ponderando il peso di
ognuno per raggiungere una decisione finale e olistica sulla legittimità o
meno dell'uso. Con tutti i caveat del caso, e le molteplici opinioni
divergenti che possono sorgere in giurisprudenza e dottrina, in base alla
casistica da *Baker v Selden* fino a *Google Books*, utilizzare
innumerevoli contenuti protetti per creare un software/modello con le
funzionalità di un LLM è un uso trasformativo che non ha un effetto
sostitutivo sul mercato delle singole opere utilizzate. In questo contesto
aggiungo che, a mio parere, (1) argomentare che c'è un mercato potenziale
delle licenze per sviluppare il software è argomentazione circolare,
poichè se l'uso è legittimo quel mercato non è potenziale; (2) sostenere
che gli output del software generativo possono avere effetti sostitutivi
sul mercato delle opere protette utilizzate è argomento ovviamente fallace
perché il mercato di riferimento non può essere quello della creatività in
generale, ma quello della singola opera utilizzata, altrimenti ogni uso
anche trasformativo avrebbe sempre effetti sul mercato dell'opera. Se
l'output generato è identico o sostanzialmente simile (nozioni tecniche in
DA), allora avremo una violazione per quel che riguarda quello specifico
output, che non ha utilizzato le opere protette in maniera trasformativa,
ma questo non implica che utilizzare le opere protette per creare il
software/modello che può generare innumerevoli output creativi non sia un
uso trasformativo.

Questa analisi, ovviamente, rileva in diritto statunitense. In diritto EU
si tende a concludere invece che ogni riproduzione sia illegittima a meno
che non esista una eccezione specifica. Ovviamente, eccezioni e limitazioni
garantiscono certezza del diritto ma non flessibilità tecnologica, al
contrario del modello fair use statunitense. Questa la ragione per cui si
discute se l'eccezione per TDM, che pure è limitata da opt-out o ricerca
senza fini di lucro, si applichi alla creazione di LLM. Ho già detto quel
che penso circa la dicotomia idea(conoscenza)/espressione che dovrebbe
servire sempre quale riferimento generale, anche in diritto europeo. Al di
là del fatto che tutta la discussione specifica circa se un LLM sia diverso
da TDM o da Google books non rileva comunque a mio parere perché
l'esercizio è proprio quello di astrarre il principio rispetto alle
tecnologie specifiche, e anche al netto di considerazioni fringe secondo
cui non si possa predicare un processo di "apprendimento" nel machine
learning/deep learning che fonda lo sviluppo di software/modelli creativi
come LLM, posso solo notare che la ratio dell'introduzione delle eccezioni
TDM nella direttiva 790/2019 è proprio da ritrovarsi nel tentativo di
fornire certezza giuridica circa la legittimità di processi di sviluppo di
IA, anche in ambito cross-border vista la poca armonizzazione comunitaria,
per riempire il divario competitivo dell'industria IA europea rispetto a
quella statunitense e cinese, che non sono sottoposte a norme autoriali
così restrittive. Questo lo posso confermare con certezza poiché con i miei
coautori Geiger e Bulayenko abbiamo redatto un rapporto commissionato dalla
Commissione in materia e siamo stati coinvolti nel processo di
discussione della norma con varie commissioni parlamentari. Che poi infine
i nostri suggerimenti siano stati poco ascoltati e sia stata partorita una
normativa insufficiente a garantire quella competitività che manca
all'industria IA europea è altra storia...

Giancarlo

On Wed, Sep 11, 2024 at 10:21 AM 380° via nexa <[email protected]>
wrote:

> Ciao Giacomo,
>
> scusa ma faccio fatica a stare dietro a questo thread, mi sono "messo in
> pari" solo ora.
>
> Giacomo Tesio <[email protected]> writes:
>
> [...]
>
> >> Il software (programmato statisticamente) è un'opera derivata dei
> >> testi (dati?) utilizzati per il "machine learning": ho capito bene?
> >
> > Sì.
> >
> > Esattamente come un binario eseguibile dall'architettura x86_64 è
> > un'opera derivata dai sorgenti usati per compilarlo, una matrice
> > eseguibile dall'architettura GPT-4 è un'opera derivata dei testi
> > usati per realizzarla.
>
> OK grazie Giacomo, ora che ho compreso che a tuo giudizio l'"AI
> Training" implica violazione di copyright perché il "software
> programmato statiticamente impropriamente detto modello" (per usare le
> tue definizioni) è un'opera derivata dai testi protetti usati per
> realizzarlo...
>
> ...non te lo chiederò mai più :-)
>
> Quello in oggetto è un argomento ricorrente in questa lista, per esempio
> quasi un anno fa esatto ci fu questo thread:
> https://server-nexa.polito.it/pipermail/nexa/2023-September/051648.html
> nel quale tu, Giancarlo Frosio et al (io compreso) avete già
> _ampiamente_ esposto le vostre posizioni in merito; questo thread non
> sposta di una virgola quanto già detto all'epoca.
>
> Rileggendolo mi rendo conto che anche io comincio a essere un disco
> rotto, e me ne scuso: è inutile che io ripeta quanto già sostenuto più
> volte.
>
> Quello che ci tengo a ripetere, invece, è il quadro generale, direi
> folosofico, del copyright:
>
> https://server-nexa.polito.it/pipermail/nexa/2023-September/051674.html
> «The promise of a post-copyright world»
>
> Cioè: il copyright è una abberrazione giuridica e gli argomenti usati per
> sostenere che "AI Training is Copyright Infringement" non fanno altro
> che aumentare il livello di abberrazione.
>
> Ciao, 380°
>
> --
> 380° (Giovanni Biscuolo public alter ego)
>
> «Noi, incompetenti come siamo,
>  non abbiamo alcun titolo per suggerire alcunché»
>
> Disinformation flourishes because many people care deeply about injustice
> but very few check the facts.  Ask me about <https://stallmansupport.org>.
>

Re: [nexa] AI Training is Copyright Infringement

Reply via email to