Re: [nexa] AI Training is Copyright Infringement

Guido Vetere Sun, 08 Sep 2024 07:24:40 -0700

>
> Microsoft stessa non nega la natura di opera derivata dei LLM (pur
> tentando disperatamente di giustificarla). Ad esempio in "Elephant
> never forget..." [2] i suoi ricercatori scrivono: "This investigation
> reveals that LLMs have memorized many popular tabular datasets


verbatim".


per completezza, riporto un passaggio seguente del suddetto articolo:

Research has also shown that memorization occurs if
an LLM sees a text repeatedly during training (Carlini et al., 2022b;
Biderman et al., 2023).
Because of this, *memorization can be seen as an extreme case of training
data contamination*
where a dataset is not only seen during training but repeated within the
training set so often
that the LLM becomes able to consistently generate it.

La memorizzazione, insomma, è un caso degenere. Infatti, si applicano
usualmente tecniche di filtering per deduplicare i passaggi che occorrono
molte volte nei dataset di training, magari proprio perché gli umani li
hanno plagiarizzati molte volte :-)

Cheers,
G.


On Sun, 8 Sept 2024 at 15:48, Giacomo Tesio <[email protected]> wrote:

> Ciao Maria Chiara,
>
> riporto il subject al valore iniziale perché non ho molto da aggiungere
> sugli interessi rappresentati da Axel Voss: le norme su copyright,
> brevetti e segreti industriali sono intrinsecamente oscurantiste,
> e rallentano il progresso culturale e tecnologico dell'umanità vietando
> alla maggioranza delle persone di conoscere e/o ragionare liberamente
> sulle informazioni che i dati cui vengono applicate rappresentano.
>
> Detto questo, l'eccitazione di Axel Voss dipende dalla stessa ignoranza
> informatica di coloro che si strappano le vesti di fronte ad uno studio
> che afferma una semplice ovvietà tecnica: le "AI generative" sono opere
> derivate meccanicamente delle opere utilizzate per programmarle
> statisticamente e di cui, come spiegavo in una mail precedente
> costituiscono l'eseguibile compilato per una determinata architettura.
>
> On Sun, 8 Sep 2024 10:33:05 +0200 Maria Chiara Pievatolo wrote:
>
> > Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright
> > estendendo a tutte le espressioni delle idee (recensioni, riassunti
> > umani e no etc.) la stessa disciplina che si applica, secondo me
> > incoerentemente (slide 22: https://zenodo.org/records/11163103),
> > alle traduzioni.
>
> Non serve: il copyright com'è protegge già gli eseguibili compilati a
> partire da testi chiamati "codice sorgente", senza bisogno di alcuna
> modifica alla normativa o alcuna estensione alla sua interpretazione.
>
> Anche il processo di compilazione di un comune software scritto in C è
> un processo di compressione particolarmente evidente laddove non vi
> siano molte dipendenze esterne. Ad esempio, il kernel di linux versione
> 5.10 è un testo da quasi un gigabyte. Compresso in tar.xz [1] occupa
> circa 115 Mega (un fattore di compressione senza perdita di
> informazione di 8 a 1, circa) mentre una volta compilato occupa circa 7
> megabyte (un fattore di compressione CON perdita di informazione di
> oltre 100 volte).
>
>
> L'eseguibile che i fautori delle "AI generative" chiamano impropriamente
> "modello" subisce una compressione concettualmente analoga attraverso
> il processo di compilazione dei dataset sorgenti.
>
>
> Non è dunque necessario modificare il diritto d'autore per riconoscere
> i "modelli AI" (le matrici eseguibili da quelle macchine virtuali) come
> opere derivate dai testi sorgenti.
>
> Anche se poi le aziende forniscono accesso a quelle opere derivate "a
> pezzetti", le opere sono state integralmente incluse nel processo di
> programmazione statistica (il "training" della "AI").
> In altri termini, il "modello" deriva dalla totalità di ciascun opera
> usata per la sua programmazione, nonché dalla totalità di TUTTE le
> opere utilizzate (pubblicamente note, o meno).
> Ciò rende inapplicabili ai modelli le eccezioni che permettono di citare
> piccoli frammenti di un opera in un'altra.
>
>
> Dunque, indipendentemente dall'articolo e dalle ragioni di chi l'ha
> scritto, affermare che "AI Training is Copyright Infringement" significa
> semplicemente prendere atto di come funziona il processo in questione e
> ciò che produce (il "modello").
>
> Microsoft stessa non nega la natura di opera derivata dei LLM (pur
> tentando disperatamente di giustificarla). Ad esempio in "Elephant
> never forget..." [2] i suoi ricercatori scrivono: "This investigation
> reveals that LLMs have memorized many popular tabular datasets
> verbatim".
>
>
> Dunque nessun bisogno di estendere o rafforzare il diritto d'autore:
> basta applicare le norme vigenti anche a chi approfitta dell'ignoranza
> altrui per sottrarvisi attraverso software che pochi comprendono
> (anzitutto fra coloro che ne parlano)
>
>
>
> Giacomo
>
>
> [1]
> https://cdn.kernel.org/pub/linux/kernel/v5.x/linux-5.10.225.tar.x
>
> [2] https://arxiv.org/abs/2404.06209
>

Re: [nexa] AI Training is Copyright Infringement

Reply via email to