> > Microsoft stessa non nega la natura di opera derivata dei LLM (pur > tentando disperatamente di giustificarla). Ad esempio in "Elephant > never forget..." [2] i suoi ricercatori scrivono: "This investigation > reveals that LLMs have memorized many popular tabular datasets
verbatim". per completezza, riporto un passaggio seguente del suddetto articolo: Research has also shown that memorization occurs if an LLM sees a text repeatedly during training (Carlini et al., 2022b; Biderman et al., 2023). Because of this, *memorization can be seen as an extreme case of training data contamination* where a dataset is not only seen during training but repeated within the training set so often that the LLM becomes able to consistently generate it. La memorizzazione, insomma, è un caso degenere. Infatti, si applicano usualmente tecniche di filtering per deduplicare i passaggi che occorrono molte volte nei dataset di training, magari proprio perché gli umani li hanno plagiarizzati molte volte :-) Cheers, G. On Sun, 8 Sept 2024 at 15:48, Giacomo Tesio <[email protected]> wrote: > Ciao Maria Chiara, > > riporto il subject al valore iniziale perché non ho molto da aggiungere > sugli interessi rappresentati da Axel Voss: le norme su copyright, > brevetti e segreti industriali sono intrinsecamente oscurantiste, > e rallentano il progresso culturale e tecnologico dell'umanità vietando > alla maggioranza delle persone di conoscere e/o ragionare liberamente > sulle informazioni che i dati cui vengono applicate rappresentano. > > Detto questo, l'eccitazione di Axel Voss dipende dalla stessa ignoranza > informatica di coloro che si strappano le vesti di fronte ad uno studio > che afferma una semplice ovvietà tecnica: le "AI generative" sono opere > derivate meccanicamente delle opere utilizzate per programmarle > statisticamente e di cui, come spiegavo in una mail precedente > costituiscono l'eseguibile compilato per una determinata architettura. > > On Sun, 8 Sep 2024 10:33:05 +0200 Maria Chiara Pievatolo wrote: > > > Dove i SALAMI rimescolano, bisognerebbe cambiare il copyright > > estendendo a tutte le espressioni delle idee (recensioni, riassunti > > umani e no etc.) la stessa disciplina che si applica, secondo me > > incoerentemente (slide 22: https://zenodo.org/records/11163103), > > alle traduzioni. > > Non serve: il copyright com'è protegge già gli eseguibili compilati a > partire da testi chiamati "codice sorgente", senza bisogno di alcuna > modifica alla normativa o alcuna estensione alla sua interpretazione. > > Anche il processo di compilazione di un comune software scritto in C è > un processo di compressione particolarmente evidente laddove non vi > siano molte dipendenze esterne. Ad esempio, il kernel di linux versione > 5.10 è un testo da quasi un gigabyte. Compresso in tar.xz [1] occupa > circa 115 Mega (un fattore di compressione senza perdita di > informazione di 8 a 1, circa) mentre una volta compilato occupa circa 7 > megabyte (un fattore di compressione CON perdita di informazione di > oltre 100 volte). > > > L'eseguibile che i fautori delle "AI generative" chiamano impropriamente > "modello" subisce una compressione concettualmente analoga attraverso > il processo di compilazione dei dataset sorgenti. > > > Non è dunque necessario modificare il diritto d'autore per riconoscere > i "modelli AI" (le matrici eseguibili da quelle macchine virtuali) come > opere derivate dai testi sorgenti. > > Anche se poi le aziende forniscono accesso a quelle opere derivate "a > pezzetti", le opere sono state integralmente incluse nel processo di > programmazione statistica (il "training" della "AI"). > In altri termini, il "modello" deriva dalla totalità di ciascun opera > usata per la sua programmazione, nonché dalla totalità di TUTTE le > opere utilizzate (pubblicamente note, o meno). > Ciò rende inapplicabili ai modelli le eccezioni che permettono di citare > piccoli frammenti di un opera in un'altra. > > > Dunque, indipendentemente dall'articolo e dalle ragioni di chi l'ha > scritto, affermare che "AI Training is Copyright Infringement" significa > semplicemente prendere atto di come funziona il processo in questione e > ciò che produce (il "modello"). > > Microsoft stessa non nega la natura di opera derivata dei LLM (pur > tentando disperatamente di giustificarla). Ad esempio in "Elephant > never forget..." [2] i suoi ricercatori scrivono: "This investigation > reveals that LLMs have memorized many popular tabular datasets > verbatim". > > > Dunque nessun bisogno di estendere o rafforzare il diritto d'autore: > basta applicare le norme vigenti anche a chi approfitta dell'ignoranza > altrui per sottrarvisi attraverso software che pochi comprendono > (anzitutto fra coloro che ne parlano) > > > > Giacomo > > > [1] > https://cdn.kernel.org/pub/linux/kernel/v5.x/linux-5.10.225.tar.x > > [2] https://arxiv.org/abs/2404.06209 >
