On Sun, Sep 08, 2024 at 04:24:00PM +0200, Guido Vetere wrote:
> La memorizzazione, insomma, è un caso degenere. Infatti, si applicano
> usualmente tecniche di filtering per deduplicare i passaggi che occorrono
> molte volte nei dataset di training, magari proprio perché gli umani li
> hanno plagiarizzati molte volte :-)

Esatto, questo è un punto pratico molto importante che spesso si perde
(anche su questa lista) nelle discussioni sul tema della "recitation"
(restituzione di "lunghi" passaggi presenti nel training dataset da
parte di un LLM).

La recitation è assolutamente *possibile* come caso degenere, come
sottolinea Guido. La frequenza dipende da proprietà statistiche del
training dataset, che chi mette sul mercato un LLM può controllare (ma
spesso fa, perché molto costoso).  Quello che invece regolarmente fanno
attori come GitHub con Copilot è di aggiungere a valle della generazione
con gli LLM dei filtri basati su tecniche di code clone detection e
anti-plagio, che sono molto efficaci e relativamente poco costose. Se
una sequenza troppo lunga è presente sia nell'output che nel training
dataset, l'output viene buttato via e rigenerato, fino a quando non si
ottiene un output senza recitation.

Tutto questo non ci aiuta nel dibattito sul decidere se un LLM sia o
meno un opera derivata dei suoi training input. Ne tantomeno ci aiuta
nei casi più complicati nei quali in cui l'output contiene parti del
training dataset, ma non in sequenze verbatim.

Ma in termini di impatto sulla società dei *prodotti* basati su LLM, le
cose sono cambiate parecchio su questi punti dai primi studi empirici su
quanto gli LLM (commercializzati) possano ripetere verbatim i loro input
o meno. È il motivo per cui Microsoft si senza abbastanza sicura di
tutto questo da offrire garanzie legali in termini di violazione del
diritto d'autore quando si usa la suite Copilot. (Non a caso lo fa
*solo* se l'utente non ha disabilitato il filtering a valle di cui
parlavo sopra.)

A presto
-- 
Stefano Zacchiroli . [email protected] . https://upsilon.cc/zack  _. ^ ._
Full professor of Computer Science              o     o   o     \/|V|\/
Télécom Paris, Polytechnic Institute of Paris     o     o o    </>   <\>
Co-founder & CTO Software Heritage            o o o     o       /\|^|/\
https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro   '" V "'

Reply via email to