> Puoi elaborare? Ci provo
I nomi (intendo: <nome><cognome>) potrebbero essere in teoria (Kripke) 'designatori rigidi', cioè identificare un individuo in tutti i 'mondi' (contesti) possibili. Purtroppo però c'è l'omonimia, dunque occorre aggiungere al nome abbastanza informazione per selezionare quei contesti in cui il nome designa proprio il soggetto inteso. Per le figure pubbliche, OpenAI non a caso chiede, nella sua form di opt-out: *If the data subject is a public figure, please describe the data subject’s role in society or their community.* Per 'the rest of us' non è chiaro come vadano le cose, ma mettiamoci nella condizione ideale: abbiamo un nome e un selettore di contesti. A questo punto, sarebbe possibile, per ciascun opt-out, scandire l'intero 'database' testuale e rimuovere, con un certo grado di accuratezza (mai totale) la gran parte (mai completa) i passaggi in cui il soggetto è menzionato. Dopodiché basterebbe (si fa per dire) ricostruire il language model, et voilà. Nota però che classificare tutti i passaggi di decine di GB di testo e ricostruire un modello di diverse centinaia di miliardi di parametri impegnerebbe l'energia elettrica di una città (per quanti giorni? Potrebbe dircelo @Giovanna Sissa <[email protected]>). Insomma: non sarebbe proprio come togliere una pagina da Wikipedia. Ma c'è anche un altro aspetto: oltre ai designatori rigidi kripkiani, ci sono le 'descrizioni definite' di Russel: Aristotele è 'il filosofo di Stagira', o anche 'il mentore di Alessandro Magno'. Insomma ci sono tante locuzioni che possono identificare un soggetto, da cui la richiesta di 'prompt engineering' di OpenAI: *Please provide any relevant prompts that resulted in the model mentioning the data subject.* Il caso si complica: includere tali locuzioni aumenta la precisione (il numero dei passaggi 'sospetti' eliminati) ma a scapito del 'richiamo' (qualche interessante passaggio sulla formazione di Alessandro Magno potrebbe andar perso). Un bel rebus. In realtà, comunque, quello che suppongo abbia in mente OpenAI non è un processo di 'bonifica' del language model per ogni opt-out ricevuto. Si tratterà, con ogni probabilità, di far leva su un meccanismo di 'reinforcement': a parità di LLM, la macchina sarà 'condizionata' per evitare di produrre certe frasi. Fattibile, ma funzionerà? OpenAI, giustamente, non può garantire e mette le mani avanti: molto dipenderà dai singoli casi, dai singoli 'prompt'. Il fatto è che un generatore come ChatGPT restituisce dati genuinamente contraffatti, difficile inibirlo del tutto. Io credo dunque che alla fine non accadrà nulla di significativo, ma vedremo. Il Garante però è soddisfatto: ha ottenuto il suo obiettivo burocratico e tanto basta. Restano sul tavolo, intatti, i problemi veri. Buona serata, G. On Sat, 29 Apr 2023 at 22:14, Giacomo Tesio <[email protected]> wrote: > Salva Guido, > > Il 29 Aprile 2023 05:09:03 UTC, Guido Vetere <[email protected]> ha > scritto: > > > >Poi viene la parte tecnicamente sfidante: c'è da fare 'prompt engineering' > >per evidenziare le possibili 'menzioni' del soggetto > > > >*Please provide any relevant prompts that resulted in the model mentioning > >the data subject. To be able to properly address your requests, we need > >clear evidence that the model has knowledge of the data subject > conditioned > >on the prompts.* > > > >Insomma*,* la vedo dura, però credo che più di questo non potessero fare > > > Puoi elaborare? > > Tecnicamente hanno innumerevoli metodi per risolvere il problema in modo > efficace e definitivo. > > Il più semplice consiste nel ripetere la programmazione statistica (il > "training") > senza i dati del soggetto. > > Perché si dovrebbe pretendere qualcosa di meno efficace? > > > >(giova ancora ripeterlo: un LLM non è un database) > > E giova ripetere che un LLM viene programmato a partire da un enorme > database. > > Si può tranquillamente rimuovere i dati relativi al richiedente da quel > database: è solo costoso. > > Poi per ulteriore sicurezza si può mettere un filtro a valle che impedisce > al software di inviare > dati del richiedente in output. > > > Giacomo >
_______________________________________________ nexa mailing list [email protected] https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
