> Puoi elaborare?

Ci provo

I nomi (intendo: <nome><cognome>) potrebbero essere in teoria (Kripke)
'designatori rigidi', cioè identificare un individuo in tutti i 'mondi'
(contesti) possibili.
Purtroppo però c'è l'omonimia, dunque occorre aggiungere al nome abbastanza
informazione per selezionare quei contesti in cui il nome designa proprio
il soggetto inteso.
Per le figure pubbliche, OpenAI non a caso chiede, nella sua form di
opt-out:
*If the data subject is a public figure, please describe the data subject’s
role in society or their community.*
Per 'the rest of us' non è chiaro come vadano le cose, ma mettiamoci nella
condizione ideale: abbiamo un nome e un selettore di contesti.
A questo punto, sarebbe possibile, per ciascun opt-out, scandire l'intero
'database' testuale e rimuovere, con un certo grado di accuratezza (mai
totale) la gran parte (mai completa) i passaggi in cui il soggetto è
menzionato. Dopodiché basterebbe (si fa per dire) ricostruire il language
model, et voilà.
Nota però che classificare tutti i passaggi di decine di GB di testo e
ricostruire un modello di diverse centinaia di miliardi di parametri
impegnerebbe l'energia elettrica di una città (per quanti giorni? Potrebbe
dircelo @Giovanna Sissa <[email protected]>). Insomma: non sarebbe
proprio come togliere una pagina da Wikipedia.
Ma c'è anche un altro aspetto: oltre ai designatori rigidi kripkiani, ci
sono le 'descrizioni definite' di Russel: Aristotele è 'il filosofo di
Stagira', o anche 'il mentore di Alessandro Magno'. Insomma ci sono tante
locuzioni che possono identificare un soggetto, da cui la richiesta di
'prompt engineering' di OpenAI:
*Please provide any relevant prompts that resulted in the model mentioning
the data subject.*
Il caso si complica: includere tali locuzioni aumenta la precisione (il
numero dei passaggi 'sospetti' eliminati) ma a scapito del 'richiamo'
(qualche interessante passaggio sulla formazione di Alessandro Magno
potrebbe andar perso). Un bel rebus.
In realtà, comunque, quello che suppongo abbia in mente OpenAI non è un
processo di 'bonifica' del language model per ogni opt-out ricevuto.  Si
tratterà, con ogni probabilità, di far leva su un meccanismo di
'reinforcement': a parità di LLM, la macchina sarà 'condizionata' per
evitare di produrre certe frasi.
Fattibile, ma funzionerà? OpenAI, giustamente, non può garantire e mette le
mani avanti: molto dipenderà dai singoli casi, dai singoli 'prompt'. Il
fatto è che un generatore come ChatGPT restituisce dati genuinamente
contraffatti, difficile inibirlo del tutto. Io credo dunque che alla fine
non accadrà nulla di significativo, ma vedremo.
Il Garante però è soddisfatto: ha ottenuto il suo obiettivo burocratico e
tanto basta.
Restano sul tavolo, intatti, i problemi veri.
Buona serata,
G.






On Sat, 29 Apr 2023 at 22:14, Giacomo Tesio <[email protected]> wrote:

> Salva Guido,
>
> Il 29 Aprile 2023 05:09:03 UTC, Guido Vetere <[email protected]> ha
> scritto:
> >
> >Poi viene la parte tecnicamente sfidante: c'è da fare 'prompt engineering'
> >per evidenziare le possibili 'menzioni' del soggetto
> >
> >*Please provide any relevant prompts that resulted in the model mentioning
> >the data subject. To be able to properly address your requests, we need
> >clear evidence that the model has knowledge of the data subject
> conditioned
> >on the prompts.*
> >
> >Insomma*,* la vedo dura, però credo che più di questo non potessero fare
>
>
> Puoi elaborare?
>
> Tecnicamente hanno innumerevoli metodi per risolvere il problema in modo
> efficace e definitivo.
>
> Il più semplice consiste nel ripetere la programmazione statistica (il
> "training")
> senza i dati del soggetto.
>
> Perché si dovrebbe pretendere qualcosa di meno efficace?
>
>
> >(giova ancora ripeterlo: un LLM non è un database)
>
> E giova ripetere che un LLM viene programmato a partire da un enorme
> database.
>
> Si può tranquillamente rimuovere i dati relativi al richiedente da quel
> database: è solo costoso.
>
> Poi per ulteriore sicurezza si può mettere un filtro a valle che impedisce
> al software di inviare
> dati del richiedente in output.
>
>
> Giacomo
>
_______________________________________________
nexa mailing list
[email protected]
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to