Vorrei mettere alla prova il ragionamento di Carlo Blengino (se lo ho
colto) su un punto.
Anticipo anche io la conclusione: ciò che viene generato dall'LLM non è
un dato, ma un documento che rappresenta dati, e il modo in cui lo fa
non è unicamente sintetico, ma favorisce la produzione di dati originali.
Mentre il documento prodotto da un motore di ricerca riporta
prevalentemente dei collegamenti a documenti che /contengono/ i dati
rilevanti, gli LLM producono intenzionalmente un nuovo documento
/riorganizzando/ i dati estratti dai documenti usati in partenza.
Diversamente dal motore di ricerca, che riporta i dati che
effettivamente "rappresentano unicamente loro stessi", l'LLM li estrae e
li introduce in un nuovo contesto secondo le esigenze della discorsività
e dall'intenzione di apparire come un agente autonomo (che produce,
appunto, un documento e non un elenco di puntatori).
Già questo mi parrebbe un trattamento, se riferito a dati personali. Se
poi un documento generato, data l’oscurità ed erraticità del processo
informatico, contiene dati (veri o falsi) non riferibili a documenti
noti relativi alla stessa persona, non può chiamarsi 'sintetico' (lo
chiamerei ironicamente 'poietico') e contribuisce con il proprio
contenuto originale a una rappresentazione ulteriore della persona.
Ad esempio supponiamo che io chieda a un LLM una biografia di Tizio.
Ammettiamo che il LLM attribuisca a Tizio anche un fatto che riguarda
Caio suo omonimo. L'output sintetico/poietico raccoglie in una sola
biografia elementi della vita di Tizio uniti ad altri della vita di
Caio. Che magari sono anche veri, ma non suoi.
In tal modo introduce nel documento che rappresenta la vita di Tizio un
dato che è totalmente nuovo tra i documenti che lo riguardano, e per
questo motivo quella biografia diventa un dato originale su Tizio.
Indipendentemente dal fatto che il dato attribuito sia vero o falso, chi
lo genera e lo diffonde effettua un trattamento.
Altro esempio forse più forte ancora, quello del video deep-fake con la
faccia di Tizio che lo rappresenta mentre fa qualcosa (qualcosa che non
ha fatto o magari ha anche fatto, ma non in quell'occasione). Ammettiamo
che il video (documento, non dato) sia diffuso senza precisare che si
tratta di un elaborato fittizio (o satirico). Questo si aggiungerà ai
dati reperibili su Tizio. Se per realizzare il fake vengono usati dati
che ha conferito pubblicamente, Tizio ha diritto a opporsi a quello
/specifico/ trattamento, anche se non ne riceve un danno immediato? E
alla /possibilità/ che si effettui quel tipo di trattamento?
Non so se ho frainteso il ragionamento di Blengino, ma credo che meriti
attenzione proprio il fatto che se anche il dato -/per se/- non
rappresenta nulla, il documento che si riferisce alla persona può farlo:
/la/ rappresenta. E che caratteristica di questi programmi sia proprio
la generazione di documenti che anche senza esser veri sono presentati
in modo da essere verosimili.
Purtroppo la verosimiglianza è sufficiente perché i più si accontentino:
come è stato detto in questa sede, ci mettiamo noi il resto.
Un saluto,
Alberto
On 03/04/23 17:56, Carlo Blengino wrote:
Provo ad inserirmi sul problema degli out-put falsi e “fantasiosi” con
alcune considerazioni che non sono affatto sicuro stiano in piedi, ma
la difficoltà del diritto non tanto a governare, quanto a comprendere
e a collocare al suo interno, in norme e leggi, le realtà generate
dalle nuove tecnologie è uno degli aspetti più affascinanti ed al
contempo più complessi che questo tempo ci offre (Nexa nasce anche per
questo!).
Parto dalla tesi di fondo, per poi argomentare.
I dati generati da ChatGPT ed in generale dalle attuali forme di AI
Generativa, anche per immagini come Dall-e, anche quando
apparentemente riferibili ad una persona fisica identificata o
identificabile, *non dovrebbero mai esser considerati dati personali*,
e ciò a prescindere dalla loro verità/falsità o dalla loro più o meno
marcata aderenza alla realtà.
Sono dati sintetici che non rappresentano altro se non loro stessi.
Per comprendere l’affermazione, forse azzardata, è bene definire cosa
è un dato per il diritto: il dato è /una rappresentazione di fatti,
informazioni o concetti/. Il dato informatico è sin dalla Convenzione
di Budapest del 2001 definito come una “presentazione di fatti,
informazioni o concetti in forma suscettibile di essere utilizzata in
un sistema computerizzato…”
Ora, per quanto ho capito io anche leggendo i contributi passati su
questa lista, le frasi generate da ChatGPT, come le immagini di
Dall-e, sono sempre “false”, o meglio “contraffatte”, anche quando
corrispondono per “magia” (i millemila parametri) a fatti, concetti o
informazioni reali.
Sono artefatti sintetici (come la carne, che in effetti l’abbiamo
vietata Sic!) generati da una macchina che non ha alcuna contezza di
ciò che il dato vuole rappresentare (e che è poi ciò che
ontologicamente caratterizza il "dato"). E se ho ben capito, non ne
hanno contezza neanche i “padroni” della macchina, che agisce in
autonomia generando quegli pseudo-dati (pseudo-informazioni) più o
meno plausibili.
Con le foto è altrettanto evidente: l’immagine generata da Dall-e può
esser identica alla realtà (una veduta di Mondovì, per dire..) o
rappresentare realisticamente un “fatto” mai accaduto (le foto
dell’arresto di Trump) ma in entrambi i casi l’artefatto non è e non
può esser "vero", o meglio, non ha le caratteristiche informative (i
dati) che noi attribuiamo alla fotografia come rappresentazione di un
fatto, in un dato tempo e in un dato posto.
Le creazioni di questi sistemi, da quel che ho capito, anche quando
appaiono “dati” personali, rappresentano unicamente loro stessi,
ovvero una sequenza di parole o numeri o di pixels, e null’altro.
Per questo a mio giudizio quei dati non dovrebbero esser oggetto /ex
sé/ di protezione e di tutela alcuna. Non contengono alcuna
rappresentazione di fatti concetti o informazioni in qualche modo
degni di tutela dall’ordinamento (infatti non c'è diritto d'autore,
che comunque è un diritto intimamente legato nei suoi aspetti morali
all’identità della persona, esattamente come il diritto alla
protezione dei dati).
Pensare di tutelare e “proteggere” come dati personali gli out-put di
questi sistemi significa oggi conferire loro una valenza che non hanno
ed avallare temo l’allucinazione che stiamo vivendo con l’intelligenza
artificiale.
Queste considerazioni non vogliono negare le potenzialità lesive di
quei dati sintetici o la pericolosità delle macchine che li generano,
ma consentono di spostare il focus e l’attenzione da quel dato che non
"rappresenta" nulla (se non se stesso), all'uso che di quell’artefatto
sintetico e delle macchine che lo producono ne facciamo noi umani.
Forse il mio ragionamento non sta in piedi, ma io sotto il profilo
“protezione dei dati personali” vedo enormi e quasi insormontabili
problemi in relazione ai data-set di addestramento (e a mio giudizio
non sono problemi legati agli errori di output quanto meno in
relazione al GDPR) e vedo problemi possibili ma a me (e temo anche al
Garante) ignoti in relazione ai dati degli utenti/fruitori ed ai dati
da questi immessi nel prompt.
Trovo invece un po’ folle pensare di attenzionare le risposte
sbagliate, attribuendo a quei non-dati uno status di tutela che, a mio
giudizio, allo stato dell’arte, non dovrebbero avere.
Ultima annotazione: l’uso di dati falsi, inesatti o le lesioni ad
onore e reputazione legati all’uso di informazioni comunque ottenute
da quegli artefatti sono tutte condotte adeguatamente presidiate
dall’ordinamento. Assai più preoccupante e poco presidiata la folle
corsa alle API ed all’utilizzo di quei sistemi per automatizzare
processi diversi come search...vedremo.
CB
Il giorno lun 3 apr 2023 alle ore 07:19 Stefano Zacchiroli
<[email protected]> ha scritto:
Certo. Ma questo è l'altro aspetto: quello del trattamento dei
dati in *input* a ChatGPT, che esiste ed è potenzialmente
problematico dal punto di vista della privacy, a prescindere dalla
veridicità delle risposte date.
La mia domanda era su quale sia l'impatto della falsità
dell'*output* (che sollevavi come fattore a se stante nella mail
precedente) sui profili giuridici di violazione della privacy.
Saluti
On April 2, 2023 11:22:03 PM GMT+02:00, Maurizio Borghi
<[email protected]> wrote:
>On Sun, 2 Apr 2023 at 20:19, Stefano Zacchiroli <[email protected]>
wrote:
>
>>
>> Che GhatGPT dica panzane a proposito di persone specifiche
(viventi) è
>> in effetti evidente a tutti. Ma, da non giurista, faccio veramente
>> fatica a capire perché questo ponga problemi al Garante per la
>> protezione dei dati personali. Se pubblico un sito web pieno di
panzane
>> su persone viventi, il Garante ha il potere di farmelo
chiudere? Direi
>> (sempre da non giurista), che al massimo rischio una querela per
>> diffamazione
>
>
>Se la produzione di quelle panzane richiede il trattamento dei
dati di
>milioni di ignari cittadini, allora sì, attrai le ire del Garante
(oltre
>che quelle dei destinatari delle tue panzane).
>
>>
>> --
>_______________
>*Maurizio Borghi*
>Università di Torino
>https://www.dg.unito.it/persone/maurizio.borghi
>Co-Director Nexa Center for Internet & Society
<https://nexa.polito.it/>
>
>My Webex room: https://unito.webex.com/meet/maurizio.borghi
--
Sent from my mobile phone. Please excuse my brevity and top-posting.
_______________________________________________
nexa mailing list
[email protected]
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
--
*
*
*Avv. Carlo Blengino*
*
*
/Via Duchessa Jolanda n. 19,/
/10138 Torino (TO) - Italy/
/tel. +39 011 4474035/
Penalistiassociati.it
_______________________________________________
nexa mailing list
[email protected]
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
_______________________________________________
nexa mailing list
[email protected]
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa