Il 12 Aprile 2023 14:28:03 UTC, Guido Vetere <[email protected]> ha 
scritto:
>Giacomo,
>anche il LM più puri usati per il più innocente task di classificazione
>potrebbero essere stati addestrati con dati ottenuti senza il consenso
>esplicito di chi li ha condivisi, dunque in violazione del GDPR. 
>Che vogliamo fare?

Nella peggiore delle ipotesi, quello che si fa con l'Eternit, per esempio.

Possibilmente prima che faccia troppi danni alle persone e alla società.


Però la questione che poni sul dataset usato per la programmazione statistica 
ha una soluzione
estremamente semplice.

Basta imporre che tutti i dataset utilizzati durante la programmazione 
statistica
("training" nella vulgata), inclusi quelli usati per la cross validation e il 
test, nonché tutti gli
altri dati necessari a riprodurre esattamente il processo ed ottenere 
esattamente il modello
in produzione (e le sue alternative scartate), siano preservati per tutta la 
durata della sua permanenza in produzione e diciamo 20 anni dopo (in caso di 
aggiornamento). [1]

Rendendo verficabilmente e completamente riproducibile il processo di 
programmazione
statistica, Open AI (come chiunque altro) potrà facilmente dimostrare di non 
aver utilizzato dati
ottenuti in violazione di qualsisi Legge.

Più costoso (ma spesso possibile) sarà dimostrare che la selezione del dataset 
o il processo di programnazione utilizzato non abbia prodotto specifiche 
discriminazioni.

Molto più complesso e costoso, dimostrare di non aver voluto imporre al modello 
alcuna discriminazione intenzionale.


Tuttavia parliamo di cose perfettamente fattibili sul piano tecnico, ancorché 
costose.

Ma si sa: l'innovazione costa.
E al DARPA hanno un sacco di soldi per finanziarla. ;-)


L'importante è impedire che qualsiasi tecnologia possa essere usata per violare 
i diritti delle persone 
(a vantaggio di altre persone, per altro)

Perché se passasse questo principio, dovremmo dire addio allo Stato di Diritto, 
con tutto ciò che questo comporta.

Inclusa, ad esempio, l'abolizione del diritto alla proprietà privata.


Si può fare eh!

Ma sei sicuro che sia ciò a cui aspiri?


Giacomo


[1]: inclusi ovviamente vettori di inizializzazione, valori ottenuti da 
sorgenti randomiche, 
ordine esatto e contenuto dei batch di vettori usati durante il processo di 
programmazione statistica etc... tutto insomma ciò che serve a riottenere 
esattamente 
quel binario codato come matrice.
_______________________________________________
nexa mailing list
[email protected]
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa

Reply via email to