GUARDA QUIhttps://www.accademiaitalianaprivacy.it/areaprivata/foto/1850/01.jpg

Dettaglio news
AI e Carenza Dati Personali: dalla raccolta alla profilazione un problema non solo etico


lunedì 15 aprile 2024
Di Avv. Gianni Dell'Aiuto



L'evoluzione dei modelli e delle soluzioni che vedono alla loro base l’intelligenza artificiale (AI) è stata guidata in gran parte dalla disponibilità di dati di alta qualità. Aziende come OpenAI e Google hanno svolto un ruolo fondamentale nello sviluppo di tecnologie AI sempre più sofisticate, come i modelli di linguaggio e le reti neurali profonde.

L'apprendimento delle macchine, in particolare il deep learning, richiede grandi quantità di dati per addestrare efficacemente i modelli. Questi dati devono essere di alta qualità e rappresentativi del problema che l'AI deve risolvere. L'aumento della domanda di dati di alta qualità ha spinto molte aziende a raccogliere, annotare e condividere dati in modo più sistematico e ampio.

Viene così posto un primo importante problema sull’origine di detti dati e, a cascata, sui successivi processi di stoccaggio, conservazione e, principalmente, la loro sottoposizione a processi decisionali automatizzati sempre più capillari anche sulla base delle tipologie di dati raccolti.
Le aziende raccolgono una quantità enorme di dati generati dagli utenti durante l'utilizzo di servizi online, come motori di ricerca, social media, e-commerce e piattaforme di streaming. Questi dati possono includere anche i contenuti pubblicati dai singoli utenti, quali testo, immagini, video, preferenze di navigazione e interazioni sociali.

Per approfondire > La portata dell'AI Act

Accanto a questi, i dispositivi IoT (Internet of Things) e sensori presenti in vari ambienti raccolgono dati provenienti da una varietà di fonti, come temperatura, umidità, posizione geografica, movimento e altro ancora. Questi dati possono essere utilizzati per monitorare e ottimizzare processi industriali, migliorare l'efficienza energetica e fornire servizi basati sulla localizzazione, ma anche per profilazioni comportamentali, ad esempio reazioni.

Un rilievo particolare emerge per i cosiddetti Dati annotati: Per addestrare modelli di machine learning, è spesso necessario annotare manualmente i dati con etichette o tag che indicano la classe di appartenenza o altre informazioni rilevanti. Ad esempio, nell'ambito del riconoscimento delle immagini, è necessario annotare le immagini con le categorie corrispondenti (gatti, cani, automobili) per addestrare efficacemente un modello di classificazione. Questo processo può valere anche per le persone.

Per approfondire > Ma sei vero o falso?

Le aziende raccolgono e utilizzano anche dati strutturati provenienti da database, fogli di calcolo, registri e altri sistemi di gestione. Questi dati possono includere informazioni su clienti, transazioni finanziarie, inventari e altro ancora, e sono utilizzati per analisi aziendali, previsioni e ottimizzazione dei processi.
Ovvio e intuitivo come l'uso di grandi insiemi di dati viene a sollevare anche importanti questioni etiche e di privacy che toccano la protezione delle persone.

È fondamentale garantire che i dati utilizzati per l'addestramento dei modelli siano raccolti e utilizzati in modo responsabile, rispettando la privacy degli individui ed evitando discriminazioni o bias indesiderati nei risultati dell'AI ma, prima ancora, dare agli individui la assoluta sicurezza che i loro dati verranno processati sulla base del consenso prestato. 

Per saperne di più > Intelligenza artificiale generativa. Nuove sfide per la protezione dei dati

Cosa estremamente difficile se pensiamo alla velocità con cui i sistemi si sviluppano e che domani (non si intende la parola domani in senso figurato, ma letterale) potremmo avere a disposizione un sistema di profilazione che oggi non esiste e sul quale era stato prestato il consenso al trattamento.

L'accesso a vasti insiemi di dati di alta qualità è essenziale per l’implementazione dell'intelligenza artificiale e delle grandi opportunità che offre, ma è importante riflettere preventivamente le questioni etiche e di privacy che derivano da questa crescente domanda di dati e dall’aumento delle modalità per il loro trattamento. Alcune piattaforme stanno ponendo limiti all’utilizzo di dati.

Una possibile soluzione per affrontare la problematica della scarsità di dati di alta qualità per la formazione dei modelli di AI potrebbe essere quella offerta dai dati sintetici, generati mediante l'uso di modelli di intelligenza artificiale.

Tuttavia, ciò non è privo di rischi. I modelli di AI utilizzati per generare dati sintetici potrebbero introdurre errori o bias nei dati prodotti, che potrebbero essere amplificati se tali dati sintetici fossero a loro volta utilizzati per addestrare ulteriori modelli di AI. Prima di andare in questa direzione è indispensabile valutare qualità e l'affidabilità dei dati sintetici e le misure necessarie per un loro corretto uso.




CONDIVIDI QUESTA PAGINA!