LA GUIDA

GenAI in azienda: come superare le criticità sul fronte privacy, compliance e anonimizzazione dei dati



Indirizzo copiato

La chiave sono i synthetic data per addestrare modelli di machine learning che non rivelino informazioni personali identificabili, riducendo così il rischio di violazioni e semplificando il processo di conformità. Gartner spiega come passare dal dire al fare

Pubblicato il 5 lug 2024



intelligenza artificiale

Lo sviluppo dell’intelligenza artificiale è strettamente connesso alla disponibilità di ingenti quantità di dati e questo, a sua volta, pone un problema di qualità ed etichettatura delle informazioni, nonché di privacy dei dati personali. Proprio la disponibilità dei dati figura tra i primi cinque ostacoli all’implementazione dell’intelligenza artificiale generativa (GenAi) in un sondaggio Gartner su 644 organizzazioni condotto nel quarto trimestre del 2023. Ma, secondo la stessa società di ricerche, i dati sintetici possono aiutare a risolvere questo problema, perché superano meglio le sfide della privacy, della conformità e dell’anonimizzazione dei dati.

Come afferma Alys Woodward, Senior Director analyst di Gartner, i synthetic data aprono una serie di opportunità per addestrare modelli di machine learning e computer vision e analizzare dati che non sarebbero disponibili se i dati reali fossero l’unica opzione.

Privacy nella GenAi: le opportunità dei dati sintetici

“I dati sintetici offrono un’alternativa potente ai dati reali perché possono essere generati per rispecchiare le stesse caratteristiche statistiche senza compromettere la privacy degli individui. Questo significa che possiamo addestrare modelli di machine learning su dati che non rivelano informazioni personali identificabili, riducendo così il rischio di violazioni della privacy”, afferma Woodward. “Inoltre, i dati sintetici possono essere generati per essere conformi alle normative sulla privacy fin dall’inizio, semplificando il processo di conformità per le organizzazioni”.

In pratica, i dati sintetici possono colmare la mancanza di sufficienti informazioni agendo come sostituto dei dati reali senza rivelare le informazioni sensibili, come i dettagli personali e la proprietà intellettuale. Poiché i data set sintetici mantengono proprietà statistiche che assomigliano molto ai dati originali, possono produrre dati precisi per l’addestramento e i test che sono cruciali per lo sviluppo del modello.

La formazione dei modelli di computer vision spesso richiede, infatti, un insieme ampio e diversificato di dati etichettati per costruire modelli altamente accurati. Ottenere e utilizzare dati reali per questo scopo può essere difficile, specialmente quando si tratta di informazioni di identificazione personale (Pii).

Due casi d’uso comuni che richiedono dati Pii sono la verifica dell’Id e i sistemi automatizzati di assistenza alla guida (Adas), che monitorano i movimenti e le azioni nell’area del conducente. In queste situazioni, i dati sintetici possono essere utili per generare una gamma di espressioni facciali, colore della pelle e altre caratteristiche fisiche, nonché oggetti aggiuntivi come cappelli, maschere e occhiali da sole.

Ridurre i costi dell’anonimizzazione dati dati

Gli sforzi per rendere anonimi e de-identificare manualmente i set di dati – ovvero rimuovere le informazioni che collegano i dati a un individuo specifico – sono spesso dispendiosi in termini di tempo e risorse umane e soggetti a errori. In definitiva, questo può ritardare i progetti e allungare il ciclo di iterazione per lo sviluppo di algoritmi e modelli di machine learning. I dati sintetici possono superare molte di queste insidie fornendo un accesso più veloce, economico e più facile a dati simili alla fonte originale proteggendo la privacy, prosegue Woodward.

Inoltre, se i dati anonimizzati manualmente vengono combinati con altre fonti di dati disponibili pubblicamente, c’è il rischio che possano inavvertitamente rivelare informazioni che potrebbero portare alla re-identificazione dei dati, violando così la privacy. Le aziende possono utilizzare tecniche come la privacy differenziale per garantire che tutti i dati sintetici generati da dati reali siano a bassissimo rischio di de-anonimizzazione.

Come sfruttare al meglio i synthetic data

I dati sintetici offrono numerosi vantaggi, secondo l’analista di Gartner. Innanzitutto, riducono significativamente i rischi di privacy, poiché non contengono informazioni personali identificabili. In secondo luogo, possono essere generati in grandi quantità e rapidamente, permettendo alle organizzazioni di accelerare i loro progetti di sviluppo dell’Ai. Un terzo vantaggio è che i dati sintetici possono essere creati per coprire scenari rari o situazioni di edge case che potrebbero non essere presenti nei dati reali, migliorando così la robustezza dei modelli di machine learning.

Nonostante i benefici, i dati sintetici non sono largamente usati. La principale sfida è la mancanza di fiducia, afferma Woodward: “Molti professionisti del settore sono scettici riguardo alla capacità dei dati sintetici di replicare fedelmente le caratteristiche e le complessità dei dati reali. Inoltre, la generazione di dati sintetici richiede competenze avanzate e risorse che non tutte le organizzazioni possiedono. Infine, c’è una curva di apprendimento associata all’integrazione dei dati sintetici nei processi esistenti di sviluppo e analisi dell’Ai”.

La creazione di un data set sintetico comporta anche un equilibrio tra privacy e utilità, che deve assicurare che i dati rimangano utili e rappresentino accuratamente il set di dati originale senza violare la riservatezza. Se l’utilità è troppo alta, la privacy potrebbe essere compromessa, specialmente per i record unici o distintivi, poiché il set di dati sintetico potrebbe essere abbinato ad altre fonti di dati. Al contrario, i metodi per migliorare la privacy, come la disconnessione di determinati attributi o l’introduzione di “rumore” tramite privacy differenziale, possono intrinsecamente diminuire l’utilità del set di dati.

Le organizzazioni possono iniziare collaborando con fornitori specializzati nella generazione di dati sintetici per comprendere meglio le tecnologie e le metodologie coinvolte”, conclude Woodward. “È anche importante formare il personale interno sulle best practice per l’uso dei dati sintetici e su come integrarli nei processi esistenti. Infine, le organizzazioni dovrebbero iniziare con progetti pilota per testare l’efficacia dei dati sintetici e costruire gradualmente fiducia nelle loro capacità”.

Articoli correlati

Articolo 1 di 3