Sfruttare la mole di informazioni digitali, alias i big data, per rivoluzionare il modo di fare statistica e offrire ai decision maker uno strumento “predittivo” senza precedenti, che vada oltre le “tradizionali” analisi macro-economiche e permetta di ottenere un quadro, pressoché in tempo reale, anche su fenomeni sociali e questioni contingenti nonché di poter contare su parametri di indagine sempre più particolaristici, al limite della “personalizzazione”. Il destino della statistica è tracciato. E a riprova dell’importanza della forza dirompente dell’ondata “big data”, l’Eurostat – l’Ufficio statistico dell’Unione europea – ha dato il via a una serie di test pilota per indagare l’utilizzo ai fini statistici dei dati digitali.
“Nella catena di montaggio della fabbrica che produce statistica i big data impattano su tutta la filiera, dalla raccolta dati al processo fino alla diffusione. Sono una rivoluzione nel vero senso della parola perché cambia la modalità in cui si produce l’informazione statistica, passando dal tradizionale questionario a un modello in cui le diverse fonti di dati – amministrativi, di indagine statistica e big data – devono essere integrati per produrre l’informazione statistica”, racconta a CorCom Emanuele Baldacci, chief information officer di Eurostat.
Baldacci, come si fa a integrare dati provenienti da fonti così diverse e soprattutto qual è l’impatto dei big data sulla produzione di indagini statistiche?
Cambia innanzitutto la raccolta dati perché si ampliano le fonti disponibili. E cambia anche l’analisi dei dati perché servono dei modelli statistici che partendo da una moltitudine elevata di informazione siano in grado di ridurre la complessità ed estrarre segnali sotto forma di informazioni statistiche utili per le decisioni. Ed è qui che intervengono tecniche quali il data mining o il data profiling, ossia algoritmi che consentono appunto di ridurre la complessità dei dati ed estrarre informazioni da molteplici fonti.
Quali sono le nuove fonti di analisi?
I dati della telefonia mobile ad esempio. Gli smartphone lasciano tracce attraverso le chiamate ma anche attraverso tecnologie quali il Gps. Poi ci sono le visite ai siti web, le interazioni con i motori di ricerca, le transazioni con le carte di credito, i dati amministrativi e persino quelli sui social network.
Potete utilizzare tutti questi dati senza incappare nelle maglie della privacy?
Gli istituti di statistica hanno l’autorità di utilizzare le fonti di produzione di informazioni pubbliche per elaborare statistiche ufficiali, ma ci sono informazioni in capo ad aziende private o operative in mercati regolati il cui uso per legge deve essere autorizzato. La questione dunque va affrontata a livello più alto ed impone una riflessione sul quadro normativo e sulla disponibilità di dati privati per scopi pubblici quali la ricerca scientifica e la statistica ufficiale. Ad oggi, per quanto ci riguarda, stiamo facendo una serie di test utilizzando la porzione di dati resa pubblica attraverso accordi o utilizzando i database rilasciati pubblicamente.
Di che tipo di test si tratta?
Stiamo portando avanti progetti di vario tipo, coordinati da Eurostat e che vedono protagonisti quasi tutti gli istituti di statistica europei, uno ad esempio per determinare i prezzi al consumo di alcuni prodotti attraverso tecniche di web scraping ossia della ricerca di informazioni pubbliche su siti online. Un altro progetto riguarda il mercato del lavoro e in questo caso stiamo utilizzando la piattaforma Google Trend. Altri esperimenti riguardano le informazioni disponibili sui social media in ambito Facebook e Twitter e nel caso specifico la percezione del sentiment delle famiglie. Simili studi sulla mobilità e sul turismo sono effettuati con i call data record (uso della rete telefonica), che consentono di studiare i movimenti delle persone.
Dunque utilizzate le piattaforme di Google e i dati provenienti dal tracciamento delle sim. Vale a dire che la stessa Google o una compagnia di Tlc otrebbe produrre statistiche bypassandovi?
In parte ciò già accade. Sì, chiunque sia in possesso di questi dati o abbia modo di utilizzare piattaforme che li elaborino può produrre statistiche. Ma la domanda da porsi è? Quanto sono affidabili i dati in termini di qualità del dato? La statistica elaborata utilizza parametri utilizzati come standard e quindi riconosciuti come affidabili?
E la risposta qual è?
La risposta è che fare statistica ufficiale e produrre dati non sono la stessa cosa. Le metodologie statistiche e le definizioni statistiche sono elementi chiave della qualità del dato. Stiamo parlando di fiducia e credibilità del dato, credenziali che sono valide nella misura in cui si rispettino degli standard. Insomma, bisogna garantire che non si faccia solo il conteggio dei dati.
L’utilizzo dei big data e in generale delle informazioni digitali consente di accelerare i tempi della statistica?
Diciamo che siamo di fronte a una statistica sempre più “model based” che usa strumenti predittivi per “predire il presente”. In sostanza si punta a usare i dati per elaborare statistiche quasi in tempo reale e fornire stime il più possibili tempestive sui fenomeni che si vogliono osservare. In termini temporali di sicuro il digitale aiuta ad abbattere il tempo dell’elaborazione: Per dare un ordine di grandezza se si volesse produrre indicatori sulla disoccupazione il tempo di rilascio dei dati si abbatterebbe di circa tre mesi (le analisi sono attualmente trimestrali), ma nel caso di indicatori sulla povertà, i cui dati sono disponibili dopo oltre un anno, l’impatto è decisamente più importante.
Ma chi li elabora questi dati? Ci vogliono degli specialisti?
Le competenze necessarie sono differenti da quelle attuali, o almeno in parte. Gli skill che servono per analizzare i dati sono a cavallo fra la statistica e la computer science. Si parla tanto di data scientist ed è esattamente la figura che cerchiamo. Eurostat sta investendo nella costruzione di questo tipo di figura sia sponsorizzando Master a livello europeo attraverso il programma Emos sia attraverso la formazione diretta con i programma Estp (European Statistical Training Program). Iniziative che portiamo avanti con la collaborazione di università e centri di ricerca, perché da soli, è bene puntualizzarlo non si va mai da nessuna parte.
I decision maker vi fanno richieste specifiche riguardo alle elaborazioni statistiche?
Indirettamente. Ciò che ci viene richiesto è l’osservazione tempestiva affinché sia possibile prendere decisioni specifiche ma soprattutto tempestive. I dati disponibili in tempo reale stanno diventando sempre più importanti nella dimensione sociale dell’agenda politica. Non conosciamo il livello della povertà in Europa nel 2015 ma è disponibile il Pil dell’ultimo trimestre. E l’ambito sociale è quello in cui sta crescendo la domanda di informazione: povertà, emigrazione, diseguaglianza, informazioni di dettaglio a livello territoriale sono le questiobani al centro del dibattito europeo. L’attenzione alla distribuzione del reddito, della ricchezza, della sostenibilità si fa sempre più forte in Europa.