“Big Data: the next frontier for innovation, competition and productivity”. Così titolava un articolo sul portale di McKinsey a maggio 2011. La quantità di dati accumulata nei server, di organizzazioni e aziende pubbliche e private, può semplicemente considerarsi come “sconfinata”. Questo fatto, oltre a produrre non poche preoccupazioni per l’innalzamento vertiginoso dei consumi energetici delle infrastrutture informatiche delle aziende, genera un ulteriore e più preoccupante problema: l’impossibilità di analizzare, in maniera utile, la gigantesca mole di informazioni. Tuttavia, che il processo di elaborazione delle informazioni e di trasformazione per ottenere dalle stesse una “conoscenza” utile rappresenti la chiave di volta per innalzare la competitività, la produttività, l’innovazione e il livello qualitativo dell’azienda, è ormai un fatto acclarato. In altre parole, la valorizzazione dei dati posseduti, come base per la costruzione di un processo di produzione di conoscenza, può essere considerata la vera mission di qualsivoglia organizzazione o azienda che intenda affrontare e superare le sfide di un sistema economico globalizzato e in continua evoluzione.
Secondo uno studio condotto nel 2011, realizzato da Idc e commissionato da Emc, nel giro di pochi anni saranno creati, a livello planetario, circa 1,8 zettabyte di dati (uno zettabyte equivale a 1000 miliardi di gigabyte): un universo di informazioni letteralmente sterminato che imporrà, l’ampliamento delle dotazioni di calcolo e memorizzazione, per un valore complessivo di circa dieci volte quello attuale.
Questa previsione ha creato non poco scompiglio nelle aziende e organizzazioni di tutto il mondo, che hanno ammesso la loro totale impreparazione nell’affrontare questa sfida. I timori dei responsabili IT sono stati evidenziati anche da un’indagine condotta da Gartner, che ha sottolineato come la crescita inarrestabile del volume di informazione rappresenti il problema più avvertito dai responsabili delle infrastrutture informatiche. A causa di questo inquietante scenario, risulta evidente che per risolvere il problema non sarà sufficiente incrementare il numero dei server delle memorie di massa, ma si dovrà ricorrere a soluzioni che consentano di arginare i flussi informativi ricorrendo a figure specializzate nella loro analisi ed elaborazione: i cosiddetti data scientist.
Si tratta di figure strategiche che avranno il compito di trasformare questo mare magnum di informazioni in sorgenti di conoscenza. Ma quali sono le peculiarità e le responsabilità che dovrebbero caratterizzare questa figura? In che modo può uno “scienziato dei dati” gestire in maniera ottimale enormi ed eterogenei database di dati?
Tra le diverse specialità, alcune sono considerarsi essenziali: la capacità di individuare gli algoritmi migliori per le operazioni di data mining; la capacità di individuare i criteri di analisi dominanti; la capacità di sviluppare nuove metodologie di gestione e ottimizzazione dei dati (data conditioning); la capacità di gestire, estrapolare, presentare e distribuire i dati e di trasformarli in conoscenza utile per l’organizzazione; la capacità di identificare nuove tipologie di database analitici in funzione del tipo di data mining utilizzato; la capacità di identificare strumenti di analisi di tipo “high-end”, che sono più predittivi e fruibili dalle organizzazioni (ad esempio, per la prevenzione delle frodi o per effettuare previsioni sull’andamento dei mercati e della concorrenza); la capacità di individuare le problematiche legali, in funzione della trattazione di dati riservati o informazioni protetti dalla privacy; le competenze statistiche, matematiche, di metodologie di calcolo, di calcolo delle probabilità, e di digital processing.
Ma tutte queste competenze non sono ancora esaustive. Il Data Scientist, deve essere anche in grado di vagliare attentamente le informazioni che giungono da fonti informative diverse, prima di decidere quali possano essere giudicate “utili” per le sue ricerche. Così come dovrà essere in grado di incrociare preliminarmente i dati in suo possesso (provenienti da molteplici fonti), con particolare attenzione a quelli che provengono dai social network, blog, web server, o dalle registrazioni online. Inoltre deve essere in grado di gestire dati di grande complessità (ad es. geospaziali) e dovrà utilizzare algoritmi di ricerca, capaci di scandire (data mining) immensi database di terabyte di dati in tempi relativamente brevi e dovrà anche essere in grado di selezionare lo strumento di business intelligence più adeguato, per eseguire le analisi richieste dall’organizzazione per la quale lavora.
Anche se potrà sembrare apparentemente inconsueto, gli sarà anche necessaria una mentalità orientata alle arti e alla creatività, per far si che possa elaborare visioni sulle metodologie di gestione intelligente delle informazioni e perfino sul loro possibile utilizzo per finalità diverse da quelle originarie. Se consideriamo come la necessità di consulenti di social media sia cresciuta con la diffusione dei social network, non c’è da stupirsi se nel giro di pochi anni, in funzione della attuale esplosione dei dati, il Data Scientist assumerà il ruolo di uno dei professionisti più ricercati al mondo.
Thornton May, antropologo culturale e futurista, descrive questa particolare figura addirittura come “l’eroe dei tempi futuri”. Apparentemente le molteplici competenze del Data Scientist potrebbero sembrare “eccessive”, ma contrariamente a quanto si può pensare, non è poi così difficile riuscire a identificare dei professionisti che ne siano in possesso. Infatti va rilevato che lo scienziato dei dati deve soprattutto eccellere in alcuni aspetti caratteriali, come la creatività, la curiosità e la determinazione nel saper affrontare situazioni nuove e particolarmente complesse. Egli deve sentirsi ispirato all’organizzazione e alla distribuzione di informazioni trasformando i dati in valore.
Aica (Associazione Italiana per l’Informatica ed il Calcolo Automatico) sta lavorando con i più autorevoli specialisti del settore per valutare come il profilo del Data Scientist possa essere focalizzato e qualificato attraverso un processo in grado di garantire ad aziende e pubblica amministrazione la disponibilità delle molteplici competenze hard e soft, che questa nuova figura dovrà possedere.
Il Data Scientist deve essere anche in grado di vagliare attentamente le informazioni che giungono da fonti informative diverse, prima di decidere quali possano essere giudicate “utili” per le sue ricerche. Così come dovrà essere in grado di incrociare preliminarmente i dati in suo possesso (provenienti da molteplici fonti), con particolare attenzione a quelli che provengono dai social network, blog, web server, o dalle registrazioni online. Inoltre deve essere in grado di gestire dati di grande complessità (ad es. geospaziali) e dovrà utilizzare algoritmi di ricerca, capaci di scandire immensi database di terabyte di dati in tempi relativamente brevi e dovrà anche essere in grado di selezionare lo strumento di business intelligence più adeguato, per eseguire le analisi richieste dall’organizzazione per la quale lavora. Anche se potrà sembrare apparentemente inconsueto, gli sarà anche necessaria una mentalità orientata alle arti e alla creatività, per far si che possa elaborare visioni sulle metodologie di gestione intelligente delle informazioni e perfino sul loro possibile utilizzo per finalità diverse da quelle originarie.
Se consideriamo come la necessità di consulenti di social media sia cresciuta con la diffusione dei social network, non c’è da stupirsi se nel giro di pochi anni, in funzione della attuale esplosione dei dati, il Data Scientist assumerà il ruolo di uno dei professionisti più ricercati al mondo. Apparentemente le molteplici competenze del Data Scientist potrebbero sembrare “eccessive”, ma contrariamente a quanto si può pensare, non è poi così difficile riuscire a identificare dei professionisti che ne siano in possesso. Infatti va rilevato che lo scienziato dei dati deve soprattutto eccellere in alcuni aspetti caratteriali, come la creatività, la curiosità e la determinazione nel saper affrontare situazioni nuove e particolarmente complesse. Egli deve sentirsi ispirato all’organizzazione e alla distribuzione di informazioni trasformando i dati in valore.