Possiamo definirla una minaccia alla privacy, un rompicapo per il legislatore, un’opportunità di marketing o solo un fenomeno socio-culturale. Comunque lo si veda, l’enorme volume di dati messi su Internet rende sempre più difficile per l’utente difendere il suo anonimato una volta che ha inserito dei dati online, si è abbonato a qualche servizio su web, o usa semplicemente un telefono cellulare.
L’allarme lo lancia la prestigiosa Technology Review del Mit: il fenomeno dei Big data è ormai qui per restare. La quantità di dati creata su Internet cresce a ritmi esponenziali: Idc parla di 2,8 zettabyte nel 2012, e la cifra raddoppierà nel 2015. Di questa mole di dati, circa tre quarti vengono generati dalle persone che creano e spostano file digitali: un impiegato americano-tipo produce 1,8 milioni di megabyte di dati all’anno, o circa 5.000 megabyte al giorno; il calcolo include il download di film, i file word, le e-mail e i bit generati dai computer quando l’informazione si muove sulle reti mobili o attraverso il web.
Questi dati, per quanto sembrino impersonali e invisibili, non lo sono affatto: la moderna scienza dei dati ha dimostrato che quasi ogni tipo di dato può essere usato, come un’impronta digitale, per identificare la persona che lo ha creato, che sia la scelta del film effettuata su Netflix, il segnale di posizionamento emesso dal telefono cellulare, o anche la registrazione di una telecamera di sorveglianza. Fino al punto che se ci sono incentivi commerciali a estrarre e sfruttare tutti questi dati, cessa del tutto di esistere la possibilità per l’individuo di conservare l’anonimato o, come dice il computer scientist della Princeton University, Arvind Narauanan, l’anonimato diventa “algoritmicamente impossibile”.
Non è uno scenario futuribile ma già in fase di realizzazione. Quel genere di informazioni che in passato consideravamo dati strettamente personali – nome, indirizzo, numeri delle carte di credito – sono già oggetto di compravendita grazie ai nuovi broker dei dati come Acxiom, una società che possiede una media di 1.500 informazioni ciascuno per oltre 500 milioni di consumatori nel mondo – informazioni legittimamente raccolte quando queste persone hanno partecipato a sondaggi o si sono abbonate a servizi Internet. Acxiom usa il mix di informazioni (età, reddito, livello di istruzione, città di residenza, auto di proprietà…) per inserire le persone in una delle sue 70 categorie chiamate “PersonicX”: ognuna descrive sommariamente un diverso stile di vita. I dati vengono poi analizzati per prevedere la possibile risposta degli utenti di quel gruppo a sollecitazioni, come i messaggi promozionali dei brand.
Se i data broker sembrano già invasivi, le Internet companies come Facebook sono ancora più evolute, perché in grado di svolgere la raccolta e analisi dei dati personali in modo automatizzato e in tempo reale. Quando Facebook ha presentato i documenti necessari alla quotazione in Borsa, ha rivelato che conserva circa 111 megabyte di foto e video per ciascun utente – quindi la cifra va moltiplicata per un miliardo; insomma, 100 petabyte di informazioni personali. A ciò si aggiungano altri dati che Facebook registra sulle interazioni degli utenti col sito: messaggi di testo, “Mi piace”, indirizzi dei computer usati per connettersi: altri diversi megabyte ciascuno.
Ora i dati raccolti offline e online possono essere uniti e incrociati e aiutare ancora meglio gli inserzionisti a creare pubblicità mirata: a febbraio, Facebook ha annunciato un accordo con dei data broker per la fusione dei loro dati. Tra le società entrate in partnership col sito di Zuckerberg c’è Acxiom, che così ha dati che possono essere collegati al 90% dei profili social degli Stati Uniti.
Anche se queste informazioni vengono definite “anonime” dai broker (cioè non permetterebbero veramente di risalire all’utente singolo cui appartengono), la scienza dei dati dimostra che più i dati sono numerosi meno l’anonimato è possibile. I ricercatori del Mit, Yves-Alexandre de Montjoye e César A. Hidalgo, hanno mostrato che bastano quattro diversi data point del cellulare per legare il suo posizionamento a un singolo individuo.
Adam Sadilek, ricercatore della University of Rochester, e John Krumm, ingegnere dei laboratori Microsoft, hanno addirittura dimostrato di poter prevedere dove si sarebbe trovata una persona a 80 settimane di distanza, con un’accuratezza di oltre l’80%, sulla base di una raccolta massiccia di dati Gps. Le applicazioni commerciali sono in qualche modo inquietanti: potrebbe arrivarci sul cellulare una pubblicità di un parrucchiere proprio quando l’algoritmo calcola che abbiamo bisogno di tagliarci i capelli.