Utilizzare il machine learning, tecnologia chiave dell’intelligenza artificiale, per pianificare al meglio la posa della fibra ottica nelle città e nelle aree urbane, con l’obiettivo di anticipare la domanda di banda ultralarga, velocizzare i cantieri e quindi, non ultimo, di aumentare l’efficienza operativa. È una strategia “data-centric” quella portata avanti da Open Fiber con il progetto Tiresia nell’ambito del piano di investimenti da 7 miliardi di euro nelle aree nere che punta a collegare oltre 19 milioni di unità immobiliari su tutto il territorio nazionale e che ad oggi ha già raggiunto e superato il traguardo dei 12 milioni di edifici cablati (tra abitazioni e immobili commerciale e ad uso ufficio).
“La creation di una nuova infrastruttura di rete è un processo articolato nel quale bisogna continuamente affinare il di roll-out, cioè il piano con il quale si decide quali edifici collegare e quando farlo. Allo stesso tempo, proprio mentre la rete viene costruita, migliaia di consumatori e aziende si rivolgono agli operatori di telecomunicazione per comprare i nuovi servizi abilitati dalla rete di Open Fiber. In questo caso viene ingaggiata una complessa macchina di delivery che deve garantire al cliente venga installato prima possibile il servizio che ha acquistato”, spiega a CorCom Sabino Titomanlio, Head of Presales, Customer Service Management e promotore dell’iniziativa Open Fiber Innovation Lab.
Ed è qui che entra in gioco il machine learning per capire dove scavare e dove non scavare, dove scavare prima e dove scavare dopo.
Il progetto Tiresia e la sfida data-centric
Nato nell’ambito dell‘Open Fiber Innovation Lab il progetto Tiresia, si avvale della collaborazione di università e spinoff tutte italiane che lavorano da anni all’implementazione di tecniche di machine learning in applicazioni inerentemente complesse. “Per l’innovazione in questo settore preferiamo avvalerci della competenza dei giovani ricercatori italiani e grazie all’iniziativa Open Fiber Innovation Lab abbiamo già attivato altre iniziative a supporto quali ad esempio l’unica borsa industriale nel neonato Dottorato Nazionale in Intelligenza Artificiale nell’ambito AI for Society”, sottolinea Titomanlio.
Con il progetto Tiresia, in Open Fiber è stato introdotto un approccio data-centric per supportare le decisioni di investimento e la programmazione operative delle attività di delivery. “Le prime esperienze di impiego di piattaforme con machine learning nei processi aziendali di Open Fiber sono molto positive ed hanno stimolato il lancio di nuovi sviluppi che amplieranno il parco dei modelli di previsione e degli ambiti applicativi”, spiega ancora il manager il quale puntualizza che “pensiamo che questo nuovo approccio potrà essere esteso a livello europeo con la creazione di una piattaforma aperta dove ciascun operatore infrastrutturale potrà far confluire i propri dati di copertura in modo da costruire un vero e proprio marketplace della fibra”.
La domanda che si è posta Open Fiber per dare al via al progetto Tiresia è la seguente: se si cablassero tutte le aree dove ancora non si è ancora presenti, quali sarebbero dopo x mesi le aree con la miglior prestazione commerciale?
Per rispondere a questa domanda, il sistema Tiresia integra molte basi di dati tra le quali variabili censuarie Istat, dati di copertura e base clienti di Open Fiber, storia degli ordini ricevuti da Open Fiber, dati pubblici forniti da enti quali Infratel e AgCom, aree e punti di interesse censiti come aree industriali, ospedali, scuole, università, centri Commerciali e molti altri.
Con Tiresia le analisi si applicano a contesti: un contesto è una collezione di zone territoriali rispetto alle quali vengono calcolati indicatori ed effettuate previsioni che utilizzano modelli di machine learning. Il territorio viene diviso in zone a vari livelli di granularità, con una relazione di contenimento stretto tra il livello precedente e quello successivo: nazione (Italia) > regione > comune > area. Sono inoltre rappresentate le microzone censuarie Istat (le zone a loro volta contengono edifici). Nel dataset che viene costruito da Tiresia vengono integrati dati disponibili a ciascun livello della gerarchia. “Considerando che in Italia esistono oltre trenta milioni di civici ed oltre quattrocentomila microzone censuarie, si è lavorato su un dataset di dimensioni notevoli e particolare attenzione è stata dedicata a migliorare le prestazioni del sistema in fase di analisi e di generazione delle previsioni, che spesso riguardano l’intero territorio nazionale”, evidenzia il manager.
I modelli machine learning impiegati in Tiresia sono basati su reti neurali “perché garantiscono alta capacità di apprendimento dei profili (pattern) che caratterizzano la performance commerciale di Open Fiber, nonostante esse non siano sempre chiaramente intuibili da parte di un esperto umano. Data la complessità del problema, che richiede di analizzare zone territoriali eterogenee, con storie significativamente diverse dal punto di vista dell’offerta di connettività, Tiresia utilizza vari modelli di learning basati su reti neurali di centinaia di neuroni. I risultati dei modelli vengono correlati per calcolare una funzione che stima il livello di interesse commerciale della zona”.
Il machine learning “supervisionato”: come funziona e a cosa serve
In dettaglio Open Fiber punta sul cosiddetto “machine learning supervisionato” che sfruttando l’analisi dei profili nei dati “storici” – ossia sui risultati già ottenuti – applica i profili a quelli futuri consentendo di prevedere lo scenario.
Per intenderci: fra i dati storici disponibili ci sono ad esempio quelli Istat, la storia della vendibilità e degli ordini ricevuti, e si tratta milioni di records che, una volta integrati, permettono di sintetizzare molte decine indicatori: un quadro rispetto al quale risulta impossibile indicare le scelte migliori, anche per gli esperti.
Due le macro-categorie di modelli di learning supervisionato: si tratta dei i modelli di classificazione e dei modelli di regressione.
Il modello di classificazione viene utilizzato per attribuire un’etichetta ad un gruppo di oggetti. “Un esempio semplice e molto noto è il controllo della posta indesiderata, il cosiddetto spam: per etichettare come spam i messaggi di e-mail viene utilizzato un classificatore addestrato con esempi di messaggi che rappresentano spam e non, preventivamente etichettati da utenti umani. Questi messaggi rappresentano il training set, cioè la fotografia di cosa è successo finora, da cui il modello apprende i parametri per effettuare previsioni sui messaggi che arriveranno nel futuro, e suggerire la classificazione di spam o meno”, spiega Titomanlio.
Il modello di regressione viene invece utilizzato per prevedere grandezze numeriche. “Esempio tipico è l’andamento dei prezzi relativi ad un certo mercato. Consideriamo il mercato degli affitti degli appartamenti. In questo caso il modello di regressione viene addestrato fornendo caratteristiche qualificanti di un numero sufficiente di appartamenti – posizione, metri quadri, esposizione ecc. – e il prezzo richiesto per l’affitto. Una volta che il modello è stato addestrato, può essere utilizzato per prevedere un prezzo di affitto allineato con il mercato per un nuovo appartamento”, spiega ancora il manager.
Per la corretta costruzione dei modelli è cruciale, dunque, la costruzione del dataset, cioè la selezione delle caratteristiche con cui vengono rappresentati gli oggetti su cui viene addestrato il modello e su cui successivamente vengono effettuate le previsioni. “Questo tipicamente richiede di integrare sorgenti diverse, ripulire e correlare correttamente i dati, e selezionare quelli rappresentativi per il problema da risolvere”, puntualizza Titomanlio. E la disponibilità crescente di grandi quantità di dati permette oggi di costruire dataset molto ricchi che, combinati a strumenti di analisi dei dati offre l’opportunità di comprendere fenomeni complessi come prima non era possibile. L’individuazione e successiva comprensione di correlazioni complesse permette a sua volta la nascita di nuove opportunità di business e nuove modalità di ridurre i costi, generando una vera e propria economia del dato.
“I processi di creation e di delivery sono al centro delle prime iniziative di miglioramento nelle quali il machine learning viene applicato per stimare l’interesse commerciale delle aree potenzialmente oggetto della creation, oppure per prevedere quanti ordini arriveranno nelle diverse città ed allocare in anticipo le risorse dedicate al delivery”. Il tutto facendo dunque leva sul potenziale informativo rappresentato dai dati relativi al mercato, al territorio ed anche alla storia commerciale di un’azienda. “Le tecniche di machine learning contribuiscono a decisioni più consapevoli- evidenzia il manager -. Una azienda come Open Fiber ha la fortuna di avere accesso a preziosi giacimenti di dati che, se opportunamente custoditi e gestiti, permettono di migliorare continuamente le prestazioni dei principali processi aziendali. Da questa consapevolezza nasce la volontà di trasformarsi in un’organizzazione compiutamente data-centric, un modello che ha fatto la fortuna di alcune ben note imprese del settore Ict”.
Esempi di applicazione del modello Tiresia
Nella piattaforma Tiresia sono stati sviluppati modelli previsionali di base che vengono successivamente combinati per rispondere a esigenze più complesse. I modelli di base sono
- Previsione del Tasso di Penetrazione a N Mesi per Aree di Base con Storia di vendibilità cioè aree dove Open Fiber già vende i suoi servizi da N mesi e con una percentuale di vendibilità superiore ad una soglia definibile.
- Previsione del Tasso di Penetrazione/ a N Mesi per Aree di Base Senza Storia, cioè tutte le aree che non ricadono nella classificazione precedente.
Nel caso tipico in cui venga richiesto di valutare se un comune (o in generale un’area che ne contiene altre) è più conveniente di un altro, si combinano le previsioni fornite sulle Aree di Base che lo compongono in modo da definire dei punteggi, in altre parole si definisce una classifica.
Questo approccio ha una vasta applicabilità perché durante il roll-out della rete si prendono continuamente decisioni se sia più conveniente cablare un’area o una città invece che un’altra. Il medesimo approccio può essere applicato in tutti i casi in cui si debba valutare complessivamente l’interesse di insiemi ampi di edifici (ad esempio in risposta a consultazioni).
Nel caso in cui sia necessario invece effettuare analisi relative a contesti territoriali ristretti, si applicano tecniche comparative utilizzando benchmark di riferimento. I benchmark possono essere calcolati applicando Tiresia ad aree in cui gli esperti umani possono fornire una validazione puntuale oppure con la tecnica del rango percentile rispetto alla distribuzione cumulativa dei punteggi; grossolanamente parlando, il rango percentile di un oggetto in una classifica è un valore da 0 a 100 che indica la percentuale di elementi della collezione che precedono l’elemento in classifica.
Un caso d’uso completamente diverso è la previsione del numero di ordini ricevuti per mese in ciascun comune, da ciascun operatore. Questa esigenza è particolarmente utile per stimare il carico operativo di delivery e dimensionare con precisione le risorse da allocare in campo.
La stima di un valore puntuale comporta infatti rischi molto più alti di errore rispetto a quelle di carattere comparativo discusse sopra, perciò è necessario adottare accortezze aggiuntive, vista la maggiore delicatezza della previsione richiesta. Per implementare la funzione di previsione del numero di ordini sono stati utilizzati modelli previsionali di tipo “time series” specificamente addestrati per prevedere l’andamento del numero di ordini nelle aree.