LA GUIDA

Data center, come ottimizzarli nell’era dell’intelligenza artificiale

I carichi di lavoro AI consumano già 4,3 Gigawatt di energia e si stima una crescita annuale tra il 26% e il 36% entro il 2028, arrivando tra i 13,5 e i 20 Gigawatt. Focus su alimentazione elettrica, raffreddamento, rack e strumenti software dedicati. Il whitepaper di Schneider Electric

Pubblicato il 31 Ott 2023

SE_AI_1500x900

Nasce la prima guida in assoluto dedicata alle nuove sfide da affrontare nella progettazione dell’infrastruttura fisica dei data center per supportare i carichi di lavoro basati sull’Intelligenza Artificiale. Autore è Schneider Electric, che mira così a creare uno standard ideale per la progettazione di data center ottimizzati per l’AI.

Il paper, intitolato The AI Disruption: Challenges and Guidance for Data Center Design (SCARICA QUI IL TESTO COMPLETO), si concentra sul supporto dei carichi di lavoro dell’AI con i sistemi esistenti oggi e illustra gli attributi e le tendenze importanti dell’intelligenza artificiale che creano sfide per ogni categoria di infrastruttura fisica dei data center, tra cui l’alimentazione, il raffreddamento, i rack e la gestione del software. Fornisce quindi indicazioni su come affrontare queste sfide. Inoltre offre una visione prospettica di ciò che accadrà nella progettazione dei data center, con la volontà finale di creare un modello completo a disposizione delle aziende che vogliono fare in modo che l’AI possa dispiegare nei loro data center tutto il suo potenziale.

La sfida energetica: la necessità di un nuovo adattamento

L’intelligenza artificiale ha prodotto cambiamenti dirompenti e presenta sfide molto rilevanti in termini di progettazione e operatività dei data center. Oggi le applicazioni basate su AI sono sempre più diffuse e producono un impatto importante nei settori più diversi – sanità, finanza, manifattura, trasporti, intrattenimento… – facendo crescere la domanda di potenza di calcolo. Per i data center, ciò significa anche doversi adattare in modo efficace alla parallela evoluzione della domanda di energia scatenata da questo fenomeno.

Le previsioni dicono che i carichi di lavoro IA aumenteranno a un tasso di crescita annuale composto (Cagr) tra il 26 e il 36% entro il 2028, portando con sé un aumento della domanda di energia nei data center esistenti e di nuova costruzione.  Si parla di un consumo che si collocherà tra soli 5 anni tra i 13,5 e i 20 Gigawatt – rispetto ai 4,3 Gigawatt odierni; se oggi i carichi di lavoro IA rappresentano l’8% del totale, nel 2028 rappresenteranno tra il 15 e il 20% del totale.

Su questa premessa, la guida di Schneider Electric per un Data Center AI-Ready esplora gli snodi critici dell’intersezione tra IA e infrastruttura data center, puntualizzando alcuni elementi chiave:

I 4 fattori fisici da cui dipende la gestione della domanda di energia

Riuscire a gestire la domanda di energia prevista dipende da una serie di fattori, che sono descritti nel White Paper e riguardano quattro aspetti dell’infrastruttura fisica: l’alimentazione elettrica, il raffreddamento, i rack e gli strumenti software dedicati.

Alimentazione elettrica

I carichi di lavoro dell’intelligenza artificiale presentano sei sfide chiave che hanno un impatto sulla catena elettrica, compresi i quadri, la distribuzione e le unità di distribuzione dell’alimentazione a rack (rPdu): la distribuzione a 120/208 V non è praticabile; le dimensioni ridotte dei blocchi di distribuzione dell’alimentazione sprecano spazio IT; le Pdu standard per rack da 60/63 A non sono praticabili; l’aumento del rischio di arco elettrico complica le pratiche di lavoro; la mancanza di diversità di carico aumenta il rischio di intervento degli interruttori a monte; le alte temperature dei rack aumentano il rischio di guasti e di rischi.

In questo scenario, il white paper raccomanda come calcolare e come supportare le densità di potenza rack estreme tipiche dei server di Training per l’Intelligenza Artificiale.

Raffreddamento

La densificazione dei cluster di server per l’addestramento all’intelligenza artificiale sta imponendo un’evoluzione dal raffreddamento ad aria a quello a liquido per far fronte all’aumento dei Tdp. Anche se i cluster e i server di inferenza meno densi continueranno a utilizzare il raffreddamento convenzionale dei data center, vi sono sei sfide chiave per il raffreddamento che gli operatori dei data center devono affrontare: il raffreddamento ad aria non è adatto ai cluster di intelligenza artificiale superiori a 20 kW/rack; la mancanza di progetti standardizzati e i vincoli del sito complicano i retrofit del raffreddamento a liquido; i Tdp futuri sconosciuti aumentano il rischio di obsolescenza dei progetti di raffreddamento; l’inesperienza complica l’installazione, il funzionamento e la manutenzione; il raffreddamento a liquido aumenta il rischio di perdite all’interno dei rack IT; esistono opzioni limitate di fluidi per gestire il raffreddamento a liquido in modo sostenibile.

In questo scenario, il white paper fornisce indicazioni per passare con successo dal raffreddamento ad aria al liquid cooling per supportare la potenza termica (thermal design power – Tdo) dissipata dai carichi di lavoro AI,

Rack

Alcune delle sfide relative all’alimentazione e al raffreddamento descritte nelle sezioni precedenti si ripercuotono anche sul rack IT (ossia l’armadio o il contenitore IT). I carichi di lavoro dell’intelligenza artificiale comportano le seguenti quattro sfide per i sistemi rack: i rack di larghezza standard non hanno spazio per l’alimentazione e il raffreddamento necessari; i rack di profondità standard non hanno spazio per i server AI profondi e il cablaggio; i rack di altezza standard non hanno spazio per la quantità di server richiesta; i rack standard non hanno una capacità di carico sufficiente per le apparecchiature AI.

In questo scenario, il paper propone specifiche per i rack, pensate per adeguarsi ai server AI che richiedono elevata potenza di alimentazione, collettori e tubature per il cooling e un gran numero di cavi di rete.

Software

Gli strumenti software per l’infrastruttura fisica supportano la progettazione e il funzionamento del data center e comprendono Dcim, Epms, Bms e strumenti di progettazione elettrica digitale. La presenza di cluster di IT ad alta densità di potenza e raffreddati a liquido accanto a quelli tradizionali raffreddati ad aria significa che alcune funzioni software diventano più critiche. Anche se alcuni carichi di lavoro per l’addestramento all’intelligenza artificiale potrebbero non richiedere un’elevata disponibilità, una progettazione e un monitoraggio inadeguati possono comportare rischi di downtime per i rack adiacenti e per i tenant che probabilmente sono critici per l’azienda. Le due sfide seguenti evidenziano importanti funzioni del software di gestione che diventano più importanti nel contesto dei carichi di lavoro di formazione AI ad alta densità: l’estrema densità di potenza e la domanda di cluster AI portano all’incertezza nella progettazione; un minor margine di errore aumenta il rischio operativo in un ambiente dinamico.

In questo scenario, il documento spiega come usare i software di gestione dell’infrastruttura data center (Dcim), i sistemi di gestione dell’energia elettrica (Epms) e i sistemi di gestione dell’edificio (Bms) per creare dei digital twin del data center in ottica di struttura, operatività e gestione degli asset

Più efficienza energetica e uso di rinnovabili

“Il continuo avanzamento dell’IA sottopone la gestione e la progettazione di un data center a uno sforzo senza precedenti. Per affrontare queste sfide è importante prendere in considerazione i principali attributi e trend dei carichi di lavoro di Intelligenza Artificiale, che possono avere impatto sui data center esistenti ma anche su quelli ancora da costruire”, ha dichiarato Pankaj Sharma, Executive Vice President, Secure Power Division and Data Center Business di Schneider Electric. “Le applicazioni di AI, specialmente i cluster di Training, richiedono un’elevata capacità computazionale ed assorbono grandi quantità di potenza per via dell’utilizzo di Gpu o di acceleratori specializzati per AI. Questo mette sotto pressione in modo significativo l’infrastruttura di alimentazione e di raffreddamento dei data center. In un contesto di costi energetici in aumento e di preoccupazione per l’impatto ambientale della tecnologia, i data center devono evolvere attraverso hardware ad elevata efficienza energetica e l’utilizzo di fonti di energia rinnovabili, per aiutare a ridurre sia i costi operativi sia le emissioni”.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati