La compressione della memoria su scala nanosecondi di ZeroPoint potrebbe domare l'infrastruttura AI avida di potenza

l'IA è solo l'ultimo e più avido mercato per l'elaborazione ad alta prestazione, e gli architetti di sistema stanno lavorando incessantemente per spremere ogni goccia di performance da ogni watt. La startup svedese ZeroPoint, armata di €5 milioni ($5,5 milioni di USD) in nuovi finanziamenti, vuole aiutarli con una tecnica di compressione della memoria innovativa su scala nanosecondi - e sì, è esattamente complicato come suona.

Il concetto è questo: comprimere i dati in modo lossless appena prima che entrino nella RAM e decomprimerli successivamente, ampliando efficacemente il canale di memoria del 50% o più aggiungendo solo un piccolo pezzo al chip.

La compressione è, ovviamente, una tecnologia fondamentale nell'informatica; come ha sottolineato il CEO di ZeroPoint Klas Moreau (a sinistra nell'immagine sopra, con i cofondatori Per Stenström e Angelos Arelakis), 'Non memorizzeremmo i dati sull'hard disk oggi senza comprimerli. La ricerca suggerisce che il 70% dei dati in memoria è superfluo. Quindi perché non comprimiamo in memoria?'

La risposta è che non abbiamo il tempo. Comprimere un file grande per lo storage (o codificarlo, come diciamo quando si tratta di video o audio) è un compito che può richiedere secondi, minuti o ore a seconda delle esigenze. Ma i dati passano attraverso la memoria in una piccola frazione di secondo, spostati dentro e fuori così velocemente come la CPU può farlo. Un ritardo di un microsecondo, per rimuovere i bit 'superflui' in un pacchetto di dati che entra nel sistema di memoria, sarebbe catastrofico per le prestazioni.

Memoria non avanza necessariamente alla stessa velocità delle velocità della CPU, anche se i due (insieme a molti altri componenti del chip) sono inestricabilmente collegati. Se il processore è troppo lento, i dati si accumulano in memoria - e se la memoria è troppo lenta, il processore spreca cicli aspettando la prossima pila di bit. Tutto funziona in concerto, come ci si potrebbe aspettare.

Sebbene la compressione della memoria super veloce sia stata dimostrata, comporta un secondo problema: essenzialmente, è necessario decomprimere i dati proprio quanto velocemente li si è compressi, restituendoli al loro stato originale, altrimenti il sistema non avrà alcuna idea di come gestirli. Quindi a meno che non si converta l'intera architettura in questa nuova modalità di memoria compressa, è inutile.

ZeroPoint afferma di aver risolto entrambi questi problemi con una compressione della memoria iper veloce e a basso livello che non richiede modifiche significative al resto del sistema informatico. Aggiungi la loro tecnologia al tuo chip e sembrerà di aver raddoppiato la memoria.

Sebbene i dettagli più tecnici probabilmente siano comprensibili solo alle persone di questo settore, i concetti di base sono abbastanza facili da capire anche per i non iniziati, come ha dimostrato Moreau quando me li ha spiegati.

'Quello che facciamo è prendere una quantità molto piccola di dati - una riga di cache, a volte 512 bit - e identificare i pattern al suo interno', ha detto. 'È la natura dei dati, sono popolati da informazioni non efficienti, informazioni sparse. Dipende dai dati: più casuale è, meno compressibile è. Ma quando guardiamo la maggior parte dei carichi di dati, vediamo che siamo nell'intervallo di 2-4 volte più throughput dati rispetto prima.'

Non è così che appare effettivamente la memoria. Ma capisci l'idea. Crediti immagine: ZeroPoint

Non è un segreto che la memoria possa essere compressa. Moreau ha detto che tutti nell'elaborazione su larga scala conoscono la possibilità (mi ha mostrato un paper del 2012 che lo dimostra), ma l'hanno più o meno scartata come accademica, impossibile da implementare su larga scala. Ma ZeroPoint, ha detto, ha risolto i problemi di compattazione - riorganizzando i dati compressi per renderli ancora più efficienti - e trasparenza, quindi la tecnologia non solo funziona ma funziona abbastanza senza soluzione di continuità nei sistemi esistenti. E tutto avviene in una manciata di nanosecondi.

'La maggior parte delle tecnologie di compressione, sia software che hardware, sono dell'ordine dei migliaia di nanosecondi. CXL [compute express link, uno standard di interconnessione ad alta velocità] può ridurlo a centinaia', ha detto Moreau. 'Noi possiamo portarlo a 3 o 4.'

Ecco il CTO Angelos Arelakis che lo spiega a modo suo:

Il debutto di ZeroPoint è certamente tempestivo, con aziende di tutto il mondo alla ricerca di elaborazioni più veloci e economiche con cui addestrare un'altra generazione di modelli AI. La maggior parte degli iper scaler (se vogliamo chiamarli così) è interessata a qualsiasi tecnologia che possa dare loro più potenza per watt o consentire loro di abbassare un po' il conto energetico.

L'avvertimento principale di tutto ciò è semplicemente che, come già detto, è necessario includerlo nel chip e integrarlo fin dall'inizio, non è possibile semplicemente inserire una chiavetta ZeroPoint nella rack. A tal fine, l'azienda sta lavorando con produttori di chip e integratori di sistemi per concedere in licenza la tecnica e il design hardware ai chip standard per l'elaborazione ad alta prestazione.

Ovviamente si tratta di Nvidias e Intels, ma sempre più anche di aziende come Meta, Google e Apple, che hanno progettato hardware personalizzato per eseguire internamente le loro attività ad alto costo. ZeroPoint sta posizionando la sua tecnologia come un risparmio di costi, però, non come un premio: presumibilmente, effettivamente raddoppiando la memoria, la tecnologia si ripaga a breve.

L'round A di €5 milioni appena chiuso è stato guidato da Matterwave Ventures, con Industrifonden che ha agito come investitore principale nordico locale, e con gli investitori esistenti Climentum Capital e Chalmers Ventures che hanno contribuito anche.

Moreau ha detto che i soldi dovrebbero consentire loro di espandersi nei mercati statunitensi, nonché di raddoppiare gli sforzi su quelli svedesi che stanno già perseguendo.