Una startup di chip raccoglie 135 milioni di dollari: il principale collo di bottiglia dell’IA è la memoria, non il calcolo.
XCENA Raccoglie 135 Milioni di Dollari per Eliminare il Collo di Bottiglia della Memoria nell’IA
Ogni volta che si interroga un’intelligenza artificiale come ChatGPT, la richiesta innesca una complessa corsa al relais dei dati. Le informazioni lasciano la memoria, passano attraverso una CPU per la pre-elaborazione, viaggiano verso una GPU per calcoli intensivi e poi tornano indietro. Questo intero percorso si ripete per ogni singola parola generata dall’AI, rivelando un’inefficienza strutturale dovuta al passaggio attraverso alcuni dei chip più costosi e ad alta intensità energetica del settore. XCENA, una startup con uffici in Corea del Sud e negli Stati Uniti, si propone di risolvere esattamente questo problema.
La startup, fondata quattro anni fa, ha progettato un chip che posiziona le capacità di calcolo molto più vicino alla DRAM – i chip di memoria veloci a breve termine che immagazzinano i dati attivamente utilizzati da un processore. Questo permette alle operazioni di dati routinarie di essere gestite vicino alla memoria, eliminando i costosi viaggi di andata e ritorno tra CPU, GPU e memoria. Se la soluzione di XCENA funzionerà su larga scala, le implicazioni per i costi dell’infrastruttura AI potrebbero essere significative, il che spiega in gran parte l’entusiasmo degli investitori.
XCENA ha infatti appena raccolto 135 milioni di dollari in un round di Serie B, raggiungendo una valutazione di 570 milioni di dollari e portando il totale dei fondi raccolti a 185 milioni di dollari. Il CEO di XCENA, Jin Kim, ha co-fondato la startup nel 2022 insieme al CTO Dohun Kim e al CPO Harry Juhyun Kim, tutti veterani di Samsung e SK Hynix, i giganti della memoria che riforniscono i chip che alimentano le GPU di Nvidia. "Le CPU e le GPU sono diventate più intelligenti nel corso dei decenni. La memoria non l’ha mai fatto. XCENA vuole cambiare questo", ha dichiarato Kim in un’intervista, aggiungendo che "il recente aumento dei prezzi della memoria e dei relativi titoli indica un più ampio spostamento nell’infrastruttura AI verso architetture incentrate sulla memoria".
L’azienda scommette sulla tesi che "l’inferenza non è solo un problema di calcolo; è sempre più un problema di scalabilità della memoria", ha affermato Kim. Il chip MX1 di XCENA si connette alla CPU tramite CXL (Compute Express Link) – essenzialmente una corsia preferenziale dedicata tra il processore e la memoria – elaborando i dati prima che debbano lasciare il modulo di memoria. Questo approccio porta il calcolo ai dati, e non il contrario. L’azienda sostiene che ciò che prima richiedeva 10 server potrebbe potenzialmente funzionare su uno solo.
"Mentre le GPU eccellono nella moltiplicazione di matrici – la matematica pesante alla base dell’addestramento dei modelli AI – gran parte dell’orchestrazione dei dati circostante, inclusa la pre-elaborazione, la gestione della cache KV [il sistema che memorizza il contesto delle conversazioni precedenti in modo che un modello non debba rielaborarlo] e il caching dei dati, continua a funzionare sulle CPU. Il nostro chip gestisce queste attività direttamente all’interno del modulo di memoria stesso", ha spiegato Kim. La domanda di soluzioni di memoria è aumentata dalla seconda metà dell’anno scorso, e l’azienda ritiene che il tempismo stia giocando a suo favore.
Le conversazioni con diversi fornitori globali di memoria sono nelle fasi iniziali, sebbene Kim abbia rifiutato di nominarli. I clienti ideali dell’azienda sono gli hyperscaler che spendono decine di miliardi all’anno in infrastrutture AI, dove anche un piccolo guadagno in efficienza della memoria può significare centinaia di milioni di risparmi. L’MX1 è ancora un prototipo. La produzione di massa dei chip è prevista per la fine del 2026 dalle linee di Samsung, con l’azienda che si aspetta di generare entrate a partire dal 2027.
Mentre i produttori di unità di elaborazione neurale (NPU) competono per sfidare Nvidia nei carichi di lavoro di training, XCENA si concentra sul livello ad alta intensità di memoria che è alla base di tutto. I rivali più prossimi di XCENA includono Astera Labs e Marvell, entrambe aziende quotate al Nasdaq che lavorano sulla connettività di memoria di nuova generazione. Marvell è un attore grande e consolidato già attivo nello stesso spazio, ha detto Kim, aggiungendo che il fattore di differenziazione risiede nella proprietà intellettuale. "Abbiamo migliaia di core", ha affermato Kim, mentre l’approccio di Marvell si basa su una manciata di core generici in confronto.
Questi core sono costruiti su RISC-V – un progetto di chip open-source – e ottimizzati specificamente per l’elaborazione dei dati, con ogni core mantenuto intenzionalmente piccolo ed efficiente. Oltre ai core stessi, XCENA progetta la propria gerarchia di memoria interna, il bus di interconnessione e il controller DRAM – un livello di integrazione verticale che la maggior parte delle aziende di chip, inclusi i rivali più grandi, solitamente esternalizza.
I fondi del round di Serie B sono stati co-guidati dalle società di venture capital di Seoul Altinum e IMM Investment, insieme a Corstone Asia e agli investitori esistenti SBI Investment e Mirae Asset Capital. L’azienda, che conta oltre 90 dipendenti tra gli uffici a Pangyo, un hub tecnologico fuori Seoul, e a Sunnyvale, è anche in trattative con investitori internazionali per ulteriori finanziamenti.
