Tech

Il nuovo modello del mondo di Decart simula ore di guida fotorealistica, ma con qualche riserva.

Decart lancia Oasis 3: Ambienti di Guida Fotorealistici in Tempo Reale per l’IA Fisica

Decart, la startup specializzata in intelligenza artificiale, ha svelato mercoledì Oasis 3, il suo innovativo modello di mondo interattivo capace di generare ambienti di guida fotorealistici in tempo reale. Il modello, attualmente accessibile tramite API, mira inizialmente alle aziende di veicoli autonomi che necessitano di simulare scenari di guida rari su larga scala, con piani di espansione futura nella robotica e in altre applicazioni di IA fisica.

La strategia a lungo termine di Decart si concentra tuttavia sugli sviluppatori: offrendo l’accesso API fin dal lancio, l’azienda intende costruire un vasto ecosistema attorno ai modelli di mondo, emulando il successo di OpenAI con i modelli linguistici. Dean Leitersdorf, co-fondatore e CEO di Decart, ha dichiarato: “Sarà il primo modello di mondo utilizzabile su cui le persone potranno effettivamente programmare. Credo che emergerà un’intera comunità di sviluppatori attorno a questo.”

Decart vanta già una comunità di oltre 100.000 sviluppatori, molti dei quali stanno creando prodotti basati sul suo modello video in tempo reale Lucy, utilizzato principalmente nell’e-commerce e nello streaming live. Oasis 3 si basa su questo modello fondamentale e rappresenta la spinta dell’azienda verso l’IA fisica. L’accesso è tariffato a 0,02 dollari al secondo, con prezzi aziendali variabili in base ai casi d’uso.

Il lancio di Oasis 3 avviene a poche settimane dall’annuncio di un round di finanziamento da 300 milioni di dollari per Decart, startup fondata due anni fa. Leitersdorf ha attribuito la richiesta di fondi a un "enorme aumento della domanda per i modelli che abbiamo costruito" nei settori e-commerce, live streaming e IA fisica. Il round ha portato la valutazione di Decart a quasi 4 miliardi di dollari e ha visto la partecipazione di investitori strategici come Toyota, Adobe ed eBay, che Leitersdorf considera potenziali clienti. Anche Nvidia, già investitore, ha partecipato al round.

Decart opera in un settore dei modelli di mondo sempre più affollato. L’anno scorso, Google ha rilasciato Genie 3 in anteprima di ricerca, World Labs di Fei-Fei Li ha lanciato Marble per usi commerciali, e startup di generazione video come Luma e Runway stanno trasformando i loro modelli video consapevoli della fisica in modelli di mondo. Il vantaggio competitivo di Oasis 3 risiede nel fotorealismo dei suoi modelli e nella capacità di generazione infinita. Ciò è reso possibile da un’ingegneria dell’efficienza di Decart, alimentata dal DOS (Decart Optimization Stack), un software che consente ai modelli di funzionare in modo efficiente su hardware Nvidia, Amazon e Google, rendendoli molto meno costosi da gestire rispetto alla concorrenza.

Leitersdorf ha sottolineato la profonda integrazione verticale: "Questo è costruito su tutta la nostra infrastruttura in tempo reale, che ottimizziamo fino all’hardware. Essendo così verticalmente integrati, siamo in grado di essere più di un ordine di grandezza più economici di chiunque altro nel settore per gestire questi modelli." Grazie a tale efficienza, i modelli della startup hanno consumato "drasticamente meno" di 100 milioni di dollari nella sua storia. Oasis 3 genera ambienti multi-telecamera fisicamente accurati, con una telecamera frontale e due laterali, ideali per la formazione e il test dei sistemi. A differenza di demo limitate o anteprime di ricerca, Decart consente agli sviluppatori di generare scenari all’infinito, un vantaggio cruciale per chi sviluppa veicoli autonomi che necessitano di esplorare quanti più casi limite possibile.

Sebbene Oasis 3 offra ambienti fotorealistici notevoli da un singolo prompt testuale e la possibilità di interagirvi per ore, indicando un alto livello di efficienza, il modello presenta alcune sfide. L’analisi ha rivelato che, pur configurando una scena iniziale fedele al prompt, l’integrità tematica si degrada rapidamente con il procedere attraverso il mondo virtuale. Un test che ha generato una strada di New York City al mattino ha mostrato un ambiente inizialmente bellissimo, che però, proseguendo, assomigliava meno a New York e più a una generica città urbana occidentale. Tentando di tornare all’incrocio iniziale, questo era sparito, sostituito da un ambiente completamente nuovo. I controlli non sempre si sono dimostrati reattivi, e la capacità dell’auto di attraversare altri veicoli indica una simulazione fisica ancora imperfetta.

Leitersdorf ha definito l’attraversamento degli oggetti un "problema di ricerca importante che stiamo risolvendo ora," attribuendolo alla maggiore disponibilità di dati sulla guida corretta rispetto agli incidenti. La consistenza fisica è ulteriormente complicata dalla natura auto-regressiva di Oasis 3, che genera un frame alla volta basandosi su ciò che è stato generato in precedenza, un processo computazionalmente intensivo. Per mantenere la consistenza, il team di Decart sta lavorando per migliorare la lunghezza della memoria del modello. "Ogni frame che generiamo sono circa 8.000 token," ha spiegato Leitersdorf. "Generarlo a decine di frame al secondo – sono centinaia di migliaia di token al secondo. La finestra di contesto si riempie molto rapidamente. Stiamo ricercando come ottenere un contesto più lungo per memorizzare milioni di token in più e come comprimere la memoria in meno token."

Leitersdorf ritiene che il problema della consistenza potrebbe essere parzialmente risolto nella prossima versione del modello, che consentirà agli utenti di generare mondi partendo da un video anziché da un’immagine. Ha riconosciuto che il campo dei modelli di mondo è ancora nelle sue fasi iniziali, ma il fondatore è più concentrato sulle potenzialità che emergeranno quando gli sviluppatori avranno accesso alla tecnologia. "Mi riporta ai primi giorni dei modelli linguistici di grandi dimensioni (LLM), quando OpenAI inventò l’API per i modelli," ha affermato, riferendosi all’emergere di una comunità di sviluppatori che ha fatto progredire il campo trovando e costruendo nuovi casi d’uso. "Quando ci risentiremo tra tre mesi, diremo: ‘Ecco 100 sviluppatori che hanno costruito 100 diverse applicazioni con Oasis che ci hanno sorpreso tutti’."

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *