I token presentano il conto: La frenesia del settore per contenere i costi sfrenati dell’IA.
Le aziende di vari settori stanno iniziando a mostrare segni di insofferenza di fronte al prezzo crescente dell’intelligenza artificiale. Uber ha esaurito l’intero budget per il codice AI del 2026 entro aprile, mentre Microsoft ha revocato le licenze Claude Code ai suoi sviluppatori a pochi mesi dall’attivazione. Un impiegato di Priceline ha rivelato a TechCrunch che il rinnovo di un contratto di routine con Cursor è tornato con un costo 4-5 volte superiore.
Nonostante i prezzi per singolo token siano diminuiti, la spinta verso una maggiore adozione dell’IA e l’uso di agenti sempre più autonomi hanno fatto impennare il consumo di token. Le aziende che all’inizio del 2025 si erano abbuffate di abbonamenti “all-you-can-eat” ora si affannano per capire dove stiano andando i loro soldi, ridurre la spesa e valutare se sia possibile recuperare un qualche ROI dai bilanci in rosso.
In questo contesto, un nuovo mercato sta emergendo per rispondere a queste esigenze. Startup, fornitori consolidati e un nuovo ente di standardizzazione sono tutti in corsa per offrire alle aziende gli strumenti e il linguaggio necessari per monitorare le proprie spese. Alexander Embricos, responsabile enterprise di OpenAI, ha dichiarato a TechCrunch durante un evento a New York: “Sei mesi fa, parlavo con i clienti e l’argomento era ‘Cosa può fare? È abbastanza buono?’ Ora le nostre conversazioni non riguardano mai questo. Ora si parla di ‘stiamo spendendo così tanto. Che visibilità avete? Che possibilità di audit avete? Che controlli sui token avete? Qual è l’efficienza dei vostri modelli?'”
Proprio in questo scenario, la Linux Foundation ha svelato questa settimana i piani per la Tokenomics Foundation, un nuovo organismo di standardizzazione che mira a infondere la stessa disciplina di costo sui token AI che FinOps ha introdotto per la spesa cloud. J.R. Storment, direttore esecutivo della FinOps Foundation, un progetto della Linux Foundation, ha raccontato a TechCrunch: “Ad aprile e maggio, ho iniziato a sentire da alcune aziende: ‘Oh mio Dio, abbiamo superato di 3 volte l’intero budget per i token del 2026 ed è solo aprile’. Abbiamo iniziato a sentire di crisi esistenziali, e l’intera conversazione è passata da ‘massimizzare i token’ e ‘andare veloci’ a ‘abbiamo bisogno di guardrail, come controlliamo questo?'”
Queste grida d’allarme hanno fatto seguito alle ferventi richieste degli amministratori delegati che spingevano i loro team a utilizzare i modelli migliori e a muoversi velocemente, costi permettendo. I nuovi modelli rilasciati a novembre, come Claude Opus 4.5 di Anthropic, GPT-5.1 di OpenAI e Gemini 3 Pro di Google, hanno apportato miglioramenti significativi agli strumenti agentici, che hanno moltiplicato il consumo. È così che un’azienda avrebbe ricevuto una fattura da 500 milioni di dollari per Claude dopo aver dimenticato di impostare limiti di utilizzo per i dipendenti. Chris Reed, direttore senior della finanza IT di Priceline, ha paragonato la situazione a “un’epidemia di crack-cocaina”, aggiungendo che la sua azienda ha iniziato a imporre limiti sui token a determinati gruppi.
La questione della produttività e del ritorno sull’investimento (ROI) rimane nebulosa. Vitaly Gordon, CEO della piattaforma di operazioni ingegneristiche Faros AI, ha parlato di un CTO che gli ha detto: “Uno dei miei ingegneri ha speso 40.000 dollari in token il mese scorso, e sinceramente non so se dovrei fermarlo o se dovrei dire a tutti gli altri di fare come lui.” Un sondaggio di Faros a marzo ha rilevato che, tra 20.000 sviluppatori, la produzione aumentava, ma anche i bug e le riscritture. In modo simile, Jellyfish, una piattaforma di gestione dell’ingegneria, ha scoperto che gli ingegneri che utilizzavano più token erano circa il doppio più produttivi di quelli che usavano meno l’IA, ma spendevano 10 volte il numero di token per raggiungere quel risultato. Nicholas Arcolano, responsabile della ricerca presso Jellyfish, ha spiegato che la spesa per l’IA sta esplodendo in gran parte a causa delle funzionalità agentiche, con un consumo per sviluppatore aumentato di circa 18,6 volte in nove mesi. “Se la spesa estrema ripaghi, dipende dal valore aziendale finale del codice spedito (ad esempio, le entrate), che la maggior parte delle aziende non riesce ancora a misurare,” ha concluso Arcolano.
Il problema della misurazione è aggravato dalla pura scala con cui l’IA viene utilizzata oggi. “Tracciare i costi del cloud è un problema di dati da centinaia di milioni di righe al mese,” ha detto Storment. “Tracciare i costi dei token è un problema di dati da trilioni di righe al mese. Non puoi semplicemente inserirlo in un foglio di calcolo o anche in uno strumento di base. Devi ripensare fondamentalmente i tuoi strumenti, le tue specifiche e i tuoi sistemi contabili per farlo.” Reed di Priceline ha già riscontrato discrepanze tra l’utilizzo riportato da un fornitore e i dati interni di Priceline, paragonando la situazione all’inizio della sua carriera nella gestione delle spese di telecomunicazione: “Ogni volta che si introduce qualcosa di nuovo, è terreno fertile per errori di fatturazione, audit e opportunità di ottimizzazione.”
Un mercato sta iniziando a formarsi attorno a questo problema. Ci sono aziende “pure-play” come Pay-i, che traccia, misura e ottimizza i costi e le prestazioni degli investimenti GenAI, o Paid, che permette agli sviluppatori di monitorare i costi, misurare l’utilizzo e fatturare gli utenti in base al valore effettivo anziché a quote di abbonamento. Altre aziende come Jellyfish, Waydev e Faros AI forniscono monitoraggio degli agenti AI per dimostrare il ROI degli strumenti per sviluppatori. Anche i fornitori esistenti con una distribuzione consolidata stanno aggiungendo nuove funzionalità, come Ramp nel management della spesa AI, o Datadog e New Relic con servizi di gestione dei costi cloud, osservabilità a livello di token e monitoraggio GPU. AWS, alla conferenza FinOps X, dovrebbe introdurre nuove funzionalità di gestione finanziaria orientate alla spesa aziendale per l’IA.
Tiffany Luck, partner di NEA, ritiene che l’efficienza dei token e l’osservabilità saranno probabilmente aggiunte al “livello di harness o dell’app”. Ha citato Factory, una startup che crea agenti AI per le aziende, che questa settimana ha lanciato un router di modelli che seleziona automaticamente il modello giusto per ogni attività. Gordon di Faros AI prevede che i laboratori di frontiera e altri fornitori di modelli adotteranno ottimizzazioni in stile OpenRouter per indirizzare le query ai modelli più economici, una tendenza già visibile nelle fatture aziendali di Claude, dove una parte della spesa per il modello Opus è in realtà per Sonnet o Haiku, più economici.
Tuttavia, tutti questi strumenti vengono sviluppati senza un linguaggio comune o definizioni condivise su quanto costi un token, cosa produca e come confrontare la spesa tra i fornitori. È qui che la Tokenomics Foundation spera di essere utile, costruendo una definizione e un framework canonici per la “tokenomics”, standard aperti e nuove metriche per l’economia dell’IA, come il costo per intelligenza o i token per watt. Il lancio formale del gruppo è previsto per luglio. Nishant Gupta, Chief Availability Officer di Salesforce, ha affermato che “l’economia dei token è fondamentalmente più astratta e opaca di qualsiasi cosa abbiamo gestito su questa scala in precedenza.” Nonostante Goldman Sachs preveda che l’uso globale dei token si moltiplicherà di 24 volte entro il 2030, le aziende già in deficit di budget hanno bisogno di soluzioni ora, e la prima consegna della fondazione è ancora a mesi di distanza. Gordon ha riassunto la situazione dicendo: “Forse abbiamo creato una macchina a vapore, ma non abbiamo ancora capito la catena di montaggio.” Arcolano suggerisce un’adozione ampia ma moderata, affermando che “il miglior ROI deriva dallo spostamento della grande maggioranza da un utilizzo basso a uno moderato, non spingendo gli utenti intensivi ancora più in alto.”
