09/12/2025Claude Opus 4.5 e lo stato della GenAI
Neanche il tempo di abituarci a Gemini 3 Pro, che Anthropic ha rilanciato con un nuovo modello di Claude… e cavolo se c’è roba da dire!
Ne abbiamo parlato nell’ultimo episodio di Algoritmi, ma volevo prendermi un po’ di spazio per raccontarlo meglio qui.
Avrai visto, infatti, che è uscito Claude Opus 4.5, il nuovo modello grande della scuderia di Anthropic.
Il tutto a distanza di 4 giorni dal lancio di Google: Gemini 3 è uscito il 20 novembre e Opus 4.5 il 24.
La competizione ormai è così: cronometro alla mano e modelli che restano in cima quanto una storia su Instagram.
Alla faccia di chi dice che l’AI ha smesso di innovare e crescere!
Claude Opus 4.5 è quindi il nuovo “campione del mondo” di turno.
Almeno fino a lunedì prossimo, immagino.
Non è più una gara a “chi innova ogni anno”, ma a chi innova ogni episodio di Commit.
La narrazione che gira è più o meno questa: “è un GPT-qualcosa più forte nel codice, più bravo con gli agenti, un po’ più economico. Fine.”
Solo che… no. La cosa è un po’ diversa.
Se guardi bene, il lancio di Opus 4.5 non è solo un upgrade di modello.
- costa un po’ meno dei modelli precedenti ($5/milione input token e $25/milione output, con un taglio di prezzo di circa il 66%),
- consuma meno token
- e vola sui benchmark.
Facciamo un passo indietro, così non sembra solo l’ennesimo comunicato stampa in salsa hype.
Flashback velocissimo: nell’arco di due settimane abbiamo visto GPT-5.1, Grok 4.1, Gemini 3 Pro e ora Claude Opus 4.5.
Ormai è meteorologia: “oggi pioverà un nuovo modello”.
Perché succede?
Perché l’accelerazione è diventata ricorsiva.
In che senso “ricorsiva”?
L’AI accelera lo sviluppo dell’AI stesso: la ricerca è accelerata dall’AI, che è accelerata dalla ricerca, e così via…
Oggi i ricercatori non sono solo “più bravi”, sono moltiplicati dagli assistenti AI.
È la prima volta nella storia della tecnologia che lo strumento alimenta il suo stesso ciclo evolutivo.
Opus 4.5 è un prodotto tipico di questo nuovo ciclo: non è solo migliore, ma è ottimizzato per essere un moltiplicatore di produttività.
E non potendo competere sulla multimodalità, Anthropic ha scelto una strategia molto precisa: coding e agenti.
Per darti un’idea, Anthropic ha dato a Opus lo stesso esame tecnico che usa per selezionare ingegneri di performance engineering.
Risultato: Opus 4.5 ha preso più punti di qualsiasi candidato umano che abbia fatto quel test.
E infatti il modello performa bene
- su benchmark come SWE-Bench, dove schiaccia la concorrenza,
- e su test multilingue di software engineering, dove guida in quasi tutti i linguaggi


Questo non sostituisce i developer, ma sposta la linea del “chi è competitivo contro cosa”.
Ovviamente mancano soft-skill, relazioni umane, lavoro di squadra, responsabilità, contesto aziendale, intuizione e autonomia.
Però a livello di skill tecniche pure, il sorpasso su una fascia di professionisti è qui.
Lato agenti, invece, Opus 4.5 è stato addestrato con un focus molto esplicito su:
- uso del computer,
- task lunghi e multi-step,
- coordinamento di sub-agenti.

Claude Code ha una modalità “plan mode” che ti propone un piano dettagliato, tu lo modifichi, poi lui esegue.
Per farti capire, questo è Opus 4.5 su Antigravity - l’IDE agentico che ha rilasciato Google due settimane fa.
E nelle integrazioni con Excel, il browser o il desktop, Opus gestisce file, formule e analisi dati con meno errori inutili o passaggi strani e più coerenza logica nelle operazioni che esegue.
In pratica stiamo andando verso modelli che non rispondono a una domanda, ma prendono in gestione un intero workflow.
Sul fronte efficienza buone notizie:
- meno token per fare la stessa cosa,
- un parametro “effort” che ti permette di decidere quanta potenza vuoi,
- contesto gestito meglio,
- e prezzi più ragionevoli (ma comunque premium).
È il primo Opus che le aziende normali possono usare senza indebitarsi con la banca.

Ma c’è anche la parte scomoda: la sicurezza.
E qui passiamo dal “wow” al “ehi, un attimo”.
Anthropic lo definisce “il modello più allineato che abbiamo mai rilasciato” e “il modello di frontiera meglio allineato di qualsiasi sviluppatore”.
In breve, Opus 4.5 ha meno comportamenti preoccupanti rispetto a GPT-5.1 Pro e Gemini 3 Pro, e resiste meglio a prompt injection, jailbreak, ecc.


A livello strategico, Anthropic sta diversificando l’hardware come pochi: usa TPU di Google, Trainium di AWS, GPU di Nvidia.
L’idea è chiara: non vuoi essere ostaggio di un solo fornitore (indovina chi) in un mercato dove la potenza di calcolo è il nuovo petrolio.
E visto che Gemini 3 è stato addestrato sulle TPU di Google, è probabile che altri player inizieranno a copiare questo modello ibrido.
È anche un segnale per gli altri:
- se Google dimostra che con le proprie TPU può addestrare modelli competitivi,
- e Anthropic dimostra che puoi stare in cima ai benchmark con un mix di TPU + GPU + Trainium,
allora la narrativa “tutto passa da Nvidia” inizia a incrinarsi.
Per te che usi i modelli, oggi cambia poco.
Per le big tech e per chi pianifica infrastrutture AI a 5-10 anni, cambia molto.
Insomma: Opus 4.5 è davvero il migliore?
Dipende da cosa ti interessa.
- Se sei un dev, Opus 4.5 è realisticamente il miglior “collega non umano” oggi disponibile per debugging, refactoring, feature complesse.
- Se sei un’azienda, diventa credibile l’idea di spostare alcuni workflow (modelli finanziari, pipeline dati, test, analisi, documentazione) su un layer di agenti Opus.
Basta tenere a mente che la parte più fragile del sistema, oggi, non è la potenza del modello… ma come viene indirizzato, protetto e supervisionato.
Giacomo Ciarlini - CIO - Datapizza
Simone Conversano - AI Adoption Specialist - Datapizza