Claude Opus 4.5 e lo stato della GenAI

Neanche il tempo di abituarci a Gemini 3 Pro, che Anthropic ha rilanciato con un nuovo modello di Claude… e cavolo se c’è roba da dire!

Ne abbiamo parlato nell’ultimo episodio di Algoritmi, ma volevo prendermi un po’ di spazio per raccontarlo meglio qui.

Avrai visto, infatti, che è uscito Claude Opus 4.5, il nuovo modello grande della scuderia di Anthropic.

Il tutto a distanza di 4 giorni dal lancio di Google: Gemini 3 è uscito il 20 novembre e Opus 4.5 il 24.

La competizione ormai è così: cronometro alla mano e modelli che restano in cima quanto una storia su Instagram.

Alla faccia di chi dice che l’AI ha smesso di innovare e crescere!

Claude Opus 4.5 è quindi il nuovo “campione del mondo” di turno.

Almeno fino a lunedì prossimo, immagino.

Non è più una gara a “chi innova ogni anno”, ma a chi innova ogni episodio di Commit.

La narrazione che gira è più o meno questa: “è un GPT-qualcosa più forte nel codice, più bravo con gli agenti, un po’ più economico. Fine.”

Solo che… no. La cosa è un po’ diversa.

Se guardi bene, il lancio di Opus 4.5 non è solo un upgrade di modello.

costa un po’ meno dei modelli precedenti ($5/milione input token e $25/milione output, con un taglio di prezzo di circa il 66%),
consuma meno token
e vola sui benchmark.

Facciamo un passo indietro, così non sembra solo l’ennesimo comunicato stampa in salsa hype.

Flashback velocissimo: nell’arco di due settimane abbiamo visto GPT-5.1, Grok 4.1, Gemini 3 Pro e ora Claude Opus 4.5.

Ormai è meteorologia: “oggi pioverà un nuovo modello”.

Perché succede?

Perché l’accelerazione è diventata ricorsiva.

In che senso “ricorsiva”?

L’AI accelera lo sviluppo dell’AI stesso: la ricerca è accelerata dall’AI, che è accelerata dalla ricerca, e così via…

Oggi i ricercatori non sono solo “più bravi”, sono moltiplicati dagli assistenti AI.

È la prima volta nella storia della tecnologia che lo strumento alimenta il suo stesso ciclo evolutivo.

Opus 4.5 è un prodotto tipico di questo nuovo ciclo: non è solo migliore, ma è ottimizzato per essere un moltiplicatore di produttività.

E non potendo competere sulla multimodalità, Anthropic ha scelto una strategia molto precisa: coding e agenti.

Per darti un’idea, Anthropic ha dato a Opus lo stesso esame tecnico che usa per selezionare ingegneri di performance engineering.

Risultato: Opus 4.5 ha preso più punti di qualsiasi candidato umano che abbia fatto quel test.

E infatti il modello performa bene

su benchmark come SWE-Bench, dove schiaccia la concorrenza,
e su test multilingue di software engineering, dove guida in quasi tutti i linguaggi

Questo non sostituisce i developer, ma sposta la linea del “chi è competitivo contro cosa”.

Ovviamente mancano soft-skill, relazioni umane, lavoro di squadra, responsabilità, contesto aziendale, intuizione e autonomia.

Però a livello di skill tecniche pure, il sorpasso su una fascia di professionisti è qui.

Lato agenti, invece, Opus 4.5 è stato addestrato con un focus molto esplicito su:

uso del computer,
task lunghi e multi-step,
coordinamento di sub-agenti.

Claude Code ha una modalità “plan mode” che ti propone un piano dettagliato, tu lo modifichi, poi lui esegue.

Per farti capire, questo è Opus 4.5 su Antigravity - l’IDE agentico che ha rilasciato Google due settimane fa.

E nelle integrazioni con Excel, il browser o il desktop, Opus gestisce file, formule e analisi dati con meno errori inutili o passaggi strani e più coerenza logica nelle operazioni che esegue.

In pratica stiamo andando verso modelli che non rispondono a una domanda, ma prendono in gestione un intero workflow.

Sul fronte efficienza buone notizie:

meno token per fare la stessa cosa,
un parametro “effort” che ti permette di decidere quanta potenza vuoi,
contesto gestito meglio,
e prezzi più ragionevoli (ma comunque premium).

È il primo Opus che le aziende normali possono usare senza indebitarsi con la banca.

Ma c’è anche la parte scomoda: la sicurezza.

E qui passiamo dal “wow” al “ehi, un attimo”.

Anthropic lo definisce “il modello più allineato che abbiamo mai rilasciato” e “il modello di frontiera meglio allineato di qualsiasi sviluppatore”.

In breve, Opus 4.5 ha meno comportamenti preoccupanti rispetto a GPT-5.1 Pro e Gemini 3 Pro, e resiste meglio a prompt injection, jailbreak, ecc.

A livello strategico, Anthropic sta diversificando l’hardware come pochi: usa TPU di Google, Trainium di AWS, GPU di Nvidia.

L’idea è chiara: non vuoi essere ostaggio di un solo fornitore (indovina chi) in un mercato dove la potenza di calcolo è il nuovo petrolio.

E visto che Gemini 3 è stato addestrato sulle TPU di Google, è probabile che altri player inizieranno a copiare questo modello ibrido.

È anche un segnale per gli altri:

se Google dimostra che con le proprie TPU può addestrare modelli competitivi,
e Anthropic dimostra che puoi stare in cima ai benchmark con un mix di TPU + GPU + Trainium,

allora la narrativa “tutto passa da Nvidia” inizia a incrinarsi.

Per te che usi i modelli, oggi cambia poco.

Per le big tech e per chi pianifica infrastrutture AI a 5-10 anni, cambia molto.

Insomma: Opus 4.5 è davvero il migliore?

Dipende da cosa ti interessa.

Se sei un dev, Opus 4.5 è realisticamente il miglior “collega non umano” oggi disponibile per debugging, refactoring, feature complesse.
Se sei un’azienda, diventa credibile l’idea di spostare alcuni workflow (modelli finanziari, pipeline dati, test, analisi, documentazione) su un layer di agenti Opus.

Basta tenere a mente che la parte più fragile del sistema, oggi, non è la potenza del modello… ma come viene indirizzato, protetto e supervisionato.

Giacomo Ciarlini - CIO - Datapizza

Simone Conversano - AI Adoption Specialist - Datapizza

09/12/2025Claude Opus 4.5 e lo stato della GenAI