09/12/2025Claude Opus 4.5 e lo stato della GenAI

Neanche il tempo di abituarci a Gemini 3 Pro, che Anthropic ha rilanciato con un nuovo modello di Claude… e cavolo se c’è roba da dire!

Ne abbiamo parlato nell’ultimo episodio di Algoritmi, ma volevo prendermi un po’ di spazio per raccontarlo meglio qui.

Avrai visto, infatti, che è uscito Claude Opus 4.5, il nuovo modello grande della scuderia di Anthropic.

Il tutto a distanza di 4 giorni dal lancio di Google: Gemini 3 è uscito il 20 novembre e Opus 4.5 il 24.

La competizione ormai è così: cronometro alla mano e modelli che restano in cima quanto una storia su Instagram.

Alla faccia di chi dice che l’AI ha smesso di innovare e crescere!

Claude Opus 4.5 è quindi il nuovo “campione del mondo” di turno.

Almeno fino a lunedì prossimo, immagino.

Non è più una gara a “chi innova ogni anno”, ma a chi innova ogni episodio di Commit.

La narrazione che gira è più o meno questa: “è un GPT-qualcosa più forte nel codice, più bravo con gli agenti, un po’ più economico. Fine.”

Solo che… no. La cosa è un po’ diversa.

Se guardi bene, il lancio di Opus 4.5 non è solo un upgrade di modello.

  • costa un po’ meno dei modelli precedenti ($5/milione input token e $25/milione output, con un taglio di prezzo di circa il 66%),
  • consuma meno token
  • e vola sui benchmark.

Facciamo un passo indietro, così non sembra solo l’ennesimo comunicato stampa in salsa hype.

Flashback velocissimo: nell’arco di due settimane abbiamo visto GPT-5.1, Grok 4.1, Gemini 3 Pro e ora Claude Opus 4.5.

Ormai è meteorologia: “oggi pioverà un nuovo modello”.

Perché succede?

Perché l’accelerazione è diventata ricorsiva.

In che senso “ricorsiva”?

L’AI accelera lo sviluppo dell’AI stesso: la ricerca è accelerata dall’AI, che è accelerata dalla ricerca, e così via…

Oggi i ricercatori non sono solo “più bravi”, sono moltiplicati dagli assistenti AI.

È la prima volta nella storia della tecnologia che lo strumento alimenta il suo stesso ciclo evolutivo.

Opus 4.5 è un prodotto tipico di questo nuovo ciclo: non è solo migliore, ma è ottimizzato per essere un moltiplicatore di produttività.

E non potendo competere sulla multimodalità, Anthropic ha scelto una strategia molto precisa: coding e agenti.

Per darti un’idea, Anthropic ha dato a Opus lo stesso esame tecnico che usa per selezionare ingegneri di performance engineering.

Risultato: Opus 4.5 ha preso più punti di qualsiasi candidato umano che abbia fatto quel test.

E infatti il modello performa bene

  • su benchmark come SWE-Bench, dove schiaccia la concorrenza,
  • e su test multilingue di software engineering, dove guida in quasi tutti i linguaggi

Questo non sostituisce i developer, ma sposta la linea del “chi è competitivo contro cosa”.

Ovviamente mancano soft-skill, relazioni umane, lavoro di squadra, responsabilità, contesto aziendale, intuizione e autonomia.

Però a livello di skill tecniche pure, il sorpasso su una fascia di professionisti è qui.

Lato agenti, invece, Opus 4.5 è stato addestrato con un focus molto esplicito su:

  • uso del computer,
  • task lunghi e multi-step,
  • coordinamento di sub-agenti.

Claude Code ha una modalità “plan mode” che ti propone un piano dettagliato, tu lo modifichi, poi lui esegue.

Per farti capire, questo è Opus 4.5 su Antigravity - l’IDE agentico che ha rilasciato Google due settimane fa.

E nelle integrazioni con Excel, il browser o il desktop, Opus gestisce file, formule e analisi dati con meno errori inutili o passaggi strani e più coerenza logica nelle operazioni che esegue.

In pratica stiamo andando verso modelli che non rispondono a una domanda, ma prendono in gestione un intero workflow.

Sul fronte efficienza buone notizie:

  • meno token per fare la stessa cosa,
  • un parametro “effort” che ti permette di decidere quanta potenza vuoi,
  • contesto gestito meglio,
  • e prezzi più ragionevoli (ma comunque premium).

È il primo Opus che le aziende normali possono usare senza indebitarsi con la banca.

Ma c’è anche la parte scomoda: la sicurezza.

E qui passiamo dal “wow” al “ehi, un attimo”.

Anthropic lo definisce “il modello più allineato che abbiamo mai rilasciato” e “il modello di frontiera meglio allineato di qualsiasi sviluppatore”.

In breve, Opus 4.5 ha meno comportamenti preoccupanti rispetto a GPT-5.1 Pro e Gemini 3 Pro, e resiste meglio a prompt injection, jailbreak, ecc.

A livello strategico, Anthropic sta diversificando l’hardware come pochi: usa TPU di Google, Trainium di AWS, GPU di Nvidia.

L’idea è chiara: non vuoi essere ostaggio di un solo fornitore (indovina chi) in un mercato dove la potenza di calcolo è il nuovo petrolio.

E visto che Gemini 3 è stato addestrato sulle TPU di Google, è probabile che altri player inizieranno a copiare questo modello ibrido.

È anche un segnale per gli altri:

  • se Google dimostra che con le proprie TPU può addestrare modelli competitivi,
  • e Anthropic dimostra che puoi stare in cima ai benchmark con un mix di TPU + GPU + Trainium,

allora la narrativa “tutto passa da Nvidia” inizia a incrinarsi.

Per te che usi i modelli, oggi cambia poco.

Per le big tech e per chi pianifica infrastrutture AI a 5-10 anni, cambia molto.

Insomma: Opus 4.5 è davvero il migliore?

Dipende da cosa ti interessa.

  • Se sei un dev, Opus 4.5 è realisticamente il miglior “collega non umano” oggi disponibile per debugging, refactoring, feature complesse.
  • Se sei un’azienda, diventa credibile l’idea di spostare alcuni workflow (modelli finanziari, pipeline dati, test, analisi, documentazione) su un layer di agenti Opus.

Basta tenere a mente che la parte più fragile del sistema, oggi, non è la potenza del modello… ma come viene indirizzato, protetto e supervisionato.


Giacomo Ciarlini - CIO - Datapizza

Simone Conversano - AI Adoption Specialist - Datapizza