26/11/2025Gemini 3: tutte le novità
Pochi giorni fa Google ha rilasciato finalmente Gemini 3. E devo assolutamente parlartene, perché la sostanza è parecchia!
La narrativa che sta girando ovunque è più o meno questa:
“Google finalmente è tornata in partita, ha superato tutti i benchmark, multimodalità reale, ragionamento avanzato… insomma: la svolta”.
Ma facciamo un passo indietro…
Se ti ricordi, solo un anno e mezzo fa Google arrancava dietro OpenAI.
Gemini 1 era promettente ma acerbo e pieno di fragilità.
Gemini 2 ha messo qualche toppa, ma era ancora poco solido e poco sexy.
E le demo live… lasciamo perdere.
E poi, a sorpresa, nel 2024 Google ha tentato il sorpasso con Gemini 2.5 Pro, che ha iniziato a vincere i benchmark uno dopo l’altro (LMArena in testa).
Il vero problema era un altro: l’immagine pubblica di un’azienda che, mentre è leader di Internet, insegue le “start-up” (se OpenAI e Anthropic sono considerabili tali) sulla GenAI.
Con Gemini 3, invece, Google sembra aver trovato un tono più maturo: meno slogan, più roba che funziona.
Ok, ma cos’ha di speciale Gemini 3
Intanto supera Gemini 2.5 Pro ovunque: ragionamento, multimodalità, coding, funzionalità agentiche e finestra di contesto (1 milione di token, cioè tipo una Bibbia e mezza).
Parliamo del modello di ragionamento e di coding più potente sul mercato (o, almeno, il miglior modello mai rilasciato da Google).
I benchmark sono effettivamente notevoli:
- 1501 Elo su LMArena: primo posto.
- GPQA Diamond 91,9%: livello PhD, prendendo con le pinze questa analogia.
- MathArena e MMMU: performance allo stato dell’arte in campo matematico.
- WebDev Arena 1487 Elo: il “vibe coding” vero, piaccia o no.
- Multimodalità finalmente convincente.
Su carta è un upgrade consistente - e i nostri test lo confermano!
Ma c’è altro?
Cavolo se c’è altro…
Google ha annunciato anche Gemini Deep Think, una modalità di ragionamento agentica in cui più istanze di Gemini 3 si confrontano per risolvere problemi ancora più complessi.
Non so se ricordi, ma è il famoso modello che aveva vinto la medaglia d’oro alle Olimpiadi della Matematica di quest’anno!
Ora, capiamoci, i modelli di linguaggio continuano a fare quello che fanno: predizioni di token, non magia nera.
Però qui la differenza qualitativa si sente, e i numeri parlano chiaro:
- Humanity’s Last Exam 41% (uno dei benchmark più difficili pensati appositamente per mettere in difficoltà i modelli di ragionamento)
- ARC-AGI 45,1% con code execution (il benchmark per misurare l’intelligenza generale con problemi di tipo visuale)
- GPQA Diamond 93,8% (un benchmark di problemi scientifici e matematici)
Se è davvero robusto come dicono, qui si apre un nuovo fronte: il reasoning competitivo non è più un vantaggio esclusivo di OpenAI o DeepSeek.
Mentre Gemini 3 Pro è già disponibile a tutti, purtroppo DeepThink è ancora in fase di testing a un ristretto gruppo di utenti.
Passando avanti, questa te la dico al volo: Gemini arriva finalmente anche su Android Auto.
Ma non è finita qui…

La bomba vera è arrivata quando Google ha presentato Antigravity, una piattaforma di sviluppo agentica che segue la stessa filosofia di Cursor, ma integrata nativamente con l’ecosistema Google.
In pratica è l’IDE definitiva per il vibe coding:
- puoi scrivere codice assistito dagli agenti integrati
- puoi farlo fare a loro: due agenti, uno scrive e l’altro orchestra e pianifica lo sviluppo
- e, oltre a Gemini, puoi usare anche i modelli Claude e gpt-oss!
Gli agenti possono completare task interi da soli, ma soprattutto pianificare attività complesse end-to-end, scrivere codice, validarlo, debuggarlo, eseguirlo, usare editor, terminale e browser integrati.
È il tipo di tool che in mano a un team esperto cambia il modo di lavorare.
Gli agenti non sono pensati come “app” ma come strumenti che vivono dentro Workspace, Search, Chrome, Ads…
L’obiettivo di Google non è “vincere la benchmark war”, ma occupare l’intero stack del lavoro avanzato, dai flussi dei knowledge worker alle pipeline degli sviluppatori.
E per farlo servono due cose che non tutti stanno guardando:
- Modelli più affidabili, meno propensi ad assecondare l’utente (e Gemini 3 migliora molto qui).
- Professionisti senior che sappiano integrare agenti, trasformare processi aziendali e guidare adozioni complesse.
Il futuro non sarà “chi sa usare le AI”, ma “chi sa orchestrare sistemi autonomi dentro organizzazioni reali”.
Ed è esattamente qui che la partita si sta spostando.
Insomma, dopo anni di caos, Google sembra aver trovato un allineamento interno che non vedevamo da tempo.
Ma ha ancora un problema di storytelling.
Nonostante tutta la tecnologia, manca l’effetto wow che ha accompagnato ChatGPT, Sora o OpenAI o1 e o3.
E finché non riescono a trasformare “innovazione” in “desiderio”, continueranno a sembrare quelli che devono dimostrare qualcosa.
Perlomeno, Google ci tiene a posizionarsi come l’azienda più attenta e responsabile del settore:
- Più resistenza alla prompt injection.
- Valutazioni esterne (UK AISI, Apollo, Vaultis, Dreadnode).
- SynthID ovunque, sia invisibile sia visibile.
In pratica: watermark obbligatorio per quasi tutti, watermark disattivato solo per professionisti e aziende.
Una policy che farà discutere, ma coerente con la strategia “safe-by-default”.
Per quelli che per anni si sono chiesti “chi sarà la Google della GenAI?”, la risposta ad oggi è sempre più chiara: sarà Google.
Giacomo Ciarlini - CIO - Datapizza
Simone Conversano - AI Adoption Specialist - Datapizza