Listopad roku 2025 se do historie vývoje umělé inteligence zapíše jako chvíle, kdy — alespoň dočasně — padly obavy z technologické stagnace velkých jazykových modelů, které stojí za současnými „umělými inteligencemi“.

Nezávislý hodnoticí portál LMSYS Chatbot Arena, který slouží jako respektovaný barometr skutečných schopností AI, nabídl v polovině měsíce velmi nezvyklou podívanou. V rozmezí pouhých 24 hodin zde došlo ke dvojímu přepsání historických tabulek. Společnost xAI nejprve uvedla model Grok 4.1, který v slepých testech uživatelů překonal dosavadní lídry trhu a s výrazným náskokem obsadil první dvě příčky žebříčku. Rekord však měl jen jepičí život. V tentýž den totiž společnost Google vydala svůj model Gemini 3.0.
V kategorii textových modelů bez rozlišení specializace dosáhla verze Gemini 3 Pro skóre Elo 1 501 bodů, čímž jako první v historii překonala symbolickou hranici patnácti set bodů a odsunula Grok 4.1 na druhé místo.
Dodejme, že žebříček LMSYS je v odborné komunitě ceněn více než syntetické benchmarky, protože je založen na slepém hodnocení reálných uživatelů. Ti porovnávají dva anonymní výstupy na stejný dotaz a teprve po volbě vítěze se dozvědí, který model odpověď generoval. Tento mechanismus eliminuje možnost, že model je natrénovaný na konkrétní testovací data.
Nástup Gemini 3.0 není pouze dalším mírným vylepšením stávajícího modelu, představuje výrazný signál pro celý technologický sektor. Google, který v předchozích fázích čelil kritice za pomalejší reakce na produkty konkurence, nyní demonstruje schopnost udávat tempo a definovat nový standard výkonu.
V přímém srovnání na platformě LMArena překonává Gemini 3.0 nejen Grok 4.1, ale s výrazným odstupem i starší verzi Gemini 2.5 Pro a modely řady Claude od společnosti Anthropic. Optimisté ve vývoji vidí potvrzení toho, že navzdory obavám vývoj na špičce oboru nezpomaluje, ale naopak akceleruje.
Konec mýtu o „zdi“
V letošním roce už totiž v diskusích o budoucnosti vývoje AI zaznívala hypotéza o takzvané „zdi škálování“ (scaling wall). Ta vycházela z předpokladu, že pouhé navyšování výpočetního výkonu a objemu tréninkových dat již nevede k proporcionálnímu zlepšení schopností modelů, a že se AI blíží limitům současné architektury transformátorů.
Vydání Gemini 3.0 a související data se ji ovšem zdají vyvracet. Podle analýz Tomasze Tunguze z Theory Ventures má model Gemini 3.0 pravděpodobně stejný počet parametrů jako jeho předchůdce Gemini 2.5, tedy odhadem jeden bilion, přesto dosahuje řádově lepších výsledků.
Klíč k tomuto posunu neleží v extenzivním růstu, nýbrž v intenzivním vylepšení tréninkových procesů.
A potvrdily to i hlasy z firmy, například Oriol Vinyals, viceprezident výzkumu v Google DeepMind: „Zlepšení není dosaženo hrubou silou, ale efektivnějším využitím výpočetních operací (FLOPs), ať už na čipech TPU, nebo Nvidia Blackwell.“
Různými způsoby
Z architektonického hlediska přináší Gemini 3.0 zásadní inovaci v podobě „skutečné multimodality“ (true multimodality). Zatímco dřívější systémy, jako například původní verze GPT-4, často fungovaly jako soustava specializovaných modelů pro text a obraz propojených dohromady, Gemini 3.0 zpracovává text, obraz, audio, video i kód stejným „mozkem“ (v rámci jediného transformer stacku).
Tento přístup umožňuje modelu provádět uvažování nad různými typy dat na úrovni, která byla dříve nedosažitelná. Model dokáže například analyzovat video a vysvětlit v něm obsažené vědecké koncepty, nebo interpretovat ruční nákres a vygenerovat podle něj funkční kód, aniž by musel přepínat mezi různými moduly.
Dalším zajímavým milníkem pro Google je implementace režimu „hlubokého myšlení“ (deep think). Tento mód využívá techniky posilovaného učení k tomu, aby modelu umožnil věnovat více výpočetního času komplexním problémům. V praxi to znamená simulaci lidského uvažování, kdy systém před vygenerováním odpovědi interně testuje různé strategie řešení.
Dopad této technologie je nejlépe viditelný na benchmarku ARC-AGI-2, který testuje schopnost řešit nové, neznámé vizuální hádanky. Jde tedy o úkoly, které nelze vyřešit pouhým memorováním tréninkových dat. Zatímco Gemini 2.5 Pro dosahoval v tomto testu úspěšnosti 4,9 %, Gemini 3 Pro poskočil na 31,1 %. S aktivovaným režimem Deep Think se skóre vyšplhalo až na 45,1 %, což představuje radikální posun ve schopnosti generalizace a adaptace na nové úkoly.
V oblasti matematiky a programování jsou výsledky neméně přesvědčivé. V benchmarku MathArena Apex dosahuje Gemini 3 Pro skóre 23,4 %, zatímco konkurence v podobě Claude Sonnet 4.5 či GPT-5.1 se pohybuje okolo hodnot 1,0 % až 1,6 %. Tento propastný rozdíl naznačuje, že Googlu se v rámci architektury modelu podařilo vyřešit některé fundamentální limitace v logickém uvažování, které dosud brzdily spolehlivé nasazení AI v technických oborech.
K vizuálnímu uvažování a agentům
S příchodem modelů jako Gemini 3.0 se mění i samotná definice toho, jak s umělou inteligencí pracujeme. Profesor Ethan Mollick z Wharton School, který dlouhodobě analyzuje dopady AI na práci, popisuje tento posun jako přechod od éry chatbotů k éře digitálních spolupracovníků či agentů.
Zatímco v roce 2022 nás ohromilo, že stroj dokáže napsat báseň, v roce 2025 očekáváme, že bude autonomně vykonávat komplexní pracovní úkoly. Interakce se posouvá od „opravování chyb po AI“ k „řízení práce AI“.
Tento trend je jasně patrný na nové vývojářské platformě Google Antigravity, která byla uvedena společně s modelem Gemini 3. Tento nástroj umožňuje agentům přímý přístup k editoru kódu, terminálu a prohlížeči. Nejde již o to, že model vygeneruje kus kódu, který musí programátor zkopírovat a otestovat. Agent v prostředí Antigravity kód sám napíše, spustí, ověří jeho funkčnost a v případě chyby provede korekci.
Mollick tento koncept ilustruje na příkladu, kdy nechal agenty analyzovat archiv svých newsletterů. AI samostatně naplánovala postup, provedla webový průzkum, vytvořila webovou stránku se shrnutím predikcí, ověřila její funkčnost v prohlížeči a výsledek předložila ke schválení.
Fascinující demonstrací pokročilého vizuálního uvažování je experiment, při kterém Mollick nahrál do Gemini 3.0 pouze screenshot jednoduché kresby panáčka ve sněhu a zadal: „Vytvoř jednoduchou prohlížečovou hru s prvky z tohoto obrázku.“
Model nezačal popisovat, co na obrázku vidí. Místo toho pochopil vizuální sémantiku scény (sníh, postava) a přímo vygeneroval funkční kód hratelné aplikace nazvané Snowy’s Day, kde hráč ovládá postavu chytající padající sníh. Z inženýrského pohledu je toto klíčové: AI prokázala schopnost transformovat vizuální vstup přímo do funkční logiky bez nutnosti detailního textového popisu ze strany uživatele.
Schopnost dlouhodobého plánování, která byla dříve slabinou velkých modelů, se nyní stává jejich předností. Benchmark Vending-Bench 2, který simuluje správu prodejního automatu po dobu jednoho roku, testuje konzistenci rozhodování v čase. Gemini 3 Pro v tomto testu dosáhl průměrného čistého jmění 5 478 USD, zatímco konkurenční modely skončily s výrazně horšími výsledky (Claude Sonnet 4.5 na 3 838 USD, GPT-5.1 na 1 473 USD). To naznačuje, že nové modely jsou schopny udržet kontext a strategii i v delších časových horizontech, což pro autonomní agenty v podnikovém prostředí bude nejspíše nezbytná schopnost.
Google Antigravity a podobné nástroje (jako Claude Code nebo OpenAI Codex) mění programování z psaní syntaxe na „řízení“. Jak upozorňuje Mollick, schopnost kódovat není v tomto kontextu důležitá jen pro programátory. Kód je univerzálním rozhraním pro ovládání čehokoliv na počítači. Pokud AI umí psát a spouštět kód, dokáže ovládat libovolný software, tvořit dashboardy, analyzovat soubory nebo spravovat webové stránky.
Tím se z těchto modelů stávají univerzální nástroje produktivity, kde člověk figuruje v roli manažera, který schvaluje strategická rozhodnutí, zatímco exekutivu přebírá stroj. Mollick popisuje práci s těmito agenty jako spolupráci s týmem, kde jeden agent pracuje a další čeká na schválení kroku, přičemž komunikace probíhá v přirozeném jazyce, nikoliv v kódu. Je to možná přehnaně optimistický scénář a lze si představit i jiné, ale zdá se, že minimálně z technického hlediska se k němu skutečně neustále přibližujeme.
Válka o nejlevnější token a nové monopoly
Rozmach modelu Gemini 3.0 nelze oddělit od ekonomické reality, která dnes formuje celý technologický sektor. Jak upozorňuje investor Gavin Baker, v komoditizovaném trhu s umělou inteligencí nakonec nezvítězí ten, kdo vyvine nejsofistikovanější model v laboratorních podmínkách, ale ten, kdo dokáže vyprodukovat takzvaný „token“ — základní jednotku výstupu AI — s nejnižšími náklady. V tomto ohledu se Google ukazuje být efektivní.
Nejjasnějším důkazem sebevědomí Googlu v oblasti nákladové optimalizace je okamžité nasazení modelu Gemini 3.0 přímo do jeho klíčového produktu — vyhledávání Google (AI Overviews). Implementovat takto výpočetně náročný model do služby, kterou denně využívají miliardy lidí, by bez radikálního snížení nákladů na inferenci (provoz modelu) představovalo ekonomickou sebevraždu. Tento krok signalizuje, že Google nalezl cestu, jak masivně škálovat nejvýkonnější modely, aniž by si zničil marže.
Pozadí tohoto souboje tvoří hardware. Finanční výsledky společnosti Nvidia a poptávka po její nové generaci čipů Blackwell naznačují, že infrastrukturní cyklus je teprve na začátku. Nové čipy slibují až pětinásobné zrychlení tréninku oproti předchozí generaci, což dává tušit, že Gemini 3.0 je pouze předzvěstí dalšího skoku ve výkonnosti očekávaného v roce 2026.
Obrovské nároky na kapitál, energii a schopnost postavit a chladit gigantické výpočetní klastry však zároveň vedou ke konsolidaci trhu. Formuje se zde úzký oligopol čtyř klíčových hráčů — Googlu, OpenAI, Anthropic a xAI — kteří disponují zdroji potřebnými k udržení tempa na absolutní špičce. Pro menší hráče se bariéra vstupu do oboru stala nejspíše prakticky nepřekonatelnou, pochopitelně v případě, že je nepodpoří například některý z velkých států světa. A ani mezi nimi dostatečně silných „hráčů“ není mnoho.