Na první pohled se může zdát, že se v oblasti umělé inteligence od uvedení ChatGPT v listopadu 2022 nic zásadního nezměnilo. Přibylo sice chatbotů (Gemini, Claude, Grok, Copilot, Perplexity…), ale všechny se navenek nápadně podobají tomu, s čím tehdy přišla OpenAI : textové okno, do kterého uživatel napíše dotaz, a vzápětí dostane odpověď.

Jenže právě vizuální stálost je zavádějící. Rozhraní chatbotů zůstalo v zásadě totéž: textové okno a odpověď, ve skrytu za tím se však odehrály změny, které jsou svým rozsahem srovnatelné spíš s přestavbou celého domu než s výměnou nábytku. Velké jazykové modely pohánějící dnešní chatboty se od roku 2022 posunuly na kvalitativně zcela odlišnou úroveň.
Většina uživatelů to ale nemá jak postřehnout, protože jejich každodenní zkušenost — položit dotaz, přečíst odpověď — vypadá pořád stejně. I proto se o schopnostech umělé inteligence tak obtížně vede věcná debata.
Jak změřit pokrok
Měřit inteligenci není jednoduché ani u lidí. U strojů jsou výsledky testů ještě hůře uchopitelné, a to mimo jiné proto, že tradiční měřítka rychle narážejí na strop. V posledních dvou letech se to stalo opakovaně: benchmarky jako MMLU (test obecných znalostí na úrovni univerzitního studia) nebo HumanEval (test programátorských schopností) přestaly rozlišovat mezi modely, protože špičkové systémy v nich dosahují skóre nad 90 %.
Když AI získá v testu 60 bodů v roce 2022 a 95 bodů v roce 2025, je zřejmé, že se zlepšila, ale není jasné o kolik — a hlavně co to znamená pro praxi. Výzkumníci proto neustále vymýšlejí nové, sofistikovanější testy, které ale vzápětí čeká stejný osud: za několik měsíců se opět nasytí a přestanou rozlišovat.
Zajímavý přístup k tomuto problému zvolila nezisková výzkumná organizace METR (Model Evaluation & Threat Research). Její výzkumníci nejprve zadali lidem (obvykle odborníkům v nějakém oboru, typicky v informatice) různě obtížné úkoly a měřili, jak dlouho jim jejich splnění trvalo. Dohledat odpověď na jednoduchou otázku na Wikipedii zabere zhruba minutu. Naprogramovat jednoduchý skript v Pythonu trvá asi hodinu. Napsat složitý nástroj pro optimalizaci aplikace může zabrat osm hodin i více.
Tytéž úkoly pak dostaly k vyřešení i AI modely. Pokud daný model splnil úkol alespoň v polovině případů, jeho výkon se označil za ekvivalent lidského snažení pro daný „časový horizont“. METR tím přeložila obtížně srovnatelné výsledky benchmarků do intuitivně srozumitelné jednotky: času, který by nad stejným problémem strávil zkušený člověk.
Od minuty ke 12 hodinám
Výsledky jsou pozoruhodné. V roce 2022 zvládla nejlepší dostupná umělá inteligence (tehdy GPT-3.5) úkoly, které člověku trvají do jedné minuty. Na jaře 2025 dominoval žebříčku model Sonnet 3.7 s ekvivalentem přibližně jedné hodiny lidského soustředění. A v únoru 2026, o necelý rok později, se horizont posunul na 12 hodin.
Výzkumníci z METR si všímají, že časový horizont toho, co modely dokážou zvládnout s 50% úspěšností, roste exponenciálně přinejmenším od roku 2019. Konkrétně se zdvojnásobuje zhruba každých sedm měsíců a v poslední době se tempo spíše zrychluje. Organizátoři testů kvůli tomu museli navýšit počet dlouhých a obtížných úkolů, aby vůbec dokázali zachytit, jak razantně se schopnosti modelů zlepšily.
Z toho plyne prostý, ale důležitý důsledek: kdokoli si udělal o schopnostech umělé inteligence představu v roce 2023 nebo 2024, bude mít tendenci řádově podceňovat, čeho jsou dnešní systémy schopné. V roce 2023 chatbot napsal zdvořilý e-mail s omluvou za zpoždění projektu. V roce 2025 naprogramuje funkční aplikaci pro týmovou spolupráci.
Agenti a smyčky
Exponenciální křivka se vyznačuje tím, že v kterémkoli momentu vypadá, jako by se právě nedávno prudce vzepjala. Za poslední skok — ze čtyřhodinových úkolů v létě 2025 na dvanáctihodinové v únoru 2026 — ale paradoxně nemůže jen zlepšení samotných modelů. Klíčovou roli sehrál způsob, jakým se modely zapojují do práce.
V branži se tomu říká „lešení“ (scaffolding) nebo „postroj“ (harness). Jde o infrastrukturu kolem modelu, která mu umožňuje pracovat na úkolu déle, systematičtěji a s menší mírou chyb. V podstatě se naplnila predikce ze začátku roku 2025: namísto chatbotů, s nimiž uživatel vede jednorázovou konverzaci, nastupují takzvaní AI agenti.
Princip je následující: uživatel zadá úkol, model navrhne řešení a pustí se do práce. Když udělá chybu, což se stává často, má k dispozici nástroje, pomocí kterých si výsledek ověří, chybu identifikuje a opraví. Může vyzkoušet desítky alternativních postupů, než dospěje k výsledku.
Není náhodou, že nejviditelnějšího pokroku si v posledním půlroce všimli právě programátoři. Agentní nástroje jako Claude Code totiž umožňují uzavřít model do produktivní smyčky: zadání — pokus o řešení — ověření — oprava — další pokus.
„Ještě nedávno jste tenhle pojem vůbec nepotřebovali,“ poznamenává Ethan Mollick, profesor inovací na Pensylvánské univerzitě. „Hlavní produkt byl model. Role „postroje“ kolem něj byla minimální. Ale nyní opravdu záleží na tom, do čeho model zapřáhnete.“
V praxi to vypadá tak, že uživatel napíše nebo nadiktuje zadání, odpoví na několik upřesňujících otázek a systém se pustí do práce. Nejedná se o jednu konverzaci, která by probíhala rychlostí lidské komunikace. Člověk může mezitím odejít na procházku, zatímco skupina agentů a dílčích podagentů bude na úkolu pracovat. Každý z nich může řešit jinou část problému, volat si různé nástroje, kontrolovat výstupy těch ostatních.
Výsledkem mohou být stovky stránek konverzace, které nejsou určeny lidským očím — slouží výhradně jako komunikační médium mezi agenty. Člověk se o průběh práce vůbec nemusí zajímat. Až je hotovo, přijde mu oznámení na telefon s výsledkem.
Třetí exponenciála: čas na přemýšlení
Vedle růstu schopností a zlevňování provozu se v posledním roce prosadil ještě třetí trend, který exponenciální křivku dále posouvá. Modely se naučily „přemýšlet“ před tím, než odpoví.
Technicky se tomu říká „prodloužená inference“: model dostane otázku a namísto okamžité odpovědi nejprve vygeneruje vnitřní řetězec úvah, ve kterém problém postupně rozloží, zváží různé přístupy a teprve poté formuluje odpověď. OpenAI tento princip popularizovala modely řady o1 a o3, Anthropic svými reasoning módy modelů Claude. Výsledek je měřitelný: čím déle model „přemýšlí“, tím přesnější a sofistikovanější je jeho výstup, zejména u úloh vyžadujících vícekrokové uvažování, matematiku nebo strategické plánování. Na některých matematických soutěžních úlohách, které ještě před dvěma lety žádný model nevyřešil, dnes dosahují reasoning modely úspěšnosti srovnatelné s nejlepšími lidskými řešiteli.
Vzniká tak v podstatě nový kompromis: rychlost za kvalitu. A protože náklady na výpočetní výkon klesají (k tomu se ještě dostaneme), je možné si delší přemýšlení dovolit čím dál levněji. Prodloužená inference tak představuje třetí exponenciálně se měnící proměnnou vedle samotného výkonu modelů a ceny za jejich provoz.
Cena mění pravidla
Produkce velkého množství textu by byla ještě nedávno neúnosně drahá. Hrubý odhad ukazuje, že naprogramování menší aplikace pomocí agentního nástroje spotřebuje přibližně sto tisíc takzvaných tokenů. V angličtině to odpovídá zhruba 75 000 slovům, tedy přibližně rozsahu jedné knihy z řady o Harrym Potterovi. Vyprodukovat tolik textu pomocí jazykového modelu by v roce 2023 stálo řádově 200 Kč. Dnes se cena za totéž množství snížila na přibližně 1 Kč.
Za tři roky se tedy cena posunula o dva řády dolů, ze stovek korun na jednotky. Pro běžného uživatele to na první pohled není patrné — měsíční předplatné za chatboty zůstává víceméně stejné. Na pozadí ale agenti při své práci spotřebují mnohem více textu než dříve: část padne na vyhledávání informací, část na koordinaci podagentů, část na ono zmíněné prodloužené přemýšlení. Celkový výsledek je, že za stejnou cenu uživatel dostane výrazně více práce.
Pokles cen má ale i strukturální důsledek. Úkol, za jehož automatizaci by firma v roce 2023 zaplatila na poplatcích za rozhraní desítky tisíc korun, dnes stojí stovky. Tím se mění kalkulace návratnosti pro mnohem širší okruh firem, vývojářů i jednotlivců. Malý softwarový tým, který by si ještě před dvěma lety nemohl dovolit experimentovat s AI agenty, dnes může nechat model pracovat na prototypu celé odpoledne za cenu jednoho oběda.
Umělá inteligence jako pracovní nástroj přestává být výsadou velkých technologických společností a postupně se stává dostupnou i středním a menším firmám, které nemají vlastní výzkumné oddělení ani rozpočet na cloudovou infrastrukturu v řádu milionů.
Křivka a realita
Z výčtu exponenciálních křivek by se mohlo zdát, že je umělá inteligence na pokraji toho, aby nahradila podstatnou část lidské práce. Data ale ukazují něco jiného.
Firma Anthropic analyzovala, jak se umělá inteligence reálně promítla do různých profesí. Ze zjištění vyplývá, že skutečné zapojení AI do praxe je zatím velmi nízké, a to i v oborech, kde je potenciál k automatizaci teoreticky vysoký — například u překladatelů nebo analytiků. Ačkoli některá data naznačují zpomalení nabírání juniorních pracovníků v určitých odvětvích, na míře nezaměstnanosti se umělá inteligence měřitelně neprojevila.
Podobné závěry potvrzují i analýzy týmů Scale Labs a Mercor, které sledují úspěšnost jazykových modelů při samostatném plnění reálných pracovních úkolů. Výsledky nejsou nijak oslnivé. Ostatně i onen dvanáctihodinový horizont v metrice METR byl dosažen za podmínky, že stačí 50% úspěšnost. Kdyby se požadavek zvýšil na 80 %, schopnosti nejlepšího modelu klesnou na ekvivalent jedné hodiny a deseti minut.
V praxi je umělá inteligence zkrátka stále příliš omezená. Tam, kde lze zadání přesně definovat a výsledek automaticky ověřit — typicky v programování —, dokážou agentní nástroje tuto omezenost kompenzovat. Program buď funguje, nebo nefunguje, a to je snadno ověřitelné.
Většina oborů ale takto jednoznačná není. Právní analýza, lékařská diagnóza, strategické rozhodování ve firmě — to vše jsou oblasti, kde kvalitu výstupu nelze mechanicky otestovat a kde chyba může mít závažné následky. Firemní struktury, pracovní postupy a rozhodovací procesy jsou navrženy pro lidi, což vytváří přirozenou setrvačnost, kterou samotné zlepšení modelů nedokáže překonat ze dne na den.
Co říká křivka o budoucnosti
Exponenciální křivky mají v technologickém světě jednu zrádnou vlastnost: působí neuvěřitelně, dokud trvají, ale historicky se vždy v určitém bodě zpomalily. Zákon klesajících výnosů, fyzikální limity výpočetního výkonu, nedostatek kvalitních trénovacích dat — to vše jsou faktory, které mohou tempo růstu zbrzdit.
U umělé inteligence ale zatím žádný z omezujících faktorů nepůsobí dost silně na to, aby křivku viditelně ohnul, a výzkumné laboratoře zatím nacházejí nové cesty, jak výkon zvyšovat. Propast mezi výkonem v laboratorních podmínkách a reálným dopadem na ekonomiku přitom zůstává široká.
Exponenciální růst benchmarkových výsledků je dobře zdokumentovaný a těžko zpochybnitelný. Pomalé pronikání do praxe je rovněž prokázané. Klíčová otázka proto nezní, zda se křivka schopností zpomalí, nýbrž co se stane v okamžiku, kdy se laboratorní výkon začne v širším měřítku přetavovat do reálného nasazení.
Technologická historie ukazuje, že k takovému přelomu obvykle dochází nikoliv postupně, ale v poměrně krátkých vlnách, jakmile infrastruktura, cena a důvěra uživatelů dosáhnou určité úrovně současně. A právě to je bod, ve kterém se exponenciála z grafu výzkumníků přesune do tabulek ekonomů.