Pokud byly uplynulé tři roky o tom, že jsme stroje učili mluvit, psát a malovat, v roce 2026 by se stroje měly naučit „inteligentně“ konat. Na právě skončeném veletrhu spotřební elektroniky CE S v Las Vegas dominoval nový fenomén, pro který se vžil termín „fyzická umělá inteligence“.
Algoritmy opouštějí bezpečné přítmí serveroven a prostřednictvím robotů, autonomních vozidel a chytrých zařízení vstupují do hmatatelné reality. [Ve skutečnosti tam sice byly mnohem dříve, než svět objevil ChatGPT a jemu podobné nástroje, ale nebudily takovou pozornost a pokorně se jim říkalo strojové učení, což více vystihuje realitu než zatím stále ještě dosti nadnesený termín umělá inteligence — pozn. red.]
Analýza trendů z Las Vegas však ukazuje, že naučit robota bezpečně složit prádlo je alespoň v současnosti technicky výrazně složitější úkol než vygenerovat sonet a cesta k praktickému využití bude dlážděna spíše postupnou evolucí než okamžitou revolucí. Ale zároveň se objevují nové nástroje, které naznačují, jak by se cíle mohlo dosáhnout.




Příklady využití „fyzické AI“ ve spolupráci společnosti Nvidia a jejích různých partnerů: Caterpillar (vlevo), LEM Surgical (vpravo nahoře), AgiBot (vlevo dole) a Franka Robotics © Nvidia
Fyzická AI na jevišti
Pojem fyzická AI se stal ústředním motivem letošního ročníku CES. Označuje fúzi současných generativních modelů se senzorikou a mechanickými systémy. Zatímco dosavadní softwarová inteligence dokázala automatizovat znalostní práci, příslibem té fyzické je automatizace práce manuální, a to nejen v kontrolovaném prostředí továren, ale i v chaotickém prostředí domácností, nemocnic či stavenišť.
Jensen Huang, generální ředitel společnosti Nvidia, tento posun neváhal označit za „ChatGPT moment“ pro robotiku, čímž naznačil, že stojíme na prahu podobně skokového rozšíření technologie, jaké jsme zažili u textových asistentů. Nepochybně jde alespoň do určité míry o marketingovou „nadsázku“ — do jaké míry, to je ovšem miliardová otázka.
Abychom pochopili, v čem je tento krok tak náročný, musíme se podívat pod „kapotu“ takových strojů. Fyzická AI potřebuje simultánně zvládat tři procesy: prvním je vnímání, kdy systém musí pomocí kamer, radarů, lidarů a mikrofonů vytvořit koherentní model okolního prostředí. Druhým je uvažování a predikce, tedy schopnost předvídat, co se stane v následující „sekundě“. Třetím a nejkritičtějším krokem je plánování a řízení pohybu, kdy se digitální záměr musí přetavit v bezpečný fyzický úkon.
Pokud se jazykový model splete a vytvoří smyšlený „fakt“, následky bývají nepříjemné, ale většinou nevedou k zásadní fyzické škodě či újmě. [I když reálný dosah dezinformací může být rovněž obrovský a k fyzickým důsledkům může vést rovněž — pozn. red.] Pokud se splete robot manipulující s těžkým břemenem nebo autonomní vůz na křižovatce, následky mohou být fatální.
Fyzická AI proto vyžaduje naprosto odlišnou architekturu než její konverzační protějšek. Zatímco ChatGPT běží v obřích datacentrech, mozek robota musí fungovat lokálně, přímo v zařízení [alespoň pro nejzákladnější funkce, především ty bezpečnostní, v řadě aplikací se ale i on často opírá o spolupráci s datovými centry, byť ne u funkcí, které vyžadují okamžitou reakci bezpodmínečně, tedy i při výpadku datového spojení — pozn. red.]. Spoléhat se na připojení k internetu je v kritických situacích nemožné kvůli odezvě sítě. Robotický pes nemůže čekat stovky milisekund na pokyn ze serveru, když zakopne a potřebuje vyrovnat rovnováhu. Těžiště vývoje se tak přesouvá k takzvanému „edge computingu“ — výkonným a energeticky úsporným systémům, které zvládnou náročné výpočty velmi rychle přímo na místě.
Rozvoj fyzické AI naráží na letitý problém robotiky známý jako Moravcův paradox. Ten konstatuje, že zatímco počítače rychle překonaly člověka v komplexních kognitivních úlohách či analýze dat, v základní motorice a orientaci ve fyzickém prostoru zaostávají. Například úkon jako utržení borůvky bez jejího poškození vyžaduje zpracování multimodální zpětné vazby v reálném čase a adaptaci na proměnlivé prostředí, jako je pohyb větve. Tradiční programování vyžadovalo pro podobné úkony přesné instrukce pro každý aktuátor v těle robota, což je při neustále se měnících podmínkách v praxi neudržitelné.
Posun od jednoúčelových strojů k univerzálním robotům umožňuje až integrace takzvaných základních modelů (foundation models) a behaviorálního klonování. Místo psaní statického kódu pro každý pohyb se nové systémy učí pozorováním lidské činnosti a její následnou nápodobou [nebo metodou pokus—omyl s následným vyhodnocováním nejlepšího výsledku — pozn. red.]. Tato schopnost generalizace, podpořená uvažovacími modely (reasoning models), umožňuje strojům rozložit složitý problém na dílčí sekvence a adaptovat se na situace, pro které nebyly explicitně naprogramovány.
Softwarové pokroky však narážejí na limity současného hardwaru. Kritickým bodem zůstává jemná motorika a hmatová zpětná vazba nutná pro manipulaci s nepravidelnými předměty. Zásadním omezením je rovněž energetická bilance. Současní humanoidní roboti dosahují provozní doby na jedno nabití pouze v rozmezí tří až pěti hodin. Nutnost častého dobíjení a vysoká spotřeba při náročnějších pohybech tak zatím brání jejich efektivnímu nasazení v celodenním provozu.
Různé úkoly, podobné problémy
Na výstavišti v Las Vegas byl tento technologický posun patrný na každém kroku. Návštěvníci mohli sledovat humanoidní roboty, kteří skládali prádlo, připravovali snídaně, nebo dokonce tančili. Jihokorejský gigant Hyundai, který vlastní průkopnickou firmu Boston Dynamics, předvedl novou generaci robota Atlas a oznámil plány na jeho nasazení ve výrobních závodech (více viz zadní strana tohoto vydání TT).
Společnost LG ukázala roboty schopné rozdávat karty při pokeru nebo skládat papírové větrníky.
Při bližším pohledu však nadšení střídá střízlivý realismus. Tempo, jakým tito roboti vykonávají domácí práce, je zatím, kulantně řečeno, ledovcové. Skládání trička trvá stroji násobně déle než člověku a potýká se s problémy, jako je omezená výdrž baterie či neschopnost reagovat na situace, které nejsou v jeho programu.
Experti se shodují, že na domácího robota, který by byl skutečně užitečný a cenově dostupný, si lidstvo ještě počká. Mnoho prezentovaných novinek tak balancovalo na hraně mezi inovací a marketingovým kýčem. Viděli jsme „AI sekačky“ či masážní křesla, kde výrobci často jen přelepili nálepku „chytré zařízení“ modernějším štítkem „AI“.
Mnohem zajímavější než jednotlivé „gadgety“ je však souboj o to, kdo bude dodávat infrastrukturu pro tuto novou ekonomiku. Zde se rýsuje podobný scénář jako u zlaté horečky, kde nejvíce vydělali prodejci krumpáčů.
Společnost Nvidia představila sadu nástrojů Cosmos a projekt GR00T, jejichž cílem je poskytnout vývojářům univerzální „mozek“ pro roboty a prostředí pro jejich trénování v simulacích. Právě simulace jsou klíčové. Než vypustíte robota do světa, musí ve virtuálním prostředí absolvovat miliony pokusů a omylů, aby se naučil zvládat i okrajové situace.
Pozadu nezůstává ani britský návrhář čipů Arm, který reorganizoval celou firmu a vytvořil speciální divizi zaměřenou na fyzickou AI pro robotiku a automobilový průmysl.
Významným bojištěm fyzické AI se stává doprava. Zatímco tradiční američtí výrobci automobilů letos v Las Vegas prakticky chyběli, uvolněný prostor zaplnily firmy vyvíjející autonomní řízení jako Waymo, Zoox či Mobileye a také ambiciózní čínské automobilky. Izraelská společnost Mobileye dokonce podtrhla svou sázku na budoucnost akvizicí startupu Mentee Robotics za 900 mil. USD. Dává tak najevo, že technologie pro samořídící auta a humanoidní roboty k sobě mají blíže, než se může zdát.
Do technologického vývoje však promlouvá i geopolitika. Prezident Donald Trump sice v projevech vítá možnost, že by čínské automobilky stavěly továrny v USA, realita je však složitější. Stávající regulace omezují dovoz a prodej propojených vozidel využívajících čínský hardware či software, což fakticky staví bariéru pro vstup čínské fyzické AI na americký trh. Odborníci varují, že otevření trhu by mohlo ohrozit nejen domácí automobilový průmysl, ale i národní bezpečnost, jelikož moderní auta jsou v podstatě pojízdnými senzory sbírajícími data o svém okolí.
Je tedy fyzická AI jen další nafouknutou bublinou? Amnon Shashua, spoluzakladatel Mobileye, nabízí trefné srovnání s internetovou horečkou z roku 2000. Humbuk tehdy vedl k pádu mnoha nadhodnocených firem, ale neznamenal, že internet jako takový není reálný či transformační. Podobně je to s robotikou. Jsme svědky přehnaných očekávání a nevyhnutelně přijdou zklamání z nenaplněných slibů.
Budoucnost fyzické AI nebude patřit těm, kdo ukážou nejhezčí video na sociálních sítích, ale těm, kdo zvládnou nevděčnou a složitou systémovou integraci. Půjde o schopnost propojit hardware se softwarem, certifikovat bezpečnost systémů a zajistit jejich spolehlivost po dlouhé roky provozu. Fyzická AI má potenciál být tržně ještě významnější než ta generativní, protože zasáhne miliardy zařízení v reálném světě. Jen to nebude hned a cesta k ní bude plná překážek, o které budou první roboti — doslova i přeneseně — ještě nějakou dobu zakopávat.