Ve dnech 20.—21. května proběhla v San Francisku v Kalifornii již tradiční vývojářská konference Google I/O. A jak bývá zvykem, v úvodním hlavním projevu představila celou řadu novinek. V amfiteátru Shoreline v Mountain View se následně vystřídala spousta řečníků, přičemž většina z nich se věnovala jedinému tématu: umělé inteligenci (AI) a jejímu využití v produktech Googlu.
Dva významní muži z vedení firmy Google: Sundar Pichai, šéf holdingu, a Demis Hassabis, šéf Google DeepMind © Google
Už v roce 2023 Google ukázal svou vizi vyhledávače, který umí stránky přečíst za vás a nabídnout užitečný sumář vygenerovaný umělou inteligencí. Šlo o tzv. souhrny (AI overviews), které se loni nechvalně proslavily svými vtipnými halucinacemi, třeba když uživatelům doporučovaly jíst alespoň jeden kámen denně.
Od té doby ale v Googlu na výsledcích zapracovali a zvýšili i chytrost jazykových modelů, které ke generování AI přehledů využívají. Původně se tyto odpovědi zobrazovaly jen v USA a pouze na některé typy dotazů. Postupně ale Google přidával další regiony.
„Od té doby, co jsme AI přehledy loni spustili, jsme tuto funkci rozšířili do více než 200 zemí a oblastí,“ vypočítával na konferenci Google I/O v kalifornském sídle firmy Sundar Pichai, šéf společnosti. „Každý měsíc tyto přehledy vidí přes 1,5 miliardy lidí.“
Lidé, kteří dostávají AI generované odpovědi, se podle statistik k vyhledávači častěji vracejí, což si Google interpretuje tak, že jsou s odpověďmi spokojení.
Nově jsou tyto souhrny dostupné i v Česku. Na některý typ dotazů (v našem testování třeba na otázky začínající „co je“) se tak návštěvníkům ukáže nad výsledky hledání souhrn, text vygenerovaný AI, čerpající z výsledků níže. Souhrn navíc obsahuje odkazy na zdroje. Nicméně pod textem lze nalézt i stručnou poznámku o tom, že „odpovědi od AI můžou obsahovat chyby“. Pokud dotaz obsahuje něco, co se týká zdraví, je upozornění obsáhlejší.
Podle vyjádření českého zastoupení Googlu tyto AI souhrny pomohou s komplikovanějšími otázkami: „Je možné se ptát i na složitější a komplexnější otázky. Ponořit se do tématu hlouběji a prozkoumat odkazy na webové stránky. Není už nutné rozdělovat otázku na několik dílčích vyhledávacích dotazů.“
V USA jde Google mezitím ještě dál. Představil zde „AI mode“. Na první pohled vypadá skoro stejně jako AI přehledy, které jsou podle Pichaie „nejúspěšnější inovací v oblasti vyhledávání za posledních 10 let“. Ale zatímco AI přehled ostatní výsledky vyhledávání pouze posunul, v AI módu už žádné „klasické“ odkazy na nalezené stránky nenajdeme. Místo toho umělá inteligence vše přečte za nás a výsledky naservíruje v přehledné formě. Pod tím pak namísto odkazů nabídne možnost klást další otázky.
Pro uživatele to může být atraktivní a rychlý způsob prohledávání. Něco mezi vyhledávačem a chatbotem. Zdroje informací, ze kterých AI při tvorbě textů vychází, jsou přitom i nadále dostupné. Google je zobrazí po kliknutí na ikonku odkazu.
Z pohledu uživatele výrazně pozitivní krok však může mít dramatický dopad na tvůrce obsahu, kteří jsou závislí na zobrazování reklam. Pokud lidé nebudou muset opustit vyhledávač, autorům textu, ze kterého odpověď vychází, se za jejich práci nedostane žádné finanční kompenzace, což ještě zvýší současné cizopasení vyhledávačů na dílech skutečných tvůrců obsahu.
Chytřejší, rychlejší a levnější AI
Když firma OpenAI v listopadu 2022 představila ChatGPT, jeho úspěch vedení firmy Google překvapil. Interně už totiž její vývojáři nástroje fungující na principu velkých jazykových modelů měli rovněž a hojně je i využívali — ostatně do značné míry existují právě díky vědeckým pokrokům z dílny Google.
Nějakou dobu tak lidem pracujícím pod známou značkou trvalo, než své nástroje přepracovala tak, aby je mohla viditelněji nabídnou i svým uživatelům, náskok výrazně menší firmy OpenAI smazala. Nyní lze ovšem říci, že je Google co do schopností generativní AI na špičce.
Velké jazykové modely Gemini bodují: „Dnes [v úterý 20. května — pozn. red.] je náš model Gemini 2.5 Pro nejlépe hodnoceným modelem na LMArena napříč všemi kategoriemi,“ pochlubil se na pódiu šéf Google Sundar Pichai. Gemini 2.5 Pro je první dokonce ve všech kategoriích, i když je potřeba dodat, že v několika kategoriích sdílí prvenství s modely o3 nebo GPT-4o od OpenAI.
Vývojářům divize Google DeepMind se ale podařilo vytvořit nejen (v řadě ohledů) nejlepší pokročilý model. Také jejich „pracant“, rychlejší a levnější va-rianta Gemini Flash, se dočkal nové verze. To znamená přibližně to, že nějaký model od Googlu se najde prakticky pro každého, pro toho, kdo na dané úrovni hledá nejlevnější řešení, i pro toho, kdo potřebuje nástroj co možná nejinteligentnější.
Samozřejmě, až tak jednoduché to není, protože porovnávat inteligenci modelů je komplikované a univerzální měřítko neexistuje. Google má ale našlápnuto k tomu, aby vývojáře zvažující, které API budou volat, přetáhl směrem ke Gemini. I když konkurence je ostrá: OpenAI i Anthropic představily nedávno nové modely, jež jsou v řadě úkolů na úrovni, nebo i nad ní, lidských schopností.
Přitáhnout veřejnost
Oproti populárnímu ChatGPT je návštěvnost chatbota Gemini stále jen přibližně desetinová. To motivuje Google k tomu, aby tuto konverzační aplikaci nadále vylepšovala. A z toho těží i uživatelé. Gemini nabízí hodně funkcí i v bezplatné variantě. Připomeňme ale, že — stejně jako ostatní chatboti — si také nezřídka vymýšlí.
Teprve nedávno třeba Gemini dohnal náskok konkurenčního Claude a přidal možnost snadného programování s okamžitým náhledem výsledku. Nově můžete do těchto hříček doplnit AI funkce — Gemini se postará o jejich implementaci prostřednictvím API, aniž musíte cokoli řešit nebo mít s programováním zkušenosti. Pro tento styl práce se ujal pojem vibe coding.
Užitečné to je zatím spíše na malé projekty pro vlastní potřebu. Pro zkušené vývojáře Google ukázal programovacího asistenta Jules, který bere v potaz váš kód a může s vámi spolupracovat na vývoji rozsáhlejších projektů.
Pro programátory je ovšem určena i celá řada dalších novinek. Roztroušeny jsou v celé řadě nástrojů: Google Cloud, Google Vertex AI nebo Google AI Studio. Na pozadí ale používají stejné generativní modely: Gemini, Imagen nebo Veo.
Video a obrazy
Ze všech novinek, které Google představil, si právě video ukouslo největší část pozornosti. Je to pochopitelné, nejsnáze se na tom ukazuje pokrok oproti dosud dostupným nástrojům.
Nový nástroj Googlu nese název Veo 3 a podporuje také tvorbu zvukových efektů nebo dialog mezi postavami. Pokud jste si doteď mysleli, že umíte rozpoznat skutečné video od vygenerovaného, chápeme vás. Z generovaných videoklipů byla jejich umělost cítit. Ale nejspíše je už čas změnit názor. Rychle po uvedení Veo 3 se objevily opravdu vtipné, fascinující příklady videí vytvořených AI generátorem. Internet jimi není zatím zaplavený i proto, že nástroj Veo 3 je doposud dostupný jen pro americké uživatele, navíc za poměrně vysoké předplatné. Měsíčně stojí nejvyšší varianta AI Ultra 250 USD (asi 5 500 Kč).
Vylepšení se dočkal i generátor obrázků. Nová verze nazvaná Imagen 4 by měla být nyní zdarma dostupná všem v chatovací aplikaci Gemini (ta je odpovědí Googlu na populární nástroj Chat-GPT). Skok v kvalitě vygenerovaných obrázků ale zdaleka není tak zjevný jako u videoklipů. Můžete však dávat instrukce ohledně obrázků a tvořit jejich varianty a variace. Z dosavadního testování se zdá, že inovovaná verze se umí lépe řídit instrukcemi, nad konkurencí v tomto však výrazně nevyčnívá. A
protože v brzké době už bude prakticky nemožné rozpoznat, co je pravé a co vygenerované, ukázal Google nástroj SynthID, který bude schopen pomocí neviditelného otisku rozpoznat, zda byly konkrétní obrázky nebo videa pomocí generativní umělé inteligence vygenerovány.
Udělej… nu, všechno
Cílem Google je postupně sjednotit nabídku do univerzálního asistenta — agenta, který bude umět nejen odpovídat na otázky, ale také plnit úkoly, které mu zadáte. Tam míří například Project Mariner. Ten umí, podobně jako Operator od konkurenční OpenAI, používat prohlížeč „vaším jménem“ a může tak za vás nejen něco najít, ale i třeba nakoupit. Zatím je však tento typ pomocníka ve stadiu neveřejného testování. Uživatelské zkušenosti s konkurenčními „univerzálními agenty“ jsou zatím smíšené. Je těžké předem odhadnout, kdy vám skutečně pomohou a kdy naopak nadělají víc škody než užitku. Svěřit jim nákupy, nebo dokonce hledání bydlení, jak ukázal šéf Google na pódiu, zatím nezní reálně.
Až se to ale jednou Googlu povede, bude to funkce obzvláště užitečná na mobilních telefonech. Gemini na mobilech s Androidem už nyní nahradil původní Google Assistant. Nově si umí povídat opravdu přirozeně znějícím hlasem i sledovat pomocí kamery, co vidíte před sebou.
Vše tedy postupnými kroky směřuje k tomu, co už si Google jednou v podobě projektu brýlí Glass neúspěšně vyzkoušel: k zařízení, které budete mít u sebe, uvidí to, co vy, a díky AI zvládne reagovat na vaše okolí. Řeknete, že se vám něco líbí, a váš AI agent vám to najde a koupí, aniž byste museli kliknout. Předpokladem pochopitelně je, že cena takové reklamy bude výrazně větší než dnes.