Růst schopností modelů, které tvoří základ současné „umělé inteligence“ (AI), šel ruku v ruce se zvětšováním objemu dat, se kterými pracovaly. Díky tomu dokázaly modely nejen čím dál lépe porozumět jazyku, ale i nabývat dalších schopností. Množství zpracovávaných dat má však v řadě ohledů své limity.
Při pohledu na dosavadní vývoj AI se začíná zdát nevyhnutelným, že vývojáři v brzké době vyčerpají možnosti dalšího „škálování“ modelů (LLM — language learning model) cestou zvyšování objemu využívaných dat. Jedním z důvodů jsou rostoucí energetické nároky na výpočetní výkon nutný pro trénink větších a větších modelů.
Ty rostou až natolik, že je lepší a výhodnější hledat jiné způsoby, jak výsledky modelů zlepšit. Tím nejefektivnějším se dnes ukazuje vznik „přemýšlivých“ modelů, které si mohou úkoly naplánovat, než se do nich pustí hrubou silou. Jinou cestou je tendence ke vzniku menších, specializovaných modelů (k obojímu se ještě vrátíme).
Dalším problémem by se ale v dohledné době mohl stát i nedostatek tréninkových dat. Studie skupiny Epoch AI odhadla, že do roku 2028 dosáhne průměrná velikost datové sady pro trénink AI objemu veřejně dostupného online textu. Jinými slovy umělá inteligence podle tohoto odhadu pravděpodobně v dohledné době nebude mít žádný nový materiál, který by si mohla načíst a na kterém by se mohla dále učit, jak spolu „věci (obvykle) souvisejí“, aby popis procesu maximálně zjednodušila a převedla do všedního jazyka.
Nedostatek informací by se mohl začít projevovat poměrně brzy. „Mám silné podezření, že se to už děje,“ řekl nedávno pro časopis Nature Shayne Longpre, výzkumník v oboru na americkém MIT. Longpre vede Data Provenance Initiative, organizaci provádějící audity datových sad používaných pro trénování dnešních modelů.
I když však nedostatek dat může vývoj AI systémů zpomalit, zatím se nezdá být klíčovým problémem. Přední firmy, například OpenAI a Anthropic, možnost nedostatku tréninkových dat přiznaly, ale zároveň uvedly, že mají plány, jak problém řešit — například generováním nových dat nebo hledáním alternativních zdrojů.
Minimálně někteří nezávislí pozorovatelé se domnívají, že firmy v tomto případě nechlácholí investory, ale situaci skutečně vnímají jako řešitelnou: „Nemyslím si, že by ve velkých AI společnostech někdo panikařil. Nebo pokud panikaří, tak mi aspoň nepíšou e-maily,“ komentoval situaci Pablo Villalobos, výzkumník z Epoch AI a hlavní autor studie předpovídající datový krach v roce 2028. To ale neznamená, že by „datová nouze“ nehrála v dalším vývoji generativní AI žádnou roli.
Slova, slova, slova
Vývoj LLM za posledních 10 let odhalil jejich vysokou potřebu dat. Ačkoli většina vývojářů podrobnosti o svých modelech nesděluje, odhaduje se, že počet tokenů použitých při tréninku vzrostl od roku 2020 ze stovek miliard na desítky bilionů.
Toto množství by mohlo odpovídat značné části internetového obsahu, i když celkový objem je těžké určit. Villalobos odhadl, že internet obsahuje 3 100 bilionů tokenů textu [nedělitelné jednotky textu při zpracování přirozeného jazyka, lexikální analýze programovacího jazyka nebo práci s datovými formáty — pozn. red.]. Tréninkové sady se tvoří automatickým sběrem a následným čištěním obsahu, kdy se odstraňují duplicity a nežádoucí materiál, například pornografie. Výsledné sady, jako RedPajama, mohou obsahovat desítky bilionů slov.
Některé společnosti nebo akademici si sběr a čištění dat provádějí sami, aby vytvořili datové sady na míru pro své účely. Značný význam má kvalitní obsah, jako jsou knihy nebo média, kde se tvorbě textu věnuje poměrně velká pozornost. S nástupem nových modelů ale velkou roli hrají i specializovanější znalosti, jako třeba úspěšně vyřešené programovací či jiné úlohy.
Rychlost růstu použitelného internetového obsahu je relativně nízká: pod 10 % ročně, uvádí studie Epoch AI. Naopak velikost datových sad pro trénink AI se ročně více než zdvojnásobuje. Pokud se tyto trendy udrží na stávajících trajektoriích (což pochopitelně není jisté), v roce 2028 by už tréninkové sady pro umělou inteligenci doznaly výrazného zpomalení ve svém dalším rozšiřování.
Naše texty!
Za některých okolností to může být i dříve. Majitelé internetového obsahu totiž už v mnoha případech mají dost současné praxe a nechtějí sloužit jako zdroj pro trénink softwaru, který by mohl velkou část jejich byznysu přejmout a existenci mnohých z nich dokonce ohrozit. [Kanibalizováním těchto zdrojů, a tedy i jejich likvidací, tak paradoxně může AI svého stropu v dalším růstu dosáhnout i dříve — pozn. red.] Čím dál častěji technicky nebo legislativně omezují přístup ke svým textům a dalším datům, čímž zabraňují jejich automatickému sběru pro trénink AI.
Shayne Longpre s kolegy zveřejnil loňskou studii, která ukazuje prudký nárůst poskytovatelů dat blokujících přístup specifickým crawlerům — softwaru pro automatický sběr dat — ke svým webovým stránkám. U nejkvalitnějšího obsahu v tréninkových sadách vzrostl podíl tokenů nedostupných pro crawlery z méně než 3 % v roce 2023 na 20—33 % v roce 2024.
V současnosti navíc probíhá několik velkých soudních sporů o využívání obsahu pro trénink. V prosinci 2023 žalovaly The New York Times společnost OpenAI a jejího partnera Microsoft za porušení autorských práv; v dubnu letošního roku podalo podobnou žalobu osm novin vlastněných společností Alden Global Capital v New Yorku.
Protiargument říká, že AI by mělo mít právo číst a učit se z online obsahu stejným způsobem jako člověk, což spadá do zákonného využití materiálu. OpenAI uvedla, že žalobu The New York Times považuje za neopodstatněnou.
Ať už spory dopadnou jakkoliv, nebude to bez důsledků. Pokud soudy potvrdí nárok poskytovatelů obsahu na finanční kompenzaci, problém s dostupností dat pravděpodobně budou nejhůře pociťovat akademici a nezávislí výzkumníci, kteří nemají prostředky na to, aby platili za obsah. Velké AI firmy s bohatými zdroji se s problémem už nějak vyrovnají.
Další zdroje
Ještě se však mohou najít i způsoby, jak hrozící datové „sucho“ nějak obejít. Jednou z možností je sběr neveřejných dat, například zpráv z Whats- App nebo z přepisů videí na YouTube. Zákonnost tohoto postupu není zatím jasná a bude rovněž sporná. Vlastníci platforem mají k těmto datům přístup a někteří je již využívají.
Například Meta využívá pro trénink modelů zvuk a videa ze svých náhlavových souprav Meta Quest. Situace je složitá, neboť se chování provozovatelů liší a ovlivňuje ji také legislativa jednotlivých zemí.
Ovšem i kdyby se tento obsah využil plně, odhad Epoch AI naznačuje, že by datový hlad byl odložen jen o rok až dva, protože značná část obsahu ze sociálních sítí je nekvalitní nebo duplicitní.
Další možností je rozšířit si pohled na to, co jsou vhodná tréninková data. Známá výzkumnice v oboru Fei-Fei Li na technologickém summitu Bloomberg v květnu 2024 uvedla, že vyčerpání tréninkových dat je problém, jen pokud si neuvědomíte, kolik vhodných dat je v oborech jako zdravotnictví či vzdělávání — a ve hře je také možnost používat například přečtenou DNA nebo strukturovaná astronomická data. Otevřenou otázkou je, jak efektivní trénink na takových údajích bude. Zatím jde o nápad čistě teoretický.
Už víme, že některé modely jsou do určité mí ry schopny trénovat na neoznačených videích nebo obrázcích. Rozšíření a zlepšení těchto schopností by mohlo otevřít nové možnosti.
Jiný známý hlas z oboru, Yann LeCun, který je jedním z vedoucích vývoje AI v Meta, to ve svých vystoupeních ilustruje na příkladu malých dětí. Zhruba 1013 tokenů (tedy 10 bilionů), které se používají pro trénink dnešních modelů, je na přečtení opravdu hodně: podle jeho odhadu by tolik textu mohl člověk přečíst za 170 tisíc let. Ovšem čtyřleté dítě absorbuje údajně jen koukáním kolem sebe za jeden den 50× větší objem dat.
Nejde o novou myšlenku. Řada výzkumníků a vědců v posledních letech uvažovala, že roboty s umělou inteligencí by se mohly učit ze svých vlastních smyslových zkušeností [a to už i některé dělají, např. robotický gepard, o kterém jsme již v minulosti psali (TT 2022/6), se na základě vlastních zkušeností neustále zdokonaluje v rychlosti běhu i v překonávání složitějšího terénu — pozn. red.], případně dokonce virtuálních smyslových zkušeností. Možnosti AI by to mohlo ještě rozšířit, protože už nebude trénovat jen na „slovech“.
Umělá data
Data se také dají vyrobit. Některé společnosti platí lidem za tvorbu obsahu pro trénink AI (například při řešení programátorských úloh). Jiné používají pro trénink umělá data vytvořená jinou AI, což může být významný zdroj.
Na začátku roku 2024 Sam Altman, vedoucí OpenAI, uvedl, že jeho firma generuje 100 miliard slov denně, což činí více než 36 bilionů slov ročně — přibližně stejnou velikost, jakou mají současné datové sady pro trénink AI. Produkce rychle roste.
Odborníci se shodují, že syntetická data mohou fungovat zejména v oblastech s pevnými pravidly, jako jsou šachy, matematika nebo programování. Například AI nástroj AlphaGeometry byl natrénován k řešení geometrických úloh pomocí 100 milionů syntetických příkladů.
Syntetická data se již používají tam, kde je reálných dat nedostatek nebo je jejich využití problematické. V medicíně například otázky ochrany osobních údajů nejsou překážkou a u samořídících vozidel umožňují simulace, při kterých není nikdo ohrožen.
Problémem syntetických dat je, že mohou skrývat chyby, jež vedou model k nesprávným závěrům. Studie z roku 2023 tento jev označila zkratkou MAD (model autophagy disorder) a ukázala, jak se AI může „zbláznit“. Například kvůli těžko odhalitelným zkreslením začal model generovat obličeje, které jsou pro člověka bizarní.
Efektivněji
Další možností je optimalizace tréninku. Preprint zveřejněný loňského roku uvádí, že potřebný výpočetní výkon k natrénování modelu se každých osm měsíců sníží na polovinu. S pokroky v hardwaru se otevírá možnost opakovaného tréninku na stejném souboru dat — tedy model si může „přečíst“ stejnou učebnici několikrát.
AI systémy fungují na základě statistik, a proto se opakováním tréninku na stejných datech zlepšují. V roce 2023 ukázal mezinárodní tým, že čtyřnásobné „přečtení“ sady dat odpovídá efektu čtyřnásobného množství unikátních dat, zatímco další opakování už přináší zlepšení menší.
Nové „přemýšlivé“ modely jako ty od OpenAI či DeepSeek už zjevně mají trochu jiný typ tréninku než starší. Zásadní roli u nich hraje posilovací učení, tedy proces, při kterém je model odměňován za správnost odpovědí (odborníci snad odpustí hrubé zjednodušení). Tento způsob posunuje důraz od „natrénování“ na masivních datových sadách směrem k delšímu „uvažování“ nad menší sadou dat. Což pochopitelně vyžaduje výpočetní výkon, ale už ne záplavu nových dat.
Je tedy pravděpodobné, že modely nemusí konzumovat výrazně více dat, aby se zlepšily. Vývoj posledních měsíců, včetně příchodu čínské konkurence v podobě DeepSeek a nové generace modelů od OpenAI, naznačuje, že to tak může být.