Generativní umělá inteligence není spolehlivým zdrojem informací

Novinářky a novináři z médií napříč Evropou a ze Spojených států se ptali AI asistentů na aktuální zpravodajství, jejich odpovědi následně ověřovali a z výsledků skládali mezinárodní statistiky. A jak spolehlivé v tomto ohledu tedy dnešní AI jsou?

Na jaře letošního roku (2025) proběhl výzkum spolehlivosti AI asistentů v oblasti aktuálního zpravodajství. Zúčastnilo se jej 22 médií z 18 evropských zemí včetně Česka. Zaměřen byl na nástroje Chat GPT, Google Gemini, Microsoft Copilot a Perplexity. Ve všech případech používali výzkumníci běžné dostupné chatboty ve verzích, které byly výchozí možností na konci května 2025. Tedy například před příchodem modelu GPT-5, který slibuje nižší míru výmyslů. Většina problémů, na které studie upozorňuje, je ale stále aktuální.
Výsledky
Závěry nejsou v principu překvapivé: generativní umělá inteligence není spolehlivým zdrojem informací. Každý, kdo s chatboty nebo jazykovými modely nějakou dobu pracoval, se zřejmě setkal s tzv. halucinacemi: důvěryhodně znějícími texty, které se však nezakládají na pravdě. Výsledky ale připomínají, jak rozšířené halucinace jsou — a tedy i jak běžný a „velký“ problém mohou představovat. „Skoro polovina odpovědí měla nějaký závažný problém. Nejčastěji to byl chybějící nebo zavádějící zdroj a každá pátá odpověď obsahovala nepravdivé informace,“ shrnula výsledky Kateřina Gruntová z Českého rozhlasu, který byl jedním z médií zúčastněných ve výzkumu. „Třeba na otázku týkající se náhradního mateřství v Česku jeden z chatbotů suverénně odpověděl, že je v Česku zakázané. To ale není pravda,“ dodává Gruntová. „Nebo na otázku, jestli je Turecko členem EU, další z chatbotů odkázal na neexistující stránku na Wikipedii. I v jiných případech chatboti odkazovali na neexistující weby nebo si vypomáhali informacemi, kupříkladu i z těch konspiračních,“ uvedl Jan Cibulka, také redaktor ČRo. „Elon Musk ukončil práci pro vládu Donalda Trumpa. Důvodem bylo, že Musk před publikem použil nacistický pozdrav…“ Takovou odpověď zase vytvořil chatbot Copilot. Výzkumníci z německé televize ZDF si navíc všimli, že k této nepravdivé zprávě chatbot jako zdroj informace uvedl právě jejich televizi. Pouze po rozkliknutí zdroje by pozorný čtenář zjistil, že jde o chybu. Z výzkumu vyplynulo, že největší problém spočívá v uvádění a citování správných zdrojů. Většinu těchto chyb přitom „napáchal“ AI asistent Google Gemini, zhruba tři čtvrtiny z celkového počtu. Podle výzkumníků byl Gemini „obzvláště náchylný“ ke špatné práci se zdroji. Někdy uvedl pouze jméno publikace bez odkazu, jindy zdroje neodpovídaly prezentovaným informacím. Média si také všímala, že se Gemini odkazoval na jejich zpravodajství (a tedy využíval důvěry čtenáře v jejich značku), aniž by odkazoval na konkrétní články. Když pak čtenář chtěl přímo informace z konkrétního zdroje, chatbot Gemini opět ochotně vygeneroval text, o kterém tvrdil, že z daného zdroje čerpá. Po rozkliknutí odkazů ale ani jeden z nich nevedl na daný zdroj.
Zdroje neoprávněného sebevědomí
Může být překvapivé, jak vysoká míra chybovosti se ve vygenerovaných odpovědích vyskytovala. Vždyť chatbot má k dispozici vyhledávání, a může si tedy aktuální informace doplnit... Praxe však ukazuje, že se chatboti často mýlí při interpretaci textu z nalezených webů. Čtenář tak dostane souhrn, který na první pohled působí věrohodně, bližší prozkoumání ale odhalí celou řadu větších chyb i menších nepřesností. „Mnoho problémů, které jsme popsali, je dále prohloubeno tendencí chatbotů tvářit se zcela sebevědomě,“ popisují výzkumníci. „I když AI asistent udělá chybu, pokračuje v generování textu a sestaví odpověď, někdy i s využitím těchto nesprávných odpovědí.“ „Umělá inteligence nám nikdy nenapsala: ‚To prostě nevím,‘ ani tam, kde by to byla ta nejlepší odpověď,“ stěžují si například hodnotitelé z britské BBC. „Pokouší se vyplnit mezery svým vlastním vysvětlením, místo toho, aby — jak by to udělal dobrý novinář — čtenářům vysvětlila, v čem jsou naše znalosti omezené a co zatím nevíme s jistotou.“ To koresponduje se zjištěními nedávné studie OpenAI, která se zabývala otázkou, proč mají modely tendenci generovat sebejisté odpovědi i tam, kde nemají k jistotě důvod. Podle výzkumníků je zřejmě na vině způsob, jakým jsou velké jazykové modely trénované. Neuronová síť dostává odměnu pokaždé, když se strefí do správného výsledku. Nedostává ale žádnou odměnu za to, když přizná, že něco neví. Proto se systém přirozeně naučil „střílet odpovědi od boku“, taková strategie totiž vede k odměně o něco častěji než přiznaná nejistota. Je to podobné testu, kde žáci vybírají jednu ze čtyř možností. Pokud se nestrhávají body za špatnou možnost, dává smysl si tipnout i tam, kde žák netuší, kterou možnost vybrat. Výsledkem je, že chatboti umějí velmi dobře napodobit analytický nebo dokonce autoritativní styl, který by odpovídal například expertnímu zhodnocení situace. Navenek tak vygenerovaný text může působit užitečně a důvěryhodně. Sebevědomí však AI systém ukazuje bez ohledu na to, zda má věci podložené důvěryhodnými zdroji, či nikoliv.
Možné řešení
Čtenáři by si sice samostatně mohli odpovědi, které od AI asistentů dostávají, ověřovat, to ovšem není praktické, a tedy ani příliš pravděpodobné. Odpadl by tím hlavní důvod, proč shrnutí asistentem vůbec udělat: úspora času. Problém zároveň tak nemá jednoduché řešení. Evropská vysílací unie, která výzkum zaštiťovala, navrhuje řadu kroků k nápravě: Firmy by měly kvalitu odpovědí ve svých modelech testovat, sledovat a nechat nezávisle vyhodnocovat. A také být transparentní v tom, jaká data při „výrobě“ asistentů používají. Ovšem taková opatření chtějí čas a tempo vývoje umělé inteligence je přitom velmi vysoké. Společnosti stále poměrně rychle přicházejí s novými modely, které jsou v první řadě optimalizovány na jiné parametry, než jakým je faktická věrnost při interpretaci zpravodajských informací. Na druhou stranu, halucinace představují vážný, nežádoucí problém, a tak na jeho odstranění vývojáři neustále pracují. Oproti podobnému testu v prosinci 2024 se výkon chatbotů v mnoha ohledech skutečně zlepšil. Stále je ale výskyt chyb příliš velký na to, aby čtenáři mohli vygenerovaným odpovědím věřit bez další kontroly. /jj/

22. prosinec 2025, 07:00, Autor:

Sdílet na Facebook Sdílet na Twitter Tisk