Počítače se učí porážet nás rychleji, než jsme doufali

Když počítače začali porážet nejlepší lidské šachisty, bylo jasné, že člověk brzy přijde o nadvládu i v dalších logických hrách. Postupně tak počítače začaly hrát lépe dámu, piškvorky, a prostor pro lidské šampiony se stále zmenšoval. Někteří odborníci doufali, že nezastavitelný vzestup strojových hráčů se zastaví alespoň na chvíli před asijskou hrou go. Na první pohled totiž představuje pro dnešní počítače příliš tvrdý oříšek. Go se hraje na hrací ploše 19 × 19, takže na začátku hry je k dispozici 361 možností, jak zahrát. Po 5 kolech může být hrací plocha uspořádána do celkem zhruba 5 bilionů možných konfigurací. Pro srovnání, šachovnice může být po 10 tazích (po pěti každého hráče) uspořádána „jen“ necelými 5 miliony způsobů. Rozdíl tří řádů se pak rychle zvětšuje, a v go je celkem k dispozici více než 10170 různých konfigurací kamenů na desce. Snaha počítat všechny varianty (jako například u piškvorek nebo u dámy) zde totiž nepřipadá v úvahu. Velká čísla nás ale před počítači nezachránila. Lednová informace firmy Google (původně z londýnské firmy DeepMind, kterou Google před dvěma lety koupil) v časopise Nature ukázala, že už existuje software, který dokázal porazit v go mistra Evropy 5:0 na zápasy. Software Alpha- Go to dokázal hlavně proto, že velmi chytře a obratně skloubil dva různé výpočetní přístupy. Hlavním nástrojem vývojářů byly tzv. hluboké neuronové sítě. Neuronové sítě jsou systémy umělé inteligence založené na principech odkoukaných od mozku. Tvoří je celá řada „neuronů“ propojených za sebou i mezi sebou, které se (hodně zjednodušeně řečeno) postupně samy i s pomocí programátorů učí ze vstupních dat dojít ke správnému výsledku. Postupně se tak „ladí“, trénují a vylepšují, a dokážou tak dnes běžně zvládat úkoly, které jiným typů algoritmů dělaly velké problémy: třeba rozpoznávání obličejů atp. Hluboké neuronové sítě se od běžných neuronových sítí liší hlavně tím, že mají více vrstev. V případě AlphaGo běží výpočet ve 13 vrstvách nad sebou najednou. Software má dvě hlavní neuronové sítě, každá má jinou úlohu. První bychom mohli nazvat jako „strategickou“ (tzv. policy network), protože provádí jakýsi předvýběr vhodných možností pro další tah. Druhá je síť „hodnotící“ (tzv. value network) a hodnotí pozice jako dobré nebo špatné. Neuronové sítě zúží výběr natolik, aby druhá část Alpha- Go – klasické stromové prohledávání všech kombinací a nalezení té nejvýhodnější – mohla vybrat optimální možnost právě z předvybraných. Nemusí tak propočítávat a ověřovat stovky možných tahů, ale třeba jen čtyři vybrané neuronovými sítěmi. Právě tato kombinace posunula AlphaGo na špičku současných počítačových hráčů go – a je to také skvělý příklad, jak mohou chytře implementované současné softwarové technologie svým výkonem překvapit i odborníky. A také samotné autory, protože ti přesně neví, jak a proč se neuronová síť „rozhoduje“, jen ji naučili, jak a co se učit. V březnu by se měl program Alpha- Go utkat se zřejmě nejlepším hráčem moderní doby, Korejcem Lee Sedolem. Sedol je hvězda go, zdaleka nejúspěšnější hráč minulé dekády a počítačem poraženého mistra Evropy Fan Huie překonává o třídu. Ale počítač rozhodně není bez šance. I proto, že do března se toho nejspíše hodně naučí. Od listopadu, kdy se hrály partie s Huiem, uplyne 5 měsíců. Neuronové sítě se stejně jako lidský mozek učí opakováním, ale byť se učí obvykle pomaleji, samotné opakování jim jde o hodně rychleji. Za hodinu odehrají tisíce partií, a z každé něco (málo) pochytí.

2. květen 2016, 06:00, Autor:

Sdílet na Facebook Sdílet na Twitter Tisk