To tylko gra

Lee Sedol, koreański geniusz gry Go, przegrał ostatnią z pięciu partii z AlphaGo, tworzoną w laboratorium sztuczną inteligencją. Pewny siebie przed meczem arcymistrz otrząsał się z szoku przez 15 minut.

Wojciech Brzeziński

Lee Sedol, Seul, Korea Południowa, 13.03.2016 r. / / Fot. Lee Jin-man/ AP/FOTOLINK/EASTNEWS

0 10 10 5 672 1 0

Dwóch zawodników, plansza 19 na 19 przecięć, kamienie białe, kamienie czarne. Owszem, gra Go ma już przynajmniej 2 tysiące lat, jest jednym z fundamentów całej dalekowschodniej kultury, ale w gruncie rzeczy to tylko gra.

Tyle że ruch 37. drugiego meczu między Lee Sedolem a brytyjskim challengerem był czymś więcej niż zwykłym posunięciem w zwykłej grze planszowej. Reakcja Lee mówiła wszystko: pewny siebie przed meczem arcymistrz po prostu wyszedł. Otrząsał się z szoku przez 15 minut.

Kto wie, może zobaczył w tym ruchu przyszłość. Jego przeciwnik zagrał w sposób, w który nie zachowałby się żaden ludzki mistrz. Ale też przeciwnik człowiekiem nie był. Był stworzoną w angielskim laboratorium sztuczna inteligencją AlphaGo. A tym jednym ruchem zrobił coś, czego nikt nie spodziewał się dotąd po komputerze: wykazał się kreatywnością.

Zacznijmy od ruchu. „Nieludzki” i „piękny” to najczęściej opisujące go przymiotniki. Maszyna ignorując przyjęte zwykle strategie, nagle – wydawałoby się znikąd – przerzuciła swoją uwagę z oblężonego lewego dolnego sektora planszy na puste pole po prawej stronie. – Na początku myślałem że to błąd – skwitował to jeden z komentatorów. Ale to nie był błąd. To było posunięcie na miarę zwycięstwa.

Posunięcie, do którego komputer przygotowywał się od dawna. AlphaGo to produkt firmy DeepMind. Jej założyciel, Demis Hassabis, sam był kiedyś uważany za geniusza starożytnej gry planszowej: był jednym z najlepszych szachistów swojego pokolenia. Pracował nad sztuczną inteligencją w legendarnym studiu gier komputerowych Bullfrog. A potem skończył 18 lat.

DeepMind miało pracować nad Świętym Graalem prac nad sztuczną inteligencją: nad ogólną SI. Czyli taką, której można postawić dowolne zadanie, wyznaczyć cel – i oczekiwać, że sama nauczy się wszystkiego, czego można się nauczyć o przydzielonej jej dziedzinie, po czym zacznie wykonywać swoją pracę lepiej niż człowiek. Chodzi o maszyny, które potrafią się uczyć i dostosowywać. Czyli dokładnie o to, co zwykle wyobrażamy sobie, kiedy myślimy o pojęciu „sztucznej inteligencji”.

– Cały zbiór technik, które zostały przez nich zastosowane, nazywany jest „Deep Reinforcement Learning” – tłumaczy Piotr Zalewski z Google Polska. – To połączenie głębokich sieci neuronowych z nauką opartą na wzmocnieniach pozytywnych i negatywnych.

Sieci neuronowe to połączenie oprogramowania i architektury samych komputerów mające symulować działanie ludzkiego układu nerwowego. W założeniu, jeśli np. pokażemy takiej sieci tysiąc zdjęć lwów, ona w końcu nauczy się rozpoznawać lwa na innych zdjęciach. Badania nad sieciami trwają od dziesięcioleci, ale to Hassabis osiągnął jeden z najbardziej spektakularnych rezultatów – wracając w pewnym sensie do własnych korzeni.

– Najsłynniejsze rozwiązanie opracowane przez DeepMind to sztuczna inteligencja, która uczyła się grać w gry na 8-bitowej konsoli Atari 2600. – opowiada Zalewski. – Algorytmy uczyły się grać, jedynie obserwując sytuację na ekranie i dostając informację zwrotną, dającą pozytywne i negatywne wzmocnienie. Początkowo grała nieporadnie. Ale po kilku dniach osiągnęła poziom najlepszych ludzkich zawodników. Po kilkunastu – lepszy od jakiegokolwiek człowieka.

Dlaczego gry komputerowe? Bo dają możliwość szybkiego i wymiernego oceniania postępów. Ale komputer, który je opanował, w zasadzie w ten sam sposób mógłby nauczyć się innych zadań. Gry na giełdzie. Diagnostyki medycznej. Sterowania ruchem lotniczym.

Po tych sukcesach DeepMind zostało kupione przez Google’a za 600 mln dolarów, a Hassabis został wiceprezesem firmy ds. SI. Jego dzieło szybko zaprzęgnięto do pracy: kataloguje miliardy zdjęć, pomaga użytkownikom analizować maile.

Ale inżynierowie szukali czegoś przełomowego, czegoś, co mogliby nazwać swoim „lądowaniem na Księżycu”. Dowodu na to, że ich „podopieczny” to nie jeszcze jeden głupi program.

208 168 199 381 979 984 699 478 633 344 862 770 286 522 453 884 530 548 425 639 456 820 927 419 612 738 015 378 525 648 451 698 519 643 907 259 916 015 628 128 546 089 888 314 427 129 715 319 317 557 736 620 397 247 064 840 935 – to, jak wynika z obliczeń, liczba możliwych kombinacji na planszy Go. Ma 171 cyfr i jest o kilka rzędów wielkości większa od liczby atomów we Wszechświecie. Rozgrywka może potoczyć się na 10700 sposobów – w porównaniu do 1060 możliwych scenariuszy w przypadku szachów.

– W każdym ruchu istnieje około 250 możliwych posunięć, o wiele więcej niż np. w szachach – tłumaczy Stanisław Frejlak, wicemistrz Polski w starożytnej, chińskiej grze. – To oznacza, że nikt nie jest w stanie wszystkiego przeliczyć. Trzeba opierać się na intuicji. Czytanie sekwencji jest oczywiście istotne, ale w Go liczą się na przykład ładne kształty, siła, kierunek gry – koncepcje, które trudno przekazać maszynie. Dlatego wydawało się, że Go jest ostatecznym testem dla sztucznej inteligencji w dziedzinie gier logicznych.

Kiedy komputer Deep Blue dwie dekady temu zwyciężał z Garrim Kasparowem, jego podejście można w skrócie opisać jako rozwiązanie „siłowe”. Porównywano sytuację na planszy z wszystkimi partiami szachów odnotowanymi w annałach gry. W Go to samo podejście nie zdawało egzaminu. Z tego względu jeszcze kilka miesięcy temu w poważnych publikacjach spekulowano, że arcymistrzowie Go mogą spać spokojnie przez najbliższą dekadę.

– Tu było potrzebne zupełnie inne podejście – tłumaczy Frejlak. – W ostatnich latach rozwinęły się dwa: pierwsze to metoda Monte Carlo, czyli przeliczanie milionów losowych gier do końca i szacowanie, przy którym ruchu jest większa szansa na wygraną. I drugie, może ważniejsze, czyli sieci neuronowe same uczące się gry.

AlphaGo najpierw przeanalizował 10 mln gier silnych, ludzkich graczy. – Ale na tym etapie miał siłę może dobrego amatora – komentuje Frejlak. Następne miesiące przebiegały jednak pod znakiem morderczego treningu. Komputer rozgrywał miliony partii z minimalnie innymi wersjami samego siebie. Potem rezultaty tych partii pozwolono przeanalizować kolejnej składającej się na system sieci neuronowej, która wyławiała z morza danych te posunięcia, które dawały największe szanse na zwycięstwo. I dostosowała swój styl gry.

Bo ten komputer wypracował własny, indywidualny styl. Gra inaczej niż jakikolwiek ludzki zawodnik. Myśli inaczej niż ludzie. I, jak pokazał wynik meczu z Lee, robi to skuteczniej.

Przy każdym posunięciu komputer analizuje, jakie jest prawdopodobieństwo, że w takiej sytuacji właśnie tak zagrałby ludzki zawodowiec. W przypadku ruchu 37. to prawdopodobieństwo wynosiło zaledwie 1 do 10 tysięcy. Komputer wiedział, że człowiek nie wykonałby takiego posunięcia, ale i tak je zagrał, bo wiedział, że jest dobre. Przerósł tych graczy, od których się uczył. Dorósł.

– To jest podstawowa różnica między AlphaGo a starszymi SI – wyjaśnia Zalewski. – Na podstawie każdego zagrania maszyna dochodzi do nowych wniosków i stosuje nowe zachowania, które wynikają z poprzednich. Ale to nie są zagrania, które są tylko powtórzeniem czegoś, co ktoś kiedyś zagrał. To wyciągnięcie wniosków i zaproponowanie czegoś nowego.

Po starciu Lee Sedol był wyraźnie zszokowany. Wyglądał, jakby tylko resztkami siły woli był w stanie utrzymać się na krzesełku.

– Wczoraj [po pierwszym starciu, wygranym przez komputer – red.] byłem zaskoczony. Dzisiaj zostałem rozgromiony – mówił drżącym głosem na pomeczowej konferencji. – Całkowicie rozbity. Ani przez chwilę nie czułem, że kontroluje sytuację. Komputer zagrał mecz idealny.

Ale Lee Sedol nie uległ zupełnie. Wygrał jedną z pięciu rozgrywek – tak jak komputerowy przeciwnik, wygrał dzięki jednemu, genialnemu posunięciu. Ruchowi, którego zupełnie nie spodziewał się komputer. Jego prawdopodobieństwo, w przykładzie kosmicznej symetrii, AlphaGo ocenił również na 1 do 10 000. Ludzki geniusz wciąż potrafi zadziwiać nawet najdoskonalszy komputerowy system. Ale prawdziwa nadzieja na jasną przyszłość leży w połączeniu sił ludzi i ich nowych, inteligentnych narzędzi. Albo, jak kto woli, sprzymierzeńców.

– Dzisiejsza porażka jest porażką Lee Sedola – mówił koreański geniusz gry po zakończeniu ostatniego, piątego starcia – ale nie porażką ludzkości.

Kto wie, może się okazać krokiem do jej naprawdę wielkiego zwycięstwa.

gry, nauka, technologia, nowe technologie, komputery, sztuczna inteligencja

Dziękujemy, że nas czytasz!

Wykupienie dostępu pozwoli Ci czytać artykuły wysokiej jakości i wspierać niezależne dziennikarstwo w wymagających dla wydawców czasach. Rośnij z nami! Pełna oferta →

Dostęp 10/10

10 dni dostępu - poznaj nas
Natychmiastowy dostęp
Ogromne archiwum
Zapamiętaj i czytaj później
Autorskie newslettery premium
Także w formatach PDF, EPUB i MOBI

10,00 zł

Wybieram

Dowiedz się więcej >

Dostęp roczny

~~365 zł~~ 95 zł taniej (od oferty "10/10" na rok)

Natychmiastowy dostęp
Ogromne archiwum
Zapamiętaj i czytaj później
Autorskie newslettery premium
Także w formatach PDF, EPUB i MOBI

269,90 zł

Wybieram

Dowiedz się więcej >

Dostęp kwartalny

Kwartalny dostęp do TygodnikPowszechny.pl

Natychmiastowy dostęp
92 dni dostępu = aż 13 numerów Tygodnika
Ogromne archiwum
Zapamiętaj i czytaj później
Autorskie newslettery premium
Także w formatach PDF, EPUB i MOBI

89,90 zł

Wybieram

Dowiedz się więcej >

© Wszelkie prawa w tym prawa autorów i wydawcy zastrzeżone. Jakiekolwiek dalsze rozpowszechnianie artykułów i innych części czasopisma bez zgody wydawcy zabronione [nota wydawnicza]. Jeśli na końcu artykułu znajduje się znak ℗, wówczas istnieje możliwość przedruku po zakupieniu licencji od Wydawcy [kontakt z Wydawcą]

Wojciech Brzeziński

Dziennikarz naukowy, reporter telewizyjny, twórca programu popularnonaukowego „Horyzont zdarzeń”. Współautor (z Agatą Kaźmierską) książki „Strefy cyberwojny”. Stypendysta Fundacji Knighta na MIT, laureat Prix CIRCOM i Halabardy rektora AON. Zdobywca… więcej