Prawdziwe kłamstwa

Sztuczna inteligencja zaczyna generować obrazy, nagrania i teksty łudząco podobne do tego, co tworzą ludzie. Po epoce postprawdy stanęliśmy na progu postrzeczywistości.

Agata Kaźmierska

Wirtualna podobizna Franka Zappy na stronie zappa.com. 19 kwietnia w Nowym Jorku nastąpi premiera serii koncertów z udziałem hologramu Zappy. / ZAPPA.COM

0 10 10 5 672 1 0

Przełomowy pomysł narodził się w barze w Montrealu, dokąd Ian Goodfellow poszedł na piwo ze znajomymi z uczelni. Rozmawiali o programach, które mogłyby samodzielnie tworzyć zdjęcia. Wprawdzie część badaczy używała już wtedy sieci neuronowych jako modeli generatywnych, ale wyniki nie były zachęcające. Twarze były nieostre albo brakowało im uszu. Znajomi Goodfellowa planowali wykorzystanie złożonej analizy statystycznej elementów składających się na zdjęcie. On twierdził, że to nie zadziała, choćby dlatego, że wymaga ogromnej ilości danych. Nad kolejnym kuflem piwa Ian wpadł na pomysł: a co, jeśli przeciwstawić sobie dwie sieci neuronowe? Jedna generowałaby obraz, a druga oceniała jego jakość. Tym razem to znajomi byli sceptyczni. On jednak po powrocie do domu, zamiast iść spać, zabrał się za kodowanie. Nad ranem testował oprogramowanie. Zadziałało za pierwszym razem. Tak przynajmniej opisuje to „MIT Technology Review”.

Pięć lat później spopularyzowana przez Goodfellowa koncepcja GAN (generative adversarial network, generatywna sieć kontradyktoryjna) uważana jest za przełom w badaniach nad głębokim uczeniem maszynowym. Dlaczego? Mówiąc najprościej, dała maszynie coś, co można porównać do wyobraźni. Dotąd programiści, szkoląc sztuczną inteligencję, musieli szczegółowo opisywać dane, którymi ją karmią, np. na zdjęciach dla systemu samochodów autonomicznych musiała się znaleźć dokładna informacja, który pieszy przechodzi przez ulicę, a który nie. To praco- chłonne, kosztowne i nie gwarantuje, że system poradzi sobie z choćby niewielkim odstępstwem od reguł. GAN dla twórców autonomicznych maszyn oznacza, że samochód bez wyjeżdżania z garażu może się „nauczyć”, jak wygląda ulica w czasie różnej pogody i przy różnym natężeniu ruchu, a robot nie musi objechać wielokrotnie całego magazynu, by umieć omijać pojawiające się przeszkody.

Sieci GAN znalazły już zastosowanie w fizyce, gdzie do symulacji interakcji cząstek subatomowych potrzeba było dotąd ogromnych mocy obliczeniowych, czy w badaniach medycznych, bo program generuje fikcyjne dane medyczne niemal tak dobre, jak prawdziwe, co chroni prywatność pacjentów. Szybko okazało się też, że nowa technologia umożliwia modyfikację lubianych, choć starych już gier komputerowych, przenosząc proste, składające się z niewielu pikseli grafiki sprzed 30 lat w świat wysokiej rozdzielczości. I można by było tak wymieniać same korzyści na kolejnych polach, gdyby nie jedna rzecz. Porno.

Zaczęło się od porno

Słowo „deepfake” zawrotną karierę zrobiło pod koniec 2017 r., gdy użytkownik serwisu Reddit, posługujący się właśnie takim pseudonimem, opublikował linki do pornograficznych nagrań, na których twarze występujących tam kobiet zastąpiono twarzami celebrytek. Nie trzeba było wiele wysiłku, by stwierdzić, że to fałszywki, podobnie jak klipy, gdzie twarz Nicholasa Cage’a wklejano do filmów, w których nie wystąpił (dla ścisłości: do produkcji takich nagrań użyto odpowiednio wyszkolonych i nadzorowanych sieci neuronowych, ale nie były to jeszcze GAN).

Gwiazdy żaliły się na nadużycie ich wizerunku, ale do dziś w prawie amerykańskim nie powstał przepis, który jednoznacznie zakazywałby tworzenia tego typu fałszywek. W grudniu 2018 r. Scarlett Johansson, której twarz wykorzystano w wielu takich klipach, wypowiedziała się na ten temat na łamach „The Washington Post”. Stwierdziła, że aktorki są, wbrew pozorom, chronione przez swoją sławę – ich reputację nie tak łatwo zepsuje jeden niesmaczny incydent w morzu otaczającego je szumu medialnego. Zapowiedziała też, że nie będzie czyniła żadnych starań, aby z internetu usunięte zostały filmy pornograficzne z jej twarzą – jest to zresztą niemożliwe. To użytkownicy, którzy znajdują w sieci takie nieprawdziwe nagrania, powinni być zaniepokojeni.

GAN na dobre rozbudziły zbiorową wyobraźnię dopiero w drugiej połowie 2018 r., gdy wyniki badań z nową technologią zaczęli prezentować naukowcy. Badacze z Carnegie Mellon University pokazali, jak ich Recycle-GAN pozwala użyć nagrania twarzy jednej osoby jak pacynki, tak by naśladowała ruchy i mimikę kogoś innego. Istnieją też podobne projekty, tyle że dotyczące symulacji ruchu całego ciała. Jeden z najnowszych pokazów możliwości GAN znajduje się na stronie ThisPersonDoesNotExist.com stworzonej przez Phillipa Wanga dzięki narzędziom producenta procesorów graficznych Nvidia. Każde kliknięcie generuje realistyczny wizerunek osoby, która nigdy nie istniała. W sieci bez trudu można też znaleźć podobne generatory anime, kotów czy fałszywe wnętrza mieszkań.

Na nieistniejącym wiecu

Na razie nie doszło do poważnego skandalu politycznego związanego z użyciem deepfake’ów. Zmanipulowane nagrania z wizerunkiem Baracka Obamy czy Władimira Putina, które można znaleźć w internecie i bez większego trudu rozpoznać w nich fałszywki, to prezentacja możliwości sieci GAN, zwykle tworzona przez naukowców dla ostrzeżenia opinii publicznej, a nie próba wprowadzenia kogokolwiek w błąd. W połowie ubiegłego roku belgijska Partia Socjalistyczna zamówiła deepfake’a z Donaldem Trumpem, w którym – w typowym dla siebie stylu – namawiał Belgów do wycofania się z porozumienia klimatycznego ONZ, podobnie jak wcześniej zrobiły to USA. Kiedy jednak okazało się, że wielu ludzi dało się nabrać, przedstawiciele partii długo przepraszali, wyjaśniając, że chodziło jej o satyrę i zwrócenie uwagi na problem, a nie o oszukanie kogokolwiek.

Skoro jednak można manipulować nagraniami, a GAN wciąż są udoskonalane, nietrudno sobie wyobrazić, że w przyszłości pojawią się rzeczywiście wyglądające na wiarygodne nagrania przywódców państw planujących zabójstwa, prezesów spółek współpracujących z konkurencyjnymi koncernami czy znanych filantropów wykorzystujących seksualnie dzieci. To jednak może być tylko część możliwości deepfake’ów, i to prymitywna, bo znane postacie – jak zauważyła Johansson – chroni ich reputacja. Tymczasem najskuteczniejsze fałszywki to te, które nawet nie wzbudzą podejrzeń.

Gdy technologia ta zostanie dostatecznie dopracowana, jednym z jej zastosowań w życiu publicznym może być automatyczne tworzenie tłumu. Potrzeby polityków doskonale spełniałby np. program zapełniający puste miejsca podczas wieców. Tłum taki idealnie pasowałby do oczekiwań grupy demograficznej, o poparcie której na danym etapie zabiega kandydat. Wiece mogłyby być pełne ludzi aż po horyzont, a widoczne na nagraniach osoby trzymałyby transparenty albo skandowały pożądane hasła.

Można by oczywiście odpowiedzieć, że adwersarze polityczni i dziennikarze przedstawią na to własne nagrania, wykazujące, że tłumu takiego w rzeczywistości nie było. Rzecz w tym, że fałszywki wcale nie muszą być prezentowane publicznie – przynajmniej nie w zwykłym rozumieniu tego słowa. Kluczem jest mikrotargetowanie, czyli możliwość pokazywania spersonalizowanych treści ściśle określonej grupie odbiorców (od kilku lat tę metodę skutecznie stosuje branża reklamowa oraz politycy, m.in. Donald Trump podczas kampanii w 2016 r.). Tylko ci, do których przekaz skierowano, wiedzą o nim, ponadto istnieją liczne wariacje przekazu – dwie osoby oglądające nawet „ten sam” film mogą w rzeczywistości otrzymywać różne jego wersje. W takiej sytuacji przedstawiciele mediów mogą w ogóle nie natrafić na sfałszowany przekaz, który nie ukaże się nigdy w głównym wydaniu wiadomości, lecz tylko wyświetli indywidualnie na ekranach wybranych wyborców.

Dotąd żaden sztab w pełni nie wykorzystał możliwości, jakie pod tym względem dają media społecznościowe, bo spersonalizowane reklamy musieli tworzyć ludzie. Gdy sieci GAN dodadzą algorytmom kreatywności, to się może zmienić. Niewykluczone, że za jakiś czas aplikacje do deepfake’ów będą wypluwać z siebie miliony mikrotargetowanych reklam.

Inne, niezwiązane z polityką, a technicznie możliwe zastosowanie deepfake’ów to łamanie systemów bezpieczeństwa opierających się na obrazie (takich jak monitoring czy zabezpieczenia biometryczne). Specjaliści od cyberbezpieczeństwa nie mają wątpliwości, że użycie sfałszowanych nagrań przez przestępców to kwestia czasu. Niektórzy twierdzą, że zaczęły się już one pojawiać choćby na giełdzie kryptowalut, gdzie formą uwierzytelnienia jest wideo z widocznym dokumentem tożsamości lub kartką papieru z aktualną datą. Od lutego 2019 r. jedna z firm z San Francisco udostępnia oprogramowanie wykorzystujące GAN do kopiowania, modelowania i manipulowania głosu w czasie rzeczywistym. Możliwości daleko wykraczają poza dostępne dotąd filtry. Można przyjąć dowolny wiek, płeć, ton głosu. Im więcej system dostanie próbek głosu osoby, którą ma imitować, tym zrobi to lepiej.

Subtelne sygnatury sztuczności

Na razie jeszcze deepfake’i nie są powszechne, choćby dlatego, że można je rozpoznać. GAN wciąż nie najlepiej radzą sobie z tłem zdjęć, konturami postaci czy włosami (w szczególności prostymi i długimi). Głos sprawia wrażenie niepewnego, a obraz momentami się rozjeżdża. Badacze, jeśli sami nie stworzą sobie próbek do testowania, nie mają jednak problemu ze znalezieniem ich, bo naprzeciw potrzebom wychodzi branża porno. Okazuje się, że deepfake’i nie odeszły zbyt daleko od swoich korzeni i najwięcej jest ich wciąż na stronach z filmami pornograficznymi. Działający w Amsterdamie start-up Deeptrace wychwycił w ubiegłym roku ponad 8 tys. takich nagrań (nie licząc tych na wyspecjalizowanych serwisach, gdzie zamieszczane są wyłącznie takie klipy), co stanowi potężną bazę danych dla algorytmów próbujących wykryć sygnatury sfałszowanych filmów.

Coraz rzadziej do rozpoznania podróbki wystarcza zwykłe przyjrzenie się. Początkowo „cyfrowe byty” nie mrugały naturalnie, a grupa naukowców z Uniwersytetu Stanowego w Nowym Jorku (SUNY) opracowała program pozwalający na wykrycie fałszywki na podstawie statystycznej analizy czasów mrugnięć. Algorytmy generujące deepfake’i wyuczyły się jednak i tego, a badacze z SUNY pracują obecnie nad metodą (także opartą na GAN), która skupia się na analizie oddechu i tętna.

Nikt nie ma jednak większych złudzeń, że i ten sposób za jakiś czas się zdezaktualizuje, a jednego sposobu identyfikacji deepfake’ów nie ma i zapewne nigdy nie będzie. Wyścig już się zaczął i przypomina ten, który toczy się między twórcami wirusów komputerowych i antywirusów czy fake newsów i prawdziwych informacji. Część ośrodków badawczych, agencji rządowych i firm już szuka sposobów na automatyczne rozpoznawanie sfałszowanych nagrań. Amerykańska Agencja Zaawansowanych Projektów Badawczych w Obszarze Obronności (DARPA) miała wydać na ten cel 68 mln dolarów.

Coraz lepsza fikcja

W połowie lutego 2019 r. wściekły spór w środowiskach związanych z uczeniem maszynowym wywołała organizacja non-profit OpenAI. Jej przedstawiciele deklarowali, że chcą budować sztuczną inteligencję dla dobra ludzkości i dzielić się swoimi osiągnięciami. 14 lutego OpenAI oświadczyła jednak, że choć dokonała przełomu, wstrzyma się z publikacją pełnej wersji modelu, zbiorów danych i kodów treningowych opracowanego właśnie generatora tekstu GPT-2.

Ów program po podaniu kilku linijek tekstu, czy nawet słów, jest w stanie samodzielnie go przedłużać przy zachowaniu spójności językowej i stylistycznej, w zasadzie na poziomie, na jakim mógłby to zrobić człowiek. Dotąd takie programy „gubiły wątek” albo tworzyły nienaturalnie brzmiące zdania wielokrotnie złożone. Dwie rywalizujące ze sobą sieci neuronowe OpenAI, które „nakarmiono” bazą 8 mln artykułów, nie mają z tym problemu. I tak np., po dostarczeniu fragmentu artykułu na temat brexitu, GPT-2 dopisuje dalszą część, cytując m.in. wypowiedzi lidera brytyjskiej opozycji Jeremy’ego Corbyna i rzecznika rządu oraz wspominając o problemie granicy z Irlandią. Zaprezentowano także m.in. stworzoną przez GPT-2 relację z odkrycia jednorożców w malowniczej dolinie w Andach, orędzie do narodu odrodzonego pod postacią cyborga Johna F. Kennedy’ego oraz opis bitwy z „Władcy pierścieni”, którego zapewne nie powstydziłby się Tolkien.

Przedstawiciele OpenAI stwierdzili, że nie opublikują pełnego kodu swojego programu, ponieważ GPT-2 może zostać wykorzystane do generowania fake newsów, automatycznego nagabywania, spamowania czy nawet siana nienawiści w sieci. W odpowiedzi część naukowców oskarżyła organizację o wyolbrzymianie ryzyka i cenzurę prewencyjną. Inni zwracali uwagę, że jednostka z wystarczającym kapitałem i wiedzą, wykorzystując dostępne już wyniki wcześniejszych badań i „próbki” opublikowane przez OpenAI, może sama zbudować generator porównywalny z GPT-2.

Cytowany przez „Slate” John Bowers, pracownik naukowy Berkman Klein Center, uważa, że OpenAI powinna opublikować pełne wyniki badań, bo mogą one wnieść wkład w badania nad przetwarzaniem języka naturalnego. „Jedna organizacja wstrzymująca konkretny projekt nie zmieni niczego w perspektywie długoterminowej” – uważa David Bau z Laboratorium Informatyki i Sztucznej Inteligencji MIT. Jego zdaniem decyzja OpenAI to jednak ważny gest, który powinien rozpocząć poważną debatę na temat etyki w rozwoju sztucznej inteligencji, bo „zagrożenia to nie tylko niesubordynowane działania zabójczych robotów”. Ian Goodfellow, pytany o zagrożenia związane z GAN, mówi: „Oczywiście, że bardzo dużo osiągnęliśmy, ale miejmy nadzieję, że poczynimy znaczne postępy w dziedzinie bezpieczeństwa, zanim posuniemy się za daleko”. ©

wielkie pytania, sztuczna inteligencja

Dziękujemy, że nas czytasz!

Wykupienie dostępu pozwoli Ci czytać artykuły wysokiej jakości i wspierać niezależne dziennikarstwo w wymagających dla wydawców czasach. Rośnij z nami! Pełna oferta →

Dostęp 10/10

10 dni dostępu - poznaj nas
Natychmiastowy dostęp
Ogromne archiwum
Zapamiętaj i czytaj później
Autorskie newslettery premium
Także w formatach PDF, EPUB i MOBI

10,00 zł

Wybieram

Dowiedz się więcej >

Dostęp roczny

~~365 zł~~ 95 zł taniej (od oferty "10/10" na rok)

Natychmiastowy dostęp
Ogromne archiwum
Zapamiętaj i czytaj później
Autorskie newslettery premium
Także w formatach PDF, EPUB i MOBI

269,90 zł

Wybieram

Dowiedz się więcej >

Dostęp kwartalny

Kwartalny dostęp do TygodnikPowszechny.pl

Natychmiastowy dostęp
92 dni dostępu = aż 13 numerów Tygodnika
Ogromne archiwum
Zapamiętaj i czytaj później
Autorskie newslettery premium
Także w formatach PDF, EPUB i MOBI

89,90 zł

Wybieram

Dowiedz się więcej >

© Wszelkie prawa w tym prawa autorów i wydawcy zastrzeżone. Jakiekolwiek dalsze rozpowszechnianie artykułów i innych części czasopisma bez zgody wydawcy zabronione [nota wydawnicza]. Jeśli na końcu artykułu znajduje się znak ℗, wówczas istnieje możliwość przedruku po zakupieniu licencji od Wydawcy [kontakt z Wydawcą]

Agata Kaźmierska

Dziennikarka specjalizująca się w tematyce międzynarodowej, ekologicznej oraz społecznego wpływu nowych technologii. Współautorka (z Wojciechem Brzezińskim) książki „Strefy cyberwojny”. Była korespondentką m.in. w Afganistanie, Pakistanie, Iraku,… więcej