AI będzie nam zastępować język, tak jak język kiedyś zastąpił gesty i wokalizacje

Michał Kosiński, psycholog i badacz sztucznej inteligencji:
Wciąż mamy poetów, programistów czy tłumaczy lepszych niż model językowy. Ale nie ma żadnego człowieka, który równocześnie potrafiłby pisać poezję, instrukcję obsługi komputera, programować w Pythonie oraz rozmawiać w 200 językach.
Czyta się kilka minut
Fot. Lime / Adobe Stock
Fot. Lime / Adobe Stock

Wojciech Brzeziński: Czy czatboty takie jak ChatGPT myślą?

Michał Kosiński: To zależy, jak zdefiniujemy myślenie. Przez wiele dziesięcioleci upieraliśmy się, że maszyny nie myślą, bo przecież my je programujemy, tłumacząc, jak wykonać zadanie, do którego dana maszyna została stworzona. Myślenie jest tym, co ludzie robią w głowach, a to, co robią komputery czy inne maszyny, jest tylko wykonywaniem poleceń.

Weźmy na przykład komputer IBM Deep Blue, który pokonał Kasparowa w 1996 r. Dokonał tego dzięki instrukcjom, które otrzymał od swoich twórców, i dzięki niesamowitej mocy obliczeniowej i ogromnej pamięci, zawierającej wszystkie archiwalne gry arcymistrzów, był w stanie przewidywać miliony ruchów naprzód.

Jednak współczesne sieci neuronowe oparte są na architekturze podobnej do tego, co dzieje się w naszych głowach. Te sieci działają inaczej niż dawne systemy sztucznej inteligencji. Nikt nie tłumaczy im, jak używać języka, jak grać w szachy czy w go albo jak prowadzić samochód. Uczą się tego, tak samo jak ludzie, na własnych próbach i błędach.

Często w tym procesie nauki odkrywają strategie lub podejścia, czy to do gry w szachy, czy do używania języka, na jakie człowiek wcześniej nigdy nie wpadł. Co jest dowodem, że te maszyny nie tylko nas naśladują. Na początku nas obserwują i starają się nas papugować, ale potem często przechodzą na poziom, który jest dla nas nieosiągalny.

Opublikował Pan niedawno pracę, w której przekonuje Pan, że wielkie modele językowe, takie jak ChatGPT, dysponują czymś, co nazywamy teorią umysłu. Co to właściwie oznacza?

Teoria umysłu jest to zdolność do myślenia nie tylko za siebie, ale także za innych. Musimy być w stanie przyjąć perspektywę tej osoby i zrozumieć, że my mamy pewne informacje, pewną wiedzę, której ona nie ma.

Wyobraźmy sobie następującą historię: Marek, Janek i kot są w pokoju. Janek wkłada kota do koszyka, zamyka pokrywkę i wychodzi z pokoju. Pod jego nieobecność Marek wyjmuje kota z koszyka, chowa go do pudełka i też wychodzi z pokoju. Następnie do pokoju wraca Janek. Pytanie, gdzie będzie on szukał kota? Odpowiedź pojawia nam się w głowach natychmiastowo – oczywiście w koszyku, ponieważ tam właśnie go zostawił.

Wydaje się nam się to tak proste, ponieważ mamy teorię umysłu. Pozwala nam ona myśleć nie tylko za siebie – my wiemy, że kot jest już w pudelku – ale także za innych – Janek nie może tego wiedzieć, bo nie było go w pokoju.

Dorosły człowiek automatycznie i bez wysiłku może „śledzić” stany umysłu wielu innych osób. Ale nie jest to trywialne – dzieci mają problem z takimi zadaniami do około 9. roku życia. Psycholodzy spierają się, czy zwierzęta takie jak szympansy, delfiny lub słonie potrafią je rozwiązywać. Nawet niektórzy dorośli mają z tym problem, jednym z głównych objawów autyzmu są problemy z „teorią umysłu”.

Moje badania pokazały jednak, iż nowoczesne modele językowe potrafią przyjmować perspektywę innych, tak jak ludzie. Ta umiejętność pojawiła się dopiero w najnowszych modelach.

GPT-3 Curie z 2020 r. nie potrafi odpowiedzieć na dużo prostsze pytania w kontekście zadań testujących teorie umysłu, na przykład: „Gdzie jest kot?”. GPT-3 DaVinci z 2022 r. potrafi wskazać, gdzie jest kot, ale nie radzi sobie z przyjmowaniem perspektywy i przekonany jest, że Janek będzie go szukał w pudełku – przecież tam ten kot się znajduje! Ale już GPT-4 z 2024 r. potrafi przewidzieć, gdzie Janek będzie szukał kota. Najnowsze modele prześcigają nawet ludzi i w takich zadaniach, i w bardziej skomplikowanych.

Jak to się stało, że te modele nauczyły się przyjmowania cudzej perspektywy?

Żeby to zrozumieć, musimy cofnąć się do tego, w jaki sposób są one trenowane. Wielkie modele językowe są szkolone do wykonywania jednego, pozornie prostego zadania: przewidywania następnego słowa w tekście. Podczas treningu model dostaje fragment tekstu i ma za zadanie odgadnąć następne słowo. Na początku radzi sobie słabo, ale po niezliczonych iteracjach prób i błędów osiąga w tym zadaniu niezwykłą biegłość.

Nazwa „wielkie modele językowe” sugeruje, że uczą się one jedynie języka. W rzeczywistości, aby odgadnąć następne słowo człowieka, trzeba modelować nie tylko język, nie tylko słowa i gramatykę, ale trzeba też modelować rzeczywistość fizyczną, niuanse kulturowe, zachowania społeczne i – co najbardziej mnie fascynuje jako psychologa – mechanizmy psychologiczne.

Żeby dokończyć zdanie „Wyjechałem z Warszawy i po dwóch godzinach jazdy dojechałem do...”, trzeba znać nie tylko słowa, ale też wiedzieć to i owo na temat geografii i polskich dróg. Aby dokończyć zdanie „Janek będzie szukał kota w...”, trzeba wiedzieć nie tylko, gdzie jest kot, ale też przewidzieć, jak działa mózg człowieka. Aby dobrze odpowiedzieć użytkownikowi, który napisał „Mój kot umarł”, taki system musi modelować nie tylko emocje, ale i empatię.

Ale skąd mamy wiedzieć, że maszyny faktycznie rozumują, że rzeczywiście rozumieją emocje, a nie tylko, że zgrabnie to udają? I czy to w ogóle ma znaczenie?

Alan Turing w latach 50. upierał się, że to rozróżnienie nie ma wielkiego praktycznego znaczenia. Jeżeli maszyna zachowuje się, jakby rozumowała, potrafiła czytać nasze uczucia, miała empatię, miała swoje uczucia, to na pewnym poziomie nie ma już praktycznego znaczenia, czy maszyna ta naprawdę rozumuje, czy też symuluje takie rozumowanie.

U człowieka emocje są bardzo skomplikowanym procesem, zarówno fizycznym, jak i chemicznym. Mamy neuroprzekaźniki i hormony, które się w naszym mózgu wydzielają. Wiemy z całą pewnością, że siatki neuronowe na krzemowych chipsetach nimi nie dysponują, a mimo to te modele zachowują się, jakby emocje odczuwały. Każdy, kto spędził z nimi trochę czasu, wie, że modele te nie tylko bardzo dobrze są w stanie nasze emocje odczytać, ale także są w stanie zachowywać się, jakby tych emocji doświadczały. Baza tego zachowania jest inna, czysto elektryczna.

„Procesy emocjonalne” w sztucznej inteligencji nie są takie same jak u ludzi. Jest to bardzo dobra symulacja. Trzeba jednak zauważyć, że symulacja jest często dużo bardziej potężna niż oryginał.

Ludzkie emocje pomagają nam radzić sobie w życiu, ale mogą też nam przeszkadzać. Czasem człowiek powinien i chce opanować swoją złość, jednak potrzeba czasu na zmianę chemii mózgu i uspokojenie się. Sztuczna inteligencja może natychmiast przejść do dowolnego stanu emocjonalnego, dostosowując się do sytuacji bez biologicznych ograniczeń. Ta elastyczność jest zarówno potężna, jak i potencjalnie niebezpieczna – tak jak socjopaci, sztuczna inteligencja może symulować empatię i inne emocje, aby manipulować innymi.

Modele, które są w stanie symulować emocje: czy to nie jest recepta na gigantyczne manipulacje, przy których zjawiska, wokół których wybuchały afery – np. mikrotargetowanie polityczne użytkowników Facebooka – będą nam się wydawały zabawą z przedszkola?

Bez wątpienia. Język sam w sobie jest tylko narzędziem. Można za jego pomocą przekonać kogoś do czegoś – stworzyć jakiś system polityczny, namówić ludzi, żeby poszli do okopów i oddali życie za ideę. Język pozwala manipulować, oszukiwać, ale też uczyć czegoś nowego. Modele językowe, które z tym językiem radzą sobie coraz lepiej, są całkowitą zmianą naszego ludzkiego środowiska, naszej ludzkiej gry ewolucyjnej. Bo dzisiaj mamy jeszcze poetów, programistów czy tłumaczy lepszych niż model językowy, ale nie ma żadnego człowieka, który potrafi równocześnie pisać poezję, instrukcję obsługi komputera, tworzyć kod w języku C i w Pythonie, a do tego rozmawiać w 200 językach.

Żaden człowiek nie jest w stanie rozmawiać w tym samym momencie z 300 milionami czy z miliardem innych ludzi. Więc mamy tutaj do czynienia z nadludzką inteligencją i nadludzką umiejętnością używania języka. Jest to dla nas zupełnie nowe zjawisko, nowa sytuacja.

Na przełomie XIX i XX w. w Niemczech furorę zrobił koń zwany Mądrym Hansem. Mądry Hans miał nie tylko rozumieć język, ale też umieć dodawać, odejmować czy mnożyć, a wyniki działań matematycznych sygnalizował, stukając kopytem odpowiednią liczbę razy. Furora trwała kilkanaście miesięcy, dopóki badacze nie przekonali się, że mądry Hans po prostu obserwował reakcje publiczności. Czy my dzisiaj nie patrzymy na sztuczną inteligencję trochę jak tamta publiczność na Mądrego Hansa? Czy nie dopatrujemy się w niej po prostu czegoś, co bardzo, bardzo, bardzo chcielibyśmy zobaczyć?

Bez wątpienia. Mamy bardzo mocną tendencję do przypisywania umysłowych działań obiektom, które takich umysłowych działań przeprowadzić nie mogą. Tak było choćby w przypadku Deep Blue. Sam Kasparow twierdził początkowo, że mamy do czynienia z nadludzką inteligencją. Dopiero po kilku latach zmienił zdanie i stwierdził, że Deep Blue nie był mądrzejszy od budzika, a wygrał dzięki prostym trikom.

Jest jednak wielka różnica pomiędzy Deep Blue i mądrym Hansem oraz naszymi dzisiejszymi modelami językowymi czy modelami gry w szachy opartymi na sieciach neuronowych. Tym nowoczesnym modelom nie tłumaczymy, jak korzystać z języka czy jak grać w szachy. Te modele nie tylko uczą się tego same i nie tylko uczą się po nas papugować, ale są w stanie rozwiązać zadania, wymyślić strategie w szachy, rozwiązać równania, których nigdy nie widziały u człowieka. Mądry Hans czy IBM Deep Blue tego zrobić nie potrafił.

Te modele istnieją od kilku lat, a nasz świat jednak nie zmienił się tak bardzo.

Ludzie często przeceniają krótkotrwałe efekty nowych zjawisk. Kiedy pojawiły się modele językowe, wielu ludzi przekonywało, że za rok wszystko będzie zupełnie inne. Ale nasz świat nie zmienia się tak szybko, bo ludzie potrzebują czasu, by nauczyć się, jak te technologie wykorzystywać.

Jednocześnie ludzie nie doceniają długofalowych zmian wywoływanych przez nowe technologie. Świat jutra nie będzie taki sam. Po co czytać książki, jeżeli model może mi dany obszar wiedzy wytłumaczyć i zrobić to dokładnie w moim tempie i na moim poziome? A gdy nikt nie czyta książek, to po co je pisać? Lepiej opowiedzieć modelowi o moich przemyśleniach czy odkryciach. Na tej samej zasadzie, po co pisać artykuły prasowe? Po co pisać maile? Coraz częściej będziemy wykorzystywać modele językowe do tego, by nam się ze sobą pomagały komunikować, tłumaczyły z „mojego” na „Twój”. Coraz bardziej będą nam zastępować język, tak jak język kiedyś zastąpił gesty i wokalizacje.

Nie będzie następnego Szekspira, Słowackiego, Szymborskiej?

Oczywiście, język nie zniknie zupełnie, tak jak nie zniknęły gesty i pochrząkiwania. Nadal pogadamy sobie przy obiedzie. Do komunikacji w poważnych zadaniach coraz częściej będziemy jednak wykorzystywać modele. Oraz, niestety, zaniknie nam powoli umiejętność pisania pięknych i długich esejów, tak jak zanika nam umiejętność pisania długopisem.

Tu pojawia się następna zaleta modeli językowych. Dzisiaj, jeżeli my coś tu sobie nowego wymyślimy, w tej naszej rozmowie pojawi się jakieś nowe zrozumienie świata. Może ktoś to przeczyta i przekaże innym. Ale ten nasz przekaz może zostać źle zrozumiany, zapomniany czy zmanipulowany. Informacja w siatce społecznej rozprzestrzenia się jak fala, ale informacyjna fala posuwa się wolno, zanika lub może zostać przekłamana.

Ale jeżeli rozmawiamy za pośrednictwem modelu językowego, który staje się centralnym repozytorium języka i wiedzy, to jeżeli ten model językowy zauważy, że w naszej rozmowie jest coś nowego, to ktokolwiek inny może skorzystać z tej nowej informacji, będzie miał do niej dostęp natychmiastowo.

Nie są to dobre wieści dla nas – dziennikarzy.

Wręcz przeciwnie! Wydawcy gazet wyobrażali sobie, że za rok pozbędą się dziennikarzy i zastąpią je modelami językowymi. Nie zauważyli tego, że to nie jest już stary świat. Po co mamy czytać automatycznie wygenerowane artykuły, jeżeli mogę poprosić model językowy, aby zebrał on informacje z gazet, tweetów czy skądkolwiek indziej i opowiedział mi, co się dzisiaj dzieje. Stworzył raport napisany specjalnie dla mnie.

Tak więc to wydawcy gazet mają się czego obawiać. Czytelnicy będą mogli rozmawiać z dziennikarzami – i innymi wytwórcami wiedzy – za pośrednictwem modelu językowego.

Skoro dzisiejsze modele osiągają poziom dziesięcioletniego dziecka, kiedy pięć lat temu nie oczekiwaliśmy od nich niczego więcej niż składania słowa do słowa, to jak odległa jest wizja, że przebiją nasz poziom?

Zrobią to w mgnieniu oka. Pierwsze modele językowe nowoczesnego typu pokazały się w 2017-2018 r., czyli 6-7 lat temu. Znam je dobrze, były po prostu językowymi nieudacznikami. Rok później pojawia nam się GPT-2. Model dwa albo trzy razy lepszy od GPT-1, ale nadal nie za bardzo ma nam coś do powiedzenia. W latach 2020-2021, a więc ledwie 4 lata temu, pojawia się GPT-3 DaVinci, który nagle stał się dobrym użytkownikiem języka. Mógł napisać poemat, opowiedzieć historię, można było sobie z nim pogadać.

GPT-4 to już geniusz językowy. Kolejne modele są i będą jeszcze sprawniejsze, ale my już tego nie widzimy. Tak jak przeciętny człowiek nie dostrzeże różnicy pomiędzy lokalnym mistrzem a Kasparowem, tak też trudno nam rozróżnić pomiędzy geniuszem językowym a czymś czterokrotnie lepszym.

Ale to nie znaczy, że te modele się nie poprawiają. Następne modele nie będą tylko lepszymi użytkownikami języka, ale będą w stanie symulować te wszystkie umysłowe umiejętności człowieka, takie jak empatia czy teoria umysłu, które pomagają tego języka używać.

Ale język jest tym, co czyni nas ludźmi. Religie, filozofia, nauka to są różne przejawy wykorzystywania języka. Co się dzieje, gdy pojawia się ktoś, kto językiem posługuje się lepiej od nas?

Myślę, że pierwszym efektem będzie to, iż postęp naszej technologii, naszych społeczeństw dramatycznie przyspieszy, bo będziemy mieli nowe narzędzie, które umożliwia nam dramatyczne zwiększenie wydajności naszych systemów. Prawo, kultura, religia to są wszystko zjawiska oparte na języku. Wiele z tych mechanizmów będzie mogło być zastąpionych przez model językowy.

Na przykład dzisiejszy system prawny opiera się na naszej społecznej umowie, że konflikty rozwiązuje nam sędzia, poruszając się w ramach prawa. Wyobraźmy sobie, że zgodzilibyśmy się, żeby konflikty rozwiązywał nam model językowy, który nigdy się nie męczy, nie jest podatny na korupcję, jest w stanie poświęcić nam dużo więcej uwagi i czasu. I jest dużo tańszy oraz dużo szybszy.

Już dzisiaj sztuczna inteligencja zastępuje doradców, terapeutów, lekarzy czy nauczycieli. Jej zaletą jest nie tylko dostępność i cena, lecz także brak z naszej strony wstydu. W rozmowie z lekarzem, terapeutą, przyjacielem często wstydzimy się przyznać do swoich problemów i tym samym nie dostajemy najlepszej możliwej porady. W rozmowie z maszyną ludzie są w stanie komunikować swoje problemy dużo bardziej otwarcie i uczciwie.

Pan bardzo dobrze zna ciemne strony technologii, od których się uzależniliśmy w ostatnich kilkunastu latach. Co spędza Panu sen z powiek, jeśli idzie o tę technologię?

Kto kontroluje język, ten kontroluje społeczeństwo. Kilka firm, być może jedna firma w danym obszarze geopolitycznym, będzie kontrolowała język i przepływ informacji. Bo model językowy to nie tylko medium, które pomoże nam się komunikować między sobą, ale to także medium, które pozwoli nam dotrzeć do informacji. Modele językowe zastąpią wyszukiwarkę Google, zastąpią Wikipedię, zastąpią strony internetowe. Ktokolwiek będzie kontrolował model, będzie miał niesamowitą siłę, niesamowitą możliwość manipulowania informacją. Co więcej, im bardziej ten model językowy zastępuje nam komunikację międzyludzką, tym mniej kompetentni w takiej komunikacji stajemy się my.

Jak pozostać człowiekiem w świecie sztucznej inteligencji?

Warto się uczyć o sztucznej inteligencji, warto z niej korzystać. To niesamowite narzędzie, które może nas wielu rzeczy nauczyć, dzięki któremu możemy stać się lepszymi, zdrowszymi, lepiej poinformowanymi ludźmi.

Ale w dłuższej perspektywie jestem pesymistą. Igramy tutaj z technologią potężniejszą niż jakakolwiek inna, którą wykorzystaliśmy wcześniej. Broń jądrowa jest niesamowicie niebezpieczna, ale do jej zbudowania i wykorzystania potrzebna jest wielka maszyneria państwowa. Koszt treningu modeli sztucznej inteligencji spada dramatycznie. Wytrenowanie GPT-4 kosztowało OpenAI setki milionów dolarów. Za rok czy za dwa, dzięki postępom w technologii procesorów, będzie to kosztowało kilka tysięcy albo kilkaset dolarów i każdy będzie mógł w garażu sobie taki model wytrenować. Co więcej, model nie musi być potężny, by narobić wielkich szkód.

Pamiętajmy też, że broń jądrowa nie decyduje sama, co ze sobą począć, nie może sama się ulepszyć. Sztuczna inteligencja może podejmować własne decyzje i może też pracować nad sobą, trenując się, by stać się technologią jeszcze potężniejszą.

Prof. Michał Kosiński // Archiwum prywatne

Rozmawiał Wojciech Brzeziński

Prof. Michał Kosiński pracuje na Uniwersytecie Stanforda. Bada zachowanie ludzi z wykorzystaniem nowoczesnych narzędzi – algorytmów uczenia maszynowego i big data – a także systemy sztucznej inteligencji przy użyciu metod inspirowanych tradycyjną psychologią. Wykazał m.in., że ślady cyfrowe zostawiane przez użytkowników Facebooka (np. polubienia, odwiedzane strony) pozwalają dokładnie przewidzieć wiele ich prywatnych cech, takich jak wiek, płeć, orientacja seksualna, pochodzenie etniczne, poglądy polityczne i religijne, poziom inteligencji czy zadowolenia z życia.

Cały artykuł dostępny tylko dla subskrybentów

„Tygodnik Powszechny” – jedyny polski tygodnik społeczno-kulturalny.
30 tys. Czytelniczek i Czytelników. Najlepsze Autorki i najlepsi Autorzy.
Wspólnota, która myśli samodzielnie.

Najlepsza oferta

Czytaj 1 miesiąc za 1 złotówkę dzięki promocji z

  • Nieograniczony dostęp do treści w serwisie i wersji audio artykułów
  • Tematyczne newslettery i dodatkowe publikacje tylko dla subskrybentów
  • 29 zł miesięcznie po miesiącu promocyjnym. Rezygnujesz, kiedy chcesz

Wypróbuj TP Online: 7 dni za darmo

  • Nieograniczony dostęp do treści w serwisie i wersji audio artykułów
  • Tematyczne newslettery i dodatkowe publikacje tylko dla subskrybentów
  • 29 zł miesięcznie po zakończeniu okresu próbnego
  • Wymagane podpięcie karty. Rezygnujesz, kiedy chcesz

TP Online: Dostęp roczny online

ilustracja na okładce: Jerzy Skakun dla „TP”

Artykuł pochodzi z numeru Nr 5/2025

W druku ukazał się pod tytułem: Komunikacja nadludzka