Jak działa GPT-4

Wciąż nie przygasły dyskusje nad możliwościami i ograniczeniami generatora tekstu GPT-3.5 firmy OpenAI, a już powstała jego nowa wersja. Co zmienia?

Jarek Gryz

26.03.2023

Czyta się kilka minut

Opisaliśmy sztucznej inteligencji Midjourney autora tekstu. Oto, jak go sobie wyobraziła Łukasz Lamża / Midjourney /

W raporcie technicznym udostępnionym 14 marca – w dniu ogłoszenia nowej wersji systemu – OpenAI potwierdził, że program GPT-4 zbudowany został na podstawie tej samej architektury co GPT-3. Tym razem jednak jego twórcy odmawiają ujawnienia jakichkolwiek szczegółów technicznych, skazani więc jesteśmy wyłącznie na porównywanie funkcjonalności obu z nich. Jak się można było spodziewać, GPT-4 jest lepszy, a w niektórych przypadkach zdecydowanie lepszy od poprzednika.

W teście myślenia potocznego GPT-4 odpowiada poprawnie na 95,3 proc. pytań (wzrost z 85,5 proc. w przypadku GPT-3.5), w matematyce na poziomie szkoły podstawowej na 92 proc. (wzrost z 57,1 proc.), w rozumieniu tekstu i arytmetyce poziom poprawnych odpowiedzi wzrósł z 64,1 do 80,9 proc., a w zadaniach programowania w środowisku Python – do 67 z 48,1 proc. Imponujące są też wyniki GPT-4 w standardowych egzaminach, jakie zdają amerykańscy uczniowie i studenci. Na Graduate Record Examinations, obowiązującym na prawie wszystkie studia drugiego stopnia, GPT poprawił się z 25 do 80 proc. w części matematycznej, z 63 do 99 proc. w części językowej (to lepiej niż swego czasu uzyskał niżej podpisany), a na egzaminie prawniczym, tzw. Uniform Bar Exam, z 10 do 90 proc.

Na placu Pigalle

Podstawowe zasady działania obu systemów – GPT-3 i GPT-4 – są takie same. Wyobraźmy sobie, że mamy za zadanie dokończyć następujące zdanie „Najlepsze kasztany są...”. Metoda, jaką się mamy posłużyć, to dodawanie słowa po słowie najbardziej prawdopodobnej kontynuacji podanej frazy. I tak np. kolejnymi krokami w tej procedurze mogą być następujące rozwinięcia:

…dojrzałe;

…dojrzałe i soczyste;

…dojrzałe i soczyste, ale jednocześnie nie są zbyt suche.

Dodawane słowa nie są oczywiście przypadkowe, bo słowa występujące w każdym sensownym zdaniu czy dłuższym tekście są ze sobą ściśle skorelowane. Nie możemy więc po frazie „Najlepsze kasztany są” napisać: „aligator” ani wprowadzać chaotycznego szyku zdania „Najlepsze kasztany są nie ale suche dojrzałe jednocześnie soczyste zbyt i”. Umiejętność poprawnego dokończenia zadanej frazy jest wynikiem naszej kompetencji językowej, a tę nabywamy przez słuchanie i czytanie zdań naszego języka. Tak jak GPT.

Łukasz Lamża: Algorytmy rysują, piszą i rozmawiają już jak żywe, czujące istoty. Budzi to problemy technologiczne i prawne, ale też kłopotliwe pytania o naszą własną kreatywność, przytomność i nasze automatyzmy.

Procedura dodawania słowa po słowie do zadanego tekstu jest już od lat stosowana w automatycznych systemach generujących tekst. Pisanie tekstu przez maszynę to nic innego jak odpowiadanie raz za razem na pytanie „jakie jest najbardziej prawdpopodobne słowo po tekście widzianym dotychczas?”. Wartości tych prawdopodobieństw odczytywane są z kolei z modelu języka, jaki stworzył samodzielnie GPT na etapie uczenia się (do czego jeszcze wrócimy).

Gdyby więc po frazie „Najlepsze kasztany są...” najbardziej prawdopodobne były słowa „dojrzałe” (2,5 proc.), „świeże” (2 proc.), „dobrze” (1,9 proc.), to wybrałby z tej listy słowo „dojrzałe”. Choć to nie do końca tak działa. Gdyby bowiem algorytm wybierał za każdym razem słowo najbardziej prawdopodobne, generowałby identyczny tekst w odpowiedzi na tę samą frazę. Tymczasem w reakcji na sugestię „Najlepsze kasztany są...” GPT wytwarza za każdym razem inne zdanie:

…zdrowe i soczyste, z bogatym smakiem i teksturą.

…dobrze ułożone w szeregach na straganie jesienią, mają gładką skórkę i błyszczące brązowe barwy, a po upieczeniu pękają lekko i mają miękki, ale jednocześnie chrupiący miąższ.

…świeże i jędrne, o równomiernym brązowym kolorze i pozbawione plam czy uszkodzeń.

Okazuje się, że GPT wybiera losowo słowa z nieco mniejszym niż to najwyższe prawdopodobieństwem, co ma dodatkową zaletę, że wytworzony tekst jest bardziej interesujący – bo oryginalny. Oczywiście lista – za każdym razem inna – z której GPT wybiera słowa, jest dość krótka. W tym przypadku nie znalazły się na niej najwyraźniej słowa prowadzące do zbudowania zdania „Najlepsze kasztany są na placu Pigalle”, które osobom z mojego pokolenia wydają się najbardziej stosowne. Ale GPT kieruje się wyłącznie powszechnością występowania pewnych zwrotów w całym korpusie języka, a nie popularnością filmowego agenta.

Spojrzenie wstecz

Dociekliwy czytelnik zapyta zapewne, dlaczego dodajemy pojedyncze słowa do generowanego tekstu zamiast sekwencji tychże słów. Sekwencje o wysokim prawdopodobieństwie wystąpienia w języku byłyby na pewno bardziej sensowne niż frazy składane z pojedynczych słów. Otóż problem w tym, że nierealne jest szacowanie prawdopodobieństwa występowania w korpusie językowym wszystkich takich sekwencji. Według Rady Języka Polskiego posługujemy się na co dzień około dziesięcioma tysiącami wyrazów. Możliwych sekwencji dwuwyrazowych jest więc sto milionów.

A sekwencji dwudziestowyrazowych jest mniej więcej tyle co cząsteczek we wszechświecie. Niemożliwe jest więc wygenerowanie wszystkich takich sekwencji, a tym bardziej szacowanie ich prawdopodobieństwa, bo tylko bardzo niewielka część z nich była kiedykolwiek zapisana.

Co więcej, w rzeczywistości GPT i podobne mu algorytmy nie rozkładają tekstu na słowa, lecz na tzw. tokeny – czasem są to słowa, ale innym razem tylko fragmenty słów, a nawet pojedyncze litery. GPT-3 miał słownik składający się ze 175 tysięcy tokenów o przeciętnej długości około czterech znaków. Dzięki tej sztuczce algorytm potrafi np. analizować neologizmy – posłusznie opisuje mi „mechanoklikoturbotron”, zgadując, że jest to pewnie jakaś zaawansowana maszyna, choć słowa takiego próżno szukać w całym internecie.

Algorytm „tokenizujący” wykorzystywany przez GPT (jeden z wielu drobnych ukrytych w nim cudów inżynierii), którym można pobawić się w internecie, sprytnie reaguje też choćby na nazwiska: w zdaniu „My name is John Tygodnikowski” wydziela jako osobny token końcówkę „owski”, która dostarcza mu cennych informacji, w jakim regionie „uniwersum tekstu” się znalazł.

Opisana powyżej metoda ma niestety poważne ograniczenia. Żeby zbudować pojedyncze zdanie, wystarczy patrzeć wstecz na kilka jego ostatnich słów. Ale nie da się w ten sposób zbudować długiego tekstu. Np. niemożliwa jest zmiana wątku w generowanym tekście, bo wtedy nowe zdanie jest zupełnie niezwiązane semantycznie ze zdaniem poprzednim. Co więcej, nawet w krótkich tekstach odwołujemy się często do myśli wyrażonej kilka zdań, a nawet kilka akapitów wcześniej. Korelacja semantyczna między słowami takiego tekstu jest wówczas bardzo odległa i nie daje się uchwycić przez analizę słów występujących blisko siebie.

Tradycyjne modele języka nie radziły sobie z tym problemem, bo brały pod uwagę tylko jedno do trzech ostatnich słów w generowanym tekście. Nawet zwiększenie ostatnio tego limitu do
7-8 słów wydawało się kresem możliwości obliczeniowych współczesnych komputerów. Aż do czasu GPT-3, bo ten potrafił zanalizować aż 2048 tokenów wstecz (ok. 1500 słów). I to głównie jest źródłem zdumiewającej jakości tekstu generowanego przez ten system.

Sieci neuronowe, na których opiera się GPT, znane są od kilkudziesięciu lat, a użyta tu ich szczególna odmiana zwana „transformer” zaprojektowana została u konkurencji, w Google, przed sześciu laty. Jej kluczowym elementem jest tzw. mechanizm uwagi: twórcy transformera opisali jego strukturę w artykule naukowym o tytule „Attention Is All You Need” – „Potrzeba ci tylko uwagi”. Mechanizm ten to komputerowa wariacja na temat zjawiska psychologicznego o tej samej nazwie. Pomyślmy o czytelniku „Trylogii” Sienkiewicza, który próbuje przewidzieć, jak skończy się zdanie: „Zza rogu wyszedł…”. Nie każde spośród tysięcy poprzedzających słów jest tak samo istotne.

Opis przyrody nie bardzo pomaga w ustaleniu, czy bardziej prawdopodobnym dokończeniem będzie słowo „Kmicic” czy „Wiedźmin”, za to spore znaczenie będzie miał fakt, że pojawiły się wcześniej słowa „Zagłoba” albo „Oleńka”. GPT, analizując tekst, samodzielnie decyduje, które spośród poprzedzających tokenów najmocniej determinują wybór następnego. Transformer to więc złożona, wielowarstwowa sieć neuronowa o niebanalnej „anatomii”, jeśli jednak chcemy ją zrozumieć, musimy przyjrzeć się sieciom neuronowym jako takim. Te zaś są idealizacją funkcjonowania ludzkiego mózgu.

Trzysta miliardów słów

Weźmy prosty przykład i zastanówmy się, jak odróżniamy psa od kota. Nikt z nas nie robi tego na podstawie książkowej definicji, ale dzięki setkom albo tysiącom obserwacji obu zwierząt. Tak samo rzecz się ma z sieciami neuronowymi. Po przeanalizowaniu tysięcy zdjęć podpisanych odpowiednio „pies” lub „kot” sieć neuronowa wyłuskuje cechy bardziej charakterystyczne dla jednego niż dla drugiego i wedle tego dostosowuje wagi odpowiadających im sygnałów. Po zakończeniu procesu uczenia się wszystkie te wagi są ustalone i mówi się, że stworzony został model do rozstrzygania, czy na nowo pokazanym zdjęciu jest pies czy kot.

GPT zbudował model do rozpoznawania nie obiektów na zdjęciach, tylko ludzkiego języka. Zadaniem tego modelu, tak jak w powyższym przykładzie, jest poprawna predykcja. W tym przypadku chodzi o przewidzenie, jak kontynuować tekst w taki sposób, w jaki zrobiłby to człowiek.

Z perspektywy badaczy sieci neuronowych model tej wielkości jest gigantyczny, być może największy, jaki kiedykolwiek zbudowano. Ale z punktu widzenia ilości informacji, jakie koduje, jest on niebywale wydajny. OpenAI ściągnął bowiem z internetu niemal wszystkie teksty, jakie tam kiedykolwiek umieszczono: książki, artykuły, blogi, reklamy itp. – w sumie około biliona słów. Po odsianiu materiału o niskiej jakości pozostało jeszcze 300 miliardów słów, których użyto do uczenia GPT-3. Ten zbiór wymagałby 2-3 milionów książek do jego zapisania i jest sto razy większy niż wszystkie zasoby Wikipedii.

Sam proces uczenia jest więc niezwykle żmudny. Dla każdego analizowanego słowa wymaga on bowiem przejrzenia 2048 poprzedzających go tokenów, w celu ustalenia kontekstu, w jakim to słowo się pojawiło. A „zapamiętywanie” kontekstu wymaga z kolei dostosowania każdorazowo wszystkich parametrów modelu, których jest... 175 miliardów. Nic zatem dziwnego, że cykl treningowy wymagał kilku miesięcy obliczeń wykonywanych na klastrze złożonym z tysięcy najpotężniejszych obecnie procesorów graficznych. GPT-4 tymczasem posiada „okno uwagi” o długości 8192 lub 32 768 tokenów, zależnie od wersji. Ta druga wersja patrzy więc na każdy token przez pryzmat ok. 24 tysięcy poprzedzających go słów.

Co jest na zdjęciu?

Jak już wspomniałem, w przypadku GPT-4 OpenAI nie zdradza szczegółów dotyczących przygotowania danych ani metody uczenia czy nawet wielkości modelu zastosowanych w nowym systemie. Pozostaje nam samodzielne odkrywanie różnic w działaniu oraz poddawanie tego programu rozmaitym testom – takim jak te przytoczone na początku.

A możliwości testów jest teraz więcej. Jedną ze znanych nowości w GPT-4 jest moduł wizji komputerowej, który umożliwia mu interpretację ilustracji. Nie jest to przy tym opisany wcześniej prosty system rozpoznawania przedmiotów (np. odróżniania kotów od psów), ale dużo bardziej wyrafinowany instrument do ich analizy. Kiedy jeden z użytkowników zapytał, co niezwykłego widać na obrazku pokazanym na sąsiedniej stronie, GPT-4 odpowiedział, że to kabel przeznaczony do monitora wetknięty do smartfona. Inne przykłady pokazują, że GPT-4 rozpoznaje memy, ironię i nienaturalność pokazywanych mu ilustracji.

Łukasz Lamża: Jeżeli wszechświat jest nieskończony, a atomy można uporządkować na skończoną liczbę sposobów, to istnieje w nim nieskończenie wiele kopii Ciebie czytających ten artykuł. Logiczne? Sprawdźmy.

Choć w porównaniu z niewiarygodnymi możliwościami językowymi GPT-4 umiejętność interpretacji ilustracji nie wydaje się niczym szczególnym, to samo zintegrowanie obu w jednym systemie jest osiągnięciem przełomowym. Wielu ekspertów sztucznej inteligencji zwracało uwagę na barierę, jaką w rozwoju tej dziedziny była trudność z budową spójnego systemu, który poprawnie interpretowałby dane różnego typu. Jeśli ostatecznym celem sztucznej inteligencji ma być stworzenie maszyny podobnej do człowieka, to musi ona być w stanie odbierać ze środowiska i spójnie interpretować wszelkie dostępne bodźce. Wydaje się, że GPT-4 zrobił krok w tym właśnie kierunku.

Łatwość, z jaką dzięki GPT możemy generować teksty o przyzwoitej jakości, spowoduje już wkrótce, że większość z nich będzie autorstwa maszyny, a nie człowieka, i będą one nieodróżnialne od tych pisanych przez ludzi. Tak jak ten.

Osoba podająca się za autora powyższego artykułu jest profesorem informatyki i filozofii na York University w Toronto.

sztuczna inteligencja