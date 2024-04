Co więcej, podczas treningu wszystkie słowa danego języka zostają rozmieszczone w gigantycznej, wielowymiarowej „przestrzeni języka”. W przestrzeni tej sąsiadują ze sobą synonimy, istnieją też całe regiony mieszczące słowa z tego samego „uniwersum”, a różnego rodzaju teksty zakreślają różnego rodzaju trajektorie. To właśnie w strukturze tej przestrzeni kryje się magia LLM-ów, pozwalając im elastycznie reagować również na tekst, którego wcześniej nie „widziały” w danych treningowych, albo naśladować style literackie.

Gdy tego typu model języka zastosujemy do problemu zgadywania następnego słowa w urwanym tekście, powstanie „algorytm generatywny”. Pierwsze takie programy potrafiły tylko to: wydłużać podsunięty im tekst – tzw. „prompt”, czyli „podpowiedź” – dopisując do niego jeden token, a potem znowu... i znowu... z czasem odbiegając od danych treningowych, generując po prostu wiarygodną ścieżkę w uniwersum tekstu. Gdy ok. 5 lat temu pojawiły się pierwsze naprawdę dobre LLM-y, generowały świeże, choć często nonsensowne lub wulgarne teksty, bez żadnej pretensji do bycia poważnym partnerem w rozmowie. Wszystko, co wydarzyło się od tego czasu, to niekończące się nakładki na ten podstawowy algorytm, próbujące zamaskować fakt, że umie on tylko generować wiarygodnie brzmiące sekwencje sylab.

Czego zaś LLM nie umie? Np. myśleć. Widać to szczególnie, gdy rozmowa wymaga choć minimum rozumowania. Oto cytat z rozmowy z Google Gemini: „[Użytkownik]: 13 plus 14 to przecież 27! [Gemini]: Nie, 13 i 14 dodane do siebie nie dają 27. Suma to 13 + 14 = 27”. ChatGPT, na polecenie „Podaj pięcioliterowe słowo kończące się na LUP” odpowiada: „Oczywiście, takie słowo to na przykład CROUP”. Jak to możliwe? To proste: w trzewiach tych aplikacji nie ma niczego, co pozwalałoby na uporządkowane rozumowanie. Biedne algorytmy reagują na ciągi znaków „13”, „27” albo „LUP”, robiąc to, co umieją: wypluwają z siebie poprawne językowo zdania, kręcąc się bezradnie wokół zadanych promptów.

Kontrola nad strumieniem

Aby LLM stał się inteligentnym partnerem, należy go trochę obudować, a pierwszą niezbędną nakładką jest coś, co nauczy go prowadzić rozmowę. Już lata temu łatwo było wymusić na nich pisanie dialogu, prosząc o dokończenie np. takiego prompta: „Osoba A: Cześć, Andrzej! Osoba B: Cześć, Asia! Co słychać?”. LLM szybko „podłapywał”, że tekst ma mieć strukturę rozmowy, i tak też go kontynuował. Dzisiejsze generatory takie jak ChatGPT mają na sztywno „wszyty” miniprogram, który wymusza przyjęcie formy dialogowej.

To jednak dopiero początek. Rozmowa to coś więcej niż dwa strumienie świadomości. Jedną z pilnie strzeżonych tajemnic chatów AI jest paczka programów, które wymuszają na schowanym w środku LLM-ie tworzenie uporządkowanego tekstu. Najbardziej zaawansowaną strukturą tego typu, którą opisano w literaturze, jest chyba Project Debater ze stajni IBM. W 2019 r. Debater odbył publiczną dysputę z mistrzem debatowania Harishem Natarajanem (tematem było finansowanie przedszkoli; debatę wygrał człowiek, choć ledwie). Szczęśliwie dla nas, w marcu 2021 r. IBM opublikował opis struktury Debatera.