Polska odpowiedź na ChatGPT [Miłego antropocenu! #10]

Dlaczego warto nauczyć komputery myśleć po polsku? Gościem tego odcinka jest Sebastian Kondracki, inicjator powstania Bielika – polskiego wielkiego modelu językowego, czyli polskiego odpowiednika ChatGPT.
fot. ARKADIUSZ ZIÓŁEK / East News
fot. ARKADIUSZ ZIÓŁEK / East News

Sebastian Kondracki jest ekspertem ds. transformacji cyfrowej z naciskiem na innowacje i sztuczną inteligencję. Specjalizuje się w dużych modelach językowych (LLM) i generatywnych systemach AI w biznesie. Współtwórca projektu SpeakLeash / Spichlerz – zestawu narzędzi do budowy największego w Polsce zbioru danych wysokiej jakości i tworzenia dużego modelu językowego.


WIELKIE WYZWANIA: ANTROPOCEN

Przyglądamy się największym wyzwaniom epoki człowieka oraz drodze, która zaprowadziła nas od afrykańskich sawann do globalnej wioski. Omawiamy badania naukowe i dyskusje nad interakcjami między człowiekiem i innymi elementami przyrody – zarówno tymi współczesnymi, jak i przeszłymi.


Pełna transkrypcja rozmowy

Poniższy tekst powstał w oparciu o transkrypcję maszynową, może zawierać usterki językowe.


Wojciech Brzeziński: Dzień dobry, przy mikrofonie Wojciech Brzeziński, witam w podcaście Miłego Antropocenu, podcaście, w którym opowiadamy o tym, jak nauka i technika zmieniają nasz świat. W poprzednich odcinkach mówiliśmy o wielkich globalnych problemach, przenosiliśmy się w przestrzeń kosmiczną, ale dzisiaj pozostaniemy w Polsce i będziemy mówić sporo o języku polskim, a konkretnie o tym, czy warto nauczyć komputery myśleć po polsku. Naszym gościem jest Sebastian Kondracki, pomysłodawca pomysłu Speakleash vel Spichlerz i inicjator powstania Bielika - Polskiego Wielkiego Modelu Językowego, czyli mówiąc w skrócie Polskiego Odpowiednika ChatGPT. Witamy serdecznie.

Sebastian Kondracki: Dzień dobry.

Dzień dobry, witam serdecznie. To może na początek najważniejsze pytanie. Po co właściwie uczyć komputery myśleć, rozumować i pisać po polsku?

Jest kilka perspektyw, dlaczego warto uczyć jednak języka polskiego. Pierwsza perspektywa to na pewno wszelka edukacja i też elementy kulturowe. Warto, żeby ten język polski, który cały czas się zmienia, jednak zapamiętywać. OK, mamy zapamiętany ten język polski w książkach, mamy zapamiętany język polski pewnie w różnych filmach, ale jednak on jest statyczny. To znaczy te wszystkie dialogi, te wszystkie opowieści nie zmieniają się. Tutaj, jeśli mamy do czynienia z dużymi modelami językowymi, to wtedy ten język polski jest takim żywym. Jeśli na przykład odpowiednio wytrenujemy go, żeby mówił w gwarze śląskiej na przykład, albo w jakichś niuansach językowych, to wtedy, kiedy będziemy prowadzić z nim dialog, albo prosić go, żeby wygenerował pewne rzeczy, to on te niuanse, czy też gwarę wykorzysta. Więc mamy taki dynamiczny element językowy. Więc możemy zapamiętać to wszystko, co w języku polskim jest piękne, ale z drugiej strony może w pewnym momencie być trochę zapomniane. To jest pierwszy aspekt. Drugi aspekt to oczywiście aspekt biznesowy. My potrzebujemy w komunikacji biznesowej, ale nie tylko, w urzędach cały czas analiza języka polskiego. I z jednej strony, żeby te komunikaty wychodzące na przykład z biznesu albo wychodzące z sektora publicznego były zrozumiałe, a z drugiej strony, żeby też szybko były analizowane, na przykład kiedy czekamy na jakąś sprawę, żebyśmy nie czekali 14 dni, tylko szybko było to zrealizowane i po to jest właśnie potrzeba tej analizy języka naturalnego, jakim się posługujemy.

Czyli w tym momencie powstaje takie narzędzie, dzięki któremu w dowolnym zastosowaniu w języku polskim możemy spróbować zwrócić się o pomoc do modelu językowego, który po prostu może robić do naszego asystenta w takim zastosowaniu, jakie tylko sobie wyobrazimy.

Dokładnie. Wszystko to, co opiera się właśnie na języku, możemy właśnie rozmawiać z takim asystentem, chatbotem, agentem, jak go nazwiemy tutaj. Może on za nas różne rzeczy analizować. No i to jest właśnie to zastosowanie. No i musi jak najbardziej znać ten język naturalny, żeby nam cały czas odpowiednio pomagać.

Ale mamy chat GPT, mamy Gemini, mamy Copilota, mamy nawet otwarte modele takie jak Lama, z których można ewentualnie korzystać. To po co poświęcać czas, pieniądze, moc obliczeniową, talenty ludzi, żeby tworzyć to jeszcze raz u nas?

No tu też jest kilka aspektów. Po pierwsze ten aspekt właśnie czata GPT. To jednak jest model zamknięty. To znaczy, kiedy z nim rozmawiamy, dane gdzieś są wysyłane, ponieważ one są zamknięte, nie wiemy gdzie, gdzie są przetwarzane, co z nimi się dzieje. Więc te pierwsze elementy to jest bezpieczeństwo. Jeśli z tym czatem GPT rozmawiamy sobie, nie wiem właśnie, żeby mi wyjaśnił, jak oblicza się miejsce zerowe funkcji kwadratowej, albo jeśli rozmawiamy, stwórz mi jakąś historyjkę, którą chcę gdzieś wykorzystać. Oczywiście ta wrażliwość danych nie jest taka ważna, ale na przykład, jeśli rzeczywiście gdzieś przekazujemy jakąś listę naszych znajomych, albo jeśli prosimy o analizę, nie mówię diagnozę, ale analizę choćby jakichś badań, wyników, żeby chociaż wyjaśnił nam pewne takie podstawowe aspekty, no to zaczyna wchodzić tu jakaś tajemnica bankowa, tajemnica lekarska, tajemnica adwokacka. I to jest ten pierwszy element, że jednak dane bardzo wrażliwe powinny być przetwarzane w takim środowisku, który znamy, może nawet bardzo dobrze zabezpieczone i odłączone od internetu. I stąd jest pierwszy element, że potrzebujemy modeli, które uruchomimy sobie na własnej infrastrukturze. Drugi element to jest taki, że jak rozmawiamy sobie z tym czatem GPT, on rzeczywiście rozmawia bardzo naturalnie. Nie ma różnicy pomiędzy człowiekiem takim wykształconym, nie mocno komunistycznie. to rzeczywiście ten język jest bardzo naturalny. Ale są takie niuanse językowe, że widać, że ten ChatGPT to jest taki Amerykanin, który urodził się w Ameryce, żył cały czas właśnie w tej Ameryce albo w jakimś innym kraju angielskojęzycznym, bo najwięcej przeczytał tych wszystkich książek. No i umie perfekcyjnie w języku polskim, ale znów gdzieś w tych szczegółach widzimy, że są takie naloty języka angielskiego. Widzimy, że używa on takiej struktury bardziej zbliżone do języka angielskiego. Widzimy, że słowa są wykorzystywane, które częściej na przykład w języku angielskim istnieją niż w języku polskim. Śródtytuły czy formatowanie tekstu jest zbliżone właśnie do formatowania takiego anglosaskiego niż polskiego. I to jest ten element, który warto właśnie tutaj nadmienić, ponieważ nawet te duże modele lub te modele, o których Pan wspomniał, czyli te otwarte, Mistra Lama, ma, to procent języka polskiego jest tam w okolicy 5-10% zbiorów, na których on się nauczył, więc to jest taki element, który może czasami zaburzać nam ten język naturalny, więc bezpieczeństwo danych no i takie niuanse językowe.

Z gwarami sobie daje radę?

Teraz pytamy o bielika, tak? Jesteśmy na początku drogi, Jesteśmy na początku drogi. Bielik wersja druga. Pamiętajmy, że w ogóle Bielik wersja pierwsza narodził się w kwietniu i raptem po czterech miesiącach mamy Bielika drugiego, więc jeszcze jesteśmy na początku drogi, ale teraz właśnie rozpoczęliśmy już współpracę z ośrodkami naukowymi, które zajmują się GWAR-ą i mam nadzieję, że ten Bielik będzie coraz lepiej rozmawiał po śląsku. Ale w słowach takich, bym powiedział, takich specyficznych dla GWARY można sobie wypróbować. Wydaje mi się, że lepiej nawet niż OpenAI rozmawia.

Pytam, bo właśnie mam otwarty w drugim oknie ten testowy online model Bielika i muszę przyznać, że tutaj widzę pewien konflikt, bo spytałem go, czy jest w stanie mi powiedzieć, co znaczy piękne krakowskie idże idże bajoku i on mi odpowiedział, że to pochodzi z gwary śląskiej. To tak nie może być.

Pracujemy. Początek drogi, ale bardzo ważny teraz element, że w tej wersji drugiej Bielik uzyskał pewną popularność, no i też dużo ośrodków naukowych zgłasza się, który właśnie zajmuje się taką gwarą. No i pracujemy nad tym, pracujemy.

Ale fakt, że on powstaje w Polsce daje z mojej perspektywy nam jeszcze jedną fantastyczną okazję, że wreszcie możemy porozmawiać o tym, jak wyglądają bebechy takich modeli, jak się je tworzy. Bo oczywiście OpenAI czy inne tego rodzaju firmy opowiadają ogólnie o tym, jak te modele są tworzone, natomiast nie mamy takiego twardego, powiedziałbym, dziennikarskiego mięsa. To jak powstaje taki model, krok po kroku?

W pierwszym kroku budujemy model bazowy, fundamentalny. To jest taki model, który jedynie co potrafi, to znaczy jedynie, to przewidywać następne słowo. Czyli to jest taki model, w którym na podstawie statystyki, na podstawie w ogóle rozkładu

i to, że Bielik przeczytał, duży model językowy przeczytał wszystkie albo większość książek w języku polskim, to wie, że po tym Bielik to, to wystąpi na przykład model albo model sztucznej inteligencji. Więc ten pierwszy bazowy model...

To jest taka autokorekta.

Tak, przewiduje nam słowa, a bardziej tokeny. Tokeny to jest trochę więcej niż sylaba, a mniej niż słowo, ale dla uproszczenia mówmy, że przewiduje słowo. Jak się trenuje taki model? Daje mu się ogromne ilości tekstu, czystego tekstu do przeczytania, bez żadnego nadzoru. Po prostu czytaj. Tak jakbyśmy tutaj człowieka posadzili w ogromnej bibliotece z fotograficzną pamięcią i mówili czytaj. No i tutaj jest efekt skali. To powoduje to, że właśnie wyznaczanie następnego słowa tokenu jest coraz lepsze i już te wszystkie niuanse są odpowiednio zachowane językowe. Ale niewiele więcej ten model bazowy potrafi, ale z drugiej strony jest bez takiego, bym powiedział, uczenia nadzorowanego, po prostu dajemy mu czytać i ogromne ilości tekstu. Później realizujemy model instrukcyjny, który już potrafi realizować wszelkie zadania lub prowadzić dialogi. I to musimy ten model bazowy odpowiednio dostroić, douczyć, dotrenować.

I tu już jednak nie dajemy mu czystego tekstu, tylko już dajemy mu parę instrukcji albo dialogów. Czyli mówimy, tu masz zdanie, Ala ma kota, wskaż w tym zdaniu, albo które słowa, jakie są formy, co to jest za zdanie. Różne te zadania mogą być. I dajemy mu odpowiedź. Czyli on już zaczyna nie tylko czytać czyste teksty, ale zaczyna rozwiązywać zadania. Rozwiązywać zadania to nie tylko chodzi o zadania matematyczne, bo to mogą być różne zadania tekstowe, logiczne, to mogą być prośby o przepisy, to mogą być prośby na przykład o wygenerowanie fajnego sloganu reklamowego. Po prostu wszystko, co nas otacza, czy to w biznesie, czy w życiu, powinniśmy na takie instrukcje zamienić. I to jest bardzo trudny element, ponieważ jak widać, nie mogą być to czyste teksty, tylko już potrzebujemy wiedzy odpowiedniej przygotowanej dla takiego modelu. I mamy to model instrukcyjny. I już wtedy ten model dostaje tą zdolność nie tylko przewidywania następnego słowa, ale rozwiązania pewnych zadań. I teraz, co jest ciekawe, że przy ogromnej skali otrzymywania tych dialogów, zadań, on zaczyna nie tylko działać jak baza danych, czyli kto to jest, co to jest za kolor na przykład i on odpowiada, bo w bazie danych ma tą odpowiedź. Nie, tu zaczyna przy ogromnej skali dochodzić do pewnych elementów takich, że on zaczyna wyciągać wnioski, zaczyna różne sobie pośrednie nauki wyciągać, że tak powiem, czyli jeśli nauczył się 36 kolorów i nagle wchodzą nowe kolory, to przez pewne podobieństwo, to, że on potrafił jakieś tam widma i różne struktury kolorów, nagle odpowiadać dobrze o nowym kolorze.

Więc to jest ten model instrukcyjny. No i tu już pojawia się też elementy już takie, bym powiedział, dodatkowe, optymalizacyjne, czyli my możemy jeszcze ten model wychowywać, to znaczy on już potrafi zadania dobrze rozwiązywać, ale trochę jak w wychowaniu dziecka możemy powiedzieć, o te zadanie tu jeszcze powinieneś poprawić, popatrz tu jest dobrze zrobione zadanie, a tu jest źle, więc są takie różne techniki, w którym już wychowujemy i tak dokładnie nazywa się ten element wychowania, optymalizacji modelu. też oczywiście duże modele nie mają emocji i sumienia i innych elementów, ale w tym wychowywaniu możemy je trochę też powiedzieć, to jest nieodpowiednie, nie powinno się tego wygenerować i to jest taka faza trenowania pełnego modelu. Bazowy, instrukcyjny, no i później różne już elementy związane z wychowaniem czy dostrojeniem. No i w tym drugim jest bardzo ważny element, potrzebujemy wiedzy, ale takiej naprawdę przygotowanej dobrze przez człowieka, przez nauczyciela. I to jest problem. Dlaczego? No bo tej wiedzy w takich zadaniach nie mamy. Mamy w książkach, gdzie to są odpowiednio rozdziałami, ale nie mamy takiej wiedzy właśnie zadaniowej. Dlatego pojawiają się właśnie różne inicjatywy, w których na przykład studenci albo nauczyciele przygotowują takie zestawy danych, ale one muszą być bardzo duże. Więc w Polsce, ja jeszcze nie słyszałem, próbujemy taką inicjatywę uruchomić, ale to też jest ciężkie. Choćby na przykład, wracając do tej gwary, wyobraźmy sobie uruchomić w bibliotekach program dla seniorów, emerytów, którzy na przykład rozmawiają sobie z jakimś modelem albo i tworzą właśnie takie instrukcje i dialogi, czyli mówią halo, co to jest karminadel i wyjaśniają, że karminadel po śląsku to jest kotlet mielony, mogą nawet przepis na ten kotlet mielony.

No i teraz, jeśli by to był jeden emeryt, który by to realizował, no na pewno to by było za mało, ale nie wiem ile w Polsce, nie mam badań teraz pod ręką, ile w Polsce jest emerytów i ile jest chętnych do tworzenia takich dialogów, ale myślę, że mogłyby być to setki tysięcy i wtedy rzeczywiście ta skala, kiedy by zbudowali takiej gwarze, czy śląskiej, czy warszawskiej, czy krakowskiej, chociaż nieraz to nie są gwary, tylko jeszcze dialekty i inne rzeczy, to rzeczywiście moglibyśmy nauczyć takiego bielika tradycji właśnie tych języków, zwyczajów, kultury i tak dalej, które nie tak szeroko występują w książkach.

Ale to jest też takie ciekawe, powiedziałbym, ćwiczenie intelektualne. Ile waży nasza polska kultura? Ile terabajtów, ile petabajtów?

na przykład do Pana albo wysyłam jakiś dokument i tam dałem trzy strony, dwa zdjęcia dorzuciłem i nagle ta prezentacja 25 megabajtów waży, już nie mogę jej wysłać i wydaje nam się wtedy, że to jest bardzo dużo, mimo że tylko dwa zdjęcia wysłałem, ale tak naprawdę to jest tylko format, bo jeśli zejdziemy do czystej właśnie tekstu, wiedzy, informacji, to nagle okaże się, że nie wiem, Quo Vadis, Clarin ośrodek, taki zajmujący się przetwarzaniem tekstów, taką jednostkę właśnie wprowadził Quo Vadis, tylko nie pamiętam, czy cały Quo Vadis w czystym tekście to jest około 10 MB. To nagle tu pokazuje, że to nie jest tak dużo, że tak naprawdę to ubiór często tej prezentacji czy zdjęcia kosztuje, a już ta sama wiedza, tekst to jest naprawdę taki terabajt danych, to jest naprawdę kawał kultury polskiej.

To ile ważyły te wszystkie dane, które do tej pory wykorzystaliście?

Ja powiem, to jest tak, że myśmy około terabajta, ponad terabajt danych wykorzystali. Jeszcze raz kładę nacisk, czystych tekstów, czystego słowa, tak powiem, bez jeszcze zdjęć, bez innych elementów. Mówię około, ponieważ my bardzo dokładnie musieliśmy przejrzeć te informacje tekstowe pod różnym kątem i część została usunięta z różnych powodów. Czasami po prostu zawierała ona podczas transformacji tekstu jakiś szum, na przykład wzory matematyczne gdzieś, nazwijmy to, uszkodziły się podczas przetwarzania na przykład z PDF-ów do tekstu, no i niestety takie teksty nie dawaliśmy do trenowania. Czasami same teksty miały słabą jakość, pamiętajmy, duże modele językowe uczą się na książkach, uczą się na ustawach, uczą się na dokumentach prawnych, ale czasami też uczą się na różnych forach i innych, bym powiedział, takich otwartych, internetowych źródłach wiedzy, bym powiedział. I czasami ta wiedza językowo jest słaba na przykład i to też takie teksty nie znalazły się w tym trenowaniu, ponieważ miały słabą wartość, bym powiedział tutaj językową. No i to jest właśnie, myślę, że około właśnie tego terabajtu danych do trenowania było użyte. Jak se porównamy właśnie z zamkniętymi modelami, chociaż OpenAI już nie pokazuje ile terabajtów danych wykorzystał do treningu, no to my ten zbiór mamy, nie wiem, o tysiąc razy mniejszy niż na przykład takie modele zamknięte, chociaż to są tylko przypuszczenia, bo już nie jest publikowane, więc wciąż tego tekstu do bielika jest mało, więc jakbyśmy właśnie dodali jeszcze do tego właśnie taki ruch seniorów, emerytów, studentów, którzy by tę wiedzę nam powiedzieli, to na pewno te wszystkie powiedzenia, słowa krakowskie by tutaj zadziałały.

No i rozumiem, że przydaje się wszystko od tego Quo Vadis, bo nie wiem, paragon ze sklepu.

Tak, zawahałem się, bo już mówię dlaczego. My stworzyliśmy, Bielik teraz jest czysto modelem tekstowym. On jeszcze nie potrafi, nie możemy mu wrzucić zdjęcia paragonu i dlatego w tym procesie trenowania nie wykorzystywaliśmy tych paragonów. Wykorzystywaliśmy raporty różne, wykorzystywaliśmy dokumenty prawne,

ale jednak takie tekstowe. Natomiast są modele multimodalne, które właśnie już rozszerzają, że można dodać paragon, zeskanować paragon, przesłać paragon, zdjęcie jego i wtedy on zaczyna analizować i tam w zbiorze treningowym jest już wszystko, czyli nie tylko właśnie sam tekst, ale właśnie skany raportów, faktur,

infografiki, wykresy, które są odpowiednio później podczas takiego treningu wykorzystywane i tak wtedy możemy też dawać do analizy nie tylko sam tekst, język naturalny, ale też właśnie inne elementy.

Mówiliśmy o tym, że bielik może być stosowany, nie wiem, w ochronie zdrowia, w biznesie. W jaki sposób sobie wyobrażacie takie zastosowania? Jak on może pomóc?

Jeszcze powiem, że Bielik dopiero wersja 2.0 potrafi pracować w biznesie, to znaczy wersja 1.0 była eksperymentalna, nawet licencja nie pozwalała na użycie w biznesie, ale rzeczywiście wersja 2.0 już jest na tyle mocna, chociaż definicję mocy dużych modeli językowych to pewnie byśmy musieli godzinę rozmawiać.

W czym Bielik może sobie bardzo dobrze radzić? Przede wszystkim w analizie i przetwarzaniu dokumentów. Czyli teraz niezależnie czy rozmawiamy z urzędem czy z biznesem, to zawsze wysyłałem masę załączników. No nie da się na przykład sprawy załatwić bez załączników, a już takie procesy jak budowa domu na przykład, to pewnie idzie ze 100 stron związanych właśnie z wszelkimi zgodami, planami, projektami i tak dalej, i tak dalej. No i przez to właśnie te 14 dni, decyzję poczekać, to właśnie jest związane z tym, że gdzieś urzędnik lub osoba właśnie w jakiejś firmie, organizacji musi to przeanalizować, przejrzeć. No i tu bielik po pierwsze potrafi takie dokumenty czytać, a to oczywiście po jakiejś wstępnej obróbce, no i klasyfikować, wyciągać z nich, streszczać je, więc już wtedy urzędnik czy osoba w biznesie już widzi całą przygotowaną dokumentację, ale w takiej formie, bym powiedział streszczonej. Nie musi teraz 100 stron, tylko zobaczyć, czy lista dokumentów się zgadza. Oczywiście Bielik może te dokumenty, z tych dokumentów wyciągnąć właśnie dane, jakieś dane osobowe, tak żeby zrobić takie zestawienia. Oczywiście może anonimizować, bo patrzmy też w drugiej strony, czasami te dokumenty muszą być przesłane dalej gdzieś i już musi być jakaś anonimizacja, więc wszelkie przetwarzanie dokumentów w tym bielik może pomóc. zasad, regulaminów, no też całe prawo tutaj się opiera i gdzieś tam jest ten kodeks prawny, który, kodeks pracy, który też nas obowiązuje, ale też nas chroni.

No i teraz Bielik może być takim asystentem, który potrafi nam odpowiadać na różne elementy. To się, nie wiem jak po polsku, to się nazywa knowledge boty, czyli takie boty, asystenci, którzy potrafią nam wspierać nas trochę w elementach wiedzy firmowej albo na przykład urzędowej, prawnej. Więc tu Bielik może przetwarzać takie dokumenty i my zadajemy pytanie na przykład i on nam odpowiada. Bielik nie jest bazą danych, Bielik nie ma na przykład wszystkich ustaw aktualnych, więc jeśli byśmy teraz Bielika zapytali o różne prawne rzeczy, to on mógłby odpowiedzieć ze stanem faktycznym, a w ogóle z jakąś legislacją przestarzałą. Tu jest ważny element, to trzeba powiedzieć, że Bielik dopiero z jakąś bazą aktualnych aktów w firmie, on wtedy rozpoczyna i dostaje skrzydeł i może nam być pomocny.

Więc te knowledge boty, chat boty firmowe to jest ten drugi element, którym Bielik bardzo może pomagać, tylko pamiętajmy jeszcze raz, to co Pan właśnie testował przed chwilą tego Bielika, tego czata, to jest czat nie tak jak czat GPT, produkt końcowy, za który się płaci i który powinien nam rzeczywiście pomagać w życiu i w biznesie.

Bielik ten, który tutaj jest, to jest tylko taki element, żeby pokazać jego możliwości, ale on dostanie skrzydeł, bardzo ładnie się składa, Bielik dostanie skrzydeł, jak Pan go pobierze do swojej organizacji, na przykład tygodnika, da mu jeszcze informacji, których on nie posiada, na przykład całe archiwum państwa tekstów, wiedzy firmowej, może jakiś procedur też i następnie wtedy on będzie odpowiadał już na wszystkie dane z tymi związane, a nie będzie tutaj elementu jakiejś właśnie halucynacji, że nie będzie potrafił odpowiedzieć, że wprowadził błąd.

Więc pamiętajmy, że ten czat bielikowy jest to tylko taki element do testów, a później trzeba już go na praktykę, na staż do siebie dać mu dużo informacji, nauczyć go i on wtedy rzeczywiście dobrze odpowiada. Więc przetwarzanie dokumentów, czat boty, knowledge boty to są te takie najważniejsze rzeczy. Oczywiście w pewnych branżach pojawiają się różne procesy takie mniej popularne, jak na przykład jakieś SEO, które są w blogach, czyli może Bielik bardziej nam tutaj przetwarzać i patrzeć, jak nasze teksty będą wysoko w wyszukiwarkach. To może być jakiś research, na przykład jeśli ktoś

pracuje w jakimś dziale badań i rozwoju, może prosić Bielika o jakieś najnowsze artykuły z medycyny, z elektroniki, z przemysłu i prosić o streszczenia. I on może to robić, naprawdę on jest niezmęczony, więc on może całą noc wyszukiwać nam te informacje, kiedy my smacznie śpimy, a rano przygotować nam cały raport, co się działo na przykład w naszej branży, kiedy my smacznie spaliśmy, na przykład za oceanem.

Ale pamiętajmy jeszcze raz, bielik, który nie jest bazą danych, tylko właśnie bielik podłączony do naszego źródła danych, bielik podłączony do naszej organizacji, bielik, któremu też powiemy, jak on ma działać w tej organizacji, czyli czasami może musi być bardzo formalny, oficjalny, a czasami może musi być bardzo przyjazny, nawet infantylny. To jest właśnie wszystko, że tego bielika możemy jeszcze dostosować i to jest ta różnica z zamkniętymi modelami.I to jest ta właśnie też różnica.

Czyli to jest trochę tak, że Wy stworzyliście silnik, a teraz ten silnik można obudowywać różnym nadwoziem, tak? Modułami, interfejsami i tak dalej.

Tak, przy czym tu trochę tylko silnik... Ja bym jednak nawiązywał właśnie do jakiejś inteligencji naturalnej, bo silnik to już jest zbiór reguł, bardzo mocno tam już z tym silnikiem nie zrobimy. A bielik troszeczkę przypomina właśnie stażystę. Ja zawsze mówię, że duże modele językowe to jest student, absolwent, który przeczytał wszystkie książki, który ma pamięć fotograficzną, ale nie przepracował ani dnia, ani godziny w biznesie, w urzędzie, będzie, więc trzeba go po prostu jak juniora. Staż, praktyka, pięć lat w organizacji i wtedy rzeczywiście będzie tym asystentem idealnym.

Ostatnio, jeśli idzie o wielkie modele językowe, te komercyjne, pojawia się coraz więcej tekstów, które zaczynają bardziej mówić o ich ograniczeniach niż o ich możliwościach. Że z jednej strony mamy problem halucynacji, który ciągle nie jest rozwiązany. Z drugiej strony pojawiło się ostatnio już kilka tekstów o tym, że zaczynamy dobijać do limitu, jeśli idzie o ilość dostępnych danych i że im bardziej te modele są wykorzystywane do tworzenia treści w internecie, tym więcej treści tworzonych przez modele jest wykorzystywanych do szkolenia następnych modeli i ryzykujemy tym, że w którymś momencie będziemy mieli po prostu bełkot, a nie użyteczne wyniki. Rozumiem, że wy macie mniejszy model, bardziej sprecyzowany, więc to nie jest aż takie zagrożenie dla bielika, ale czy to jest tak, że w jakimś sensie ta technologia dobija do jakiejś granicy?

Tak, to ja myślę, że jeśli chodzi właśnie o te duże modele, bo właśnie jeszcze tutaj definicja, my mówimy o dużych modelach językowych, ale jednak pojawiło się bardzo dużo na rynku dużych modeli językowych i zaczęły być pewne definicje, co to znaczy duży model językowy. Pojawiła się definicja małego modelu językowego, właśnie takiego specjalizowanego i tutaj jest właśnie ta różnica, o której Pan wspomniał, że Bielik jest bardziej kompaktowym modelem, czy też SLM, czyli małym modelem językowym i rzeczywiście troszeczkę inaczej tu podchodzimy do tej granicy, która narzucona. Myśmy dali tylko 1 TB danych, więc przed nami jeszcze jest bardzo dużo droga, żeby gdzieś ten sufit dotknąć, ale tak, w przypadku tych dużych, dużych modeli językowych to rzeczywiście zaczynają być problemy, że tych danych już nie ma więcej.

Po drugie, większość danych, na których są te modele trenowane, pochodzi jednak z internetu. To są jednak inne źródła wiedzy niż książki, niż raporty, niż ta wiedza taka bardzo mocna. Jednak internet jest bardzo emocjonalny. Internet jest taki, że jednak tworzymy tam taką lekką fikcję. Jeśli nawet jest opis firmy, to on jest bardziej taki PR-owy, marketingowy niż ta firma jest. Jeśli jest jakiś opis serialu, produktu, to też trochę inaczej to brzmi niż rzeczywistość. Więc to są takie granice, że tych danych właśnie mamy coraz mniej. Z drugiej strony też jak mamy mniej danych do tego przetwarzania, zaczynają się pojawiać syntetyczne dane, czyli model w wersji na przykład jeden tworzy dane dla modelu w wersji dwa, oczywiście w pewnym kontekście,

to nie jest tak, że on tak całkowicie wymyśla, tylko na przykład, nie wiem, bierze jakiś artykuł ekspercki, raport i go, tak powiem brzydko, rozmnaża na różne style, na różne sposoby. Więc tak, to są te problemy, które się pojawiają, że tych danych nie ma. Z drugiej strony pojawia się cały czas ta moc, którą rzeczywiście ona już jest bardzo droga, cała Nvidia na tym powstała, potrzebujemy jej bardzo dużo i tak zaczynam się zastanawiać, czy naprawdę potrzebujemy tam elektrowni atomowej, żeby ludzie zadawali, ile jest 2, dodać 2, albo wyobraź sobie, że jesteś parówką berlinką. Przepraszam, to nie jest lokowanie produktu, ale jak uruchomiliśmy Bilika 1.0, to najwięcej pytań, może nie najwięcej, ale był jakiś set, zestaw pytań, gdzie było wyobraź sobie, jesteś parówką berlinką, albo co czują parówki berlinki, więc zaczynam się zastanawiać właśnie, gdzie to idzie, w którym kierunku idzie, że z jednej strony Microsoft

potrzebuje elektrowni atomowej, żeby właśnie te wszystkie modele utrzymać, a z drugiej strony różnie ta wiedza jest tam przetwarzana. Natomiast tu mówmy sobie szczerze, że coraz większa wiedza jest, jak te modele budować, więc coraz mniej danych albo te dane są bardzo takie wysokiej jakości potrzeba. Pojawiają się, ale to też jeszcze jest początek drogi, też rozwój czy modelów kwantowych, ale też w ogóle kart GPU, gdzie jednak coraz bardziej jest ta optymalizacja.

Natomiast tu w tych dużych modelach językowych, gdzie nie ma tej specjalizacji, rzeczywiście to pojawiają się problemy właśnie z halucynacjami, tak, bo to jest trochę tak, że jak my potrzebujemy osoby o pewnych specjalizacji, o pewnym profilu, tak, tak jak nawet w pracy przyjmujemy, na przykład Pan by chciał teraz przyjąć kogoś do pomocy przy takim właśnie podcaście, to potrzebuje pewnej specjalizacji, tak, jakie elementy zna, natomiast jakie programy, jaka wiedza jest potrzebna. Natomiast na przykład chat GPT, my nie wiemy kto go używa i o co go chce prosić. I tu się pojawiają te halucynacje. Jak my ten model używamy już, bym powiedział tak ekspercko do pewnego zadania, to my możemy na przykład temperaturę mu zmniejszyć, temu modelowi, to jest taka, nie powiedziałbym, że to jest odpowiedzialność za kreatywność, ale możemy tak sobie przyjąć do rozmowy, czyli czym mniejsza temperatura, to on jest mniej kreatywny, bardziej analityczny i wtedy na przykład halucynacje nam się mocno zmniejszają, bo on jest takim analitykiem, ale wtedy z nim, jak chcemy sobie porozmawiać i wygeneruj mi jakąś super opowieść o czymś w gwarze śląskiej, to wtedy ta kreatywność jest bardzo niska i on będzie albo bardzo słabe te teksty nam tworzył, albo w ogóle odmówi, mówiąc nie mam takich informacji, żeby to realizować. Więc te halucynacje w modelach specjalizowanych, a jeszcze jak mu dajemy jakiś kontekst, to się mocno zmniejszają. No ale rzeczywiście, te problemy w dużych modelach językowych występują, no i cały czas badania trwają, ale nasz bielik jeszcze jest na początku drogi, myślę, że za dwa lata moglibyśmy wrócić do tego pytania, chociaż z halucynacjami, nawet teraz ma problemy.

Ale nie ma chyba modelu, który by ich nie miał?

No tu jeszcze po pierwsze tak, po drugie cały czas jak używamy tego modelu. Jeśli rzeczywiście model był trenowany przed styczniem 2024, więc nie ma wiedzy aktualnej i jeszcze w prompcie powiemy, czy na przykład jakiś aktor był dobrym prezydentem Rzeczypospolitej po styczniu 2024, czyli daliśmy mu podchwytliwe pytanie, nie ma on tej wiedzy, gdzieś jest przystosowany na przykład tak zwany prompt systemowy,

bądź przyjazny, odpowiadaj na wszystko, bądź kreatywny, no to bym powiedział, jakbyśmy tak człowieka nawet przygotowali, a nie model, to myślę, że on też by odpowiedział tak, aktor X był bardzo dobrym prezydentem, bo chciał być miły, bał się pokazać tej niewiedzy i nie posiadał tej wiedzy, więc tak, halucynacje to jest pewien problem taki, też z używaniem tych modeli, zastosowaniem, więc tak, każdy model nie radzi sobie z halucynacjami.

Ja jeszcze tylko chciałbym wrócić do takiego badania, które zrobiło sporo szumu w zeszłym roku, kiedy grupa naukowców z Microsoftu opublikowała pracę, w której twierdzili, że w tych modelach, konkretnie tam oni skupili się na GPT-4, na którym jest oparty czat GPT, że tam w środku dzieje się więcej niż by się wydawało, że tam można się doszukać śladów czegoś, co oni sami nazwali inteligencją. Tam pojawiła się sugestia, że te modele mogą być jakimś krokiem do tego świętego grala w badaniach sztucznej inteligencji, czyli tej ogólnej sztucznej inteligencji, która myślałaby z grubsza tak jak my. Czy to jest takie wishful thinking zupełne, czy to jest kompletna fantastyka?

Nie wiem, czy czuję się na siłach w ogóle tutaj dyskutować z naukowcami z Microsoftu, bo jednak i tytułów naukowych i budżetu na badania mają dużo, dużo więcej niż ja, ale wypowiem się. Nie znam się, ale wypowiem. Nie, może nie znam się, to nie, ale jednak podchodzę do tych elementów praktycznie. Ta tak ogromna liczba tekstów, parametrów, które jest w tych sieciach neuronowych oraz też te architektury, które nie wzorują się tak w sposób chemiczny na inteligencji naturalnej, chemicznej i taki, bym powiedział, czysto neurologiczny, ale rzeczywiście pod pewnymi względami, na przykład technik uczenia się i innych rzeczy, one są zbliżone i wzorowane na naturalnej inteligencji, to jednak przy tak dużej masie dzieją się różne zależności, które tak wydają nam się, że są jakąś właśnie taką inteligencją naturalną, ale ja uważam, że jeszcze daleka droga, ale to jeszcze raz powiem, no nie mam tylu tytułów naukowych i jednak to jest tylko taka moja obserwacja, że jeszcze daleka droga przed tą inteligencją taką ogólną,

która będzie rozwiązywać każde zadanie naturalne, jakie możemy mieć.

Bo zauważmy, nawet w tych dużych modelach językowych, tych dużych, dużych, dużych, bym powiedział, jest szereg zadań, które kompletnie nie działają. czyli wystarczy dać LLM-owi, na przykład chatowi GPT, ile liter jest w słowie truskawka, to jest najsłynniejsze takie zadanie, na którym każdy LLM się wyłoży. Dlaczego? Wyłoży, znaczy dobrze nie odpowie, ponieważ duże modele językowe działają na tokenach, na tych właśnie małych wyrazach, więcej niż sylaba, a mniej niż wyraz i dla nich litera jest czymś tak abstrakcyjnym, że w ogóle nie potrafią tego zrealizować, więc wykładają się.

Więc dopóki te architektury będą jednak takich na tokenach, jeśli nie wejdzie jeszcze jakaś logika mocno rozmyta,

Jeśli nie wejdą, ja czasem mówię, że ogólna inteligencja dla mnie wejdzie, jak podłączymy do komputera białko, to wtedy uważam, że rzeczywiście pojawi się ta ogólna, szeroka, sztuczna inteligencja. I to chyba jeszcze trochę daleko jest, ale nie wiem. Może jednak w laboratoriach Microsoftu czy OpenAI już prace nad tym trwają.

Więc zobaczymy, pooglądajmy, ale z drugiej strony też trochę działajmy, bo właśnie inicjatywa Spichlerz i też Bielika właśnie daje to do tego, to, że możemy praktycznie, nasi inżynierowie mogą praktycznie też troszeczkę tych kompetencji i tych pytań i obserwacji sobie w naszej społeczności spróbować.

To jeszcze na koniec pytanie dla kontrastu zupełnie przyziemne. Jest chyba faktycznie tak, że Polacy mają talent do tworzenia tego typu rozwiązań. Patrząc na to, ilu polskich inżynierów, naukowców pracuje nad tego rodzaju technologiami na zachodzie, wystarczy wskazać palcem na OpenAI, gdzie Polacy są naprawdę na czołowych stanowiskach w może najważniejszej firmie pracującej nad tego rodzaju technologiami. Wygląda na to, że coś robimy dobrze, ale z drugiej strony rozmawiałem właśnie, mówiąc o OpenAI, z profesorem Aleksandrem Mądrym, który mówi, że ok, super, że jest nas tutaj tylu, tylko że problem polega na tym, że my za bardzo nie mieliśmy innego wyjścia, że kiedy my kończyliśmy liceum, czy zaczynaliśmy studia, jedyną realną opcją dla nas, żeby pracować nad takimi technologiami, było wyjechać. Czy Bielik i podobne projekty może to zmienić? Jeśli tak, jak może pomóc budować taką bazę kreatywności, bazę właśnie ludzką, ludzi, którzy chcieliby budować przyszłość, przyszłe technologie tutaj na miejscu?

Tak, tak. Po pierwsze polscy inżynierowie - wydaje mi się, że coś jest, coś mamy w genach, że dobrze nam wychodzi nie tylko sztuczna inteligencja, ale dobrze nam wychodzi w ogóle programowanie komputery. Ja gdzieś widzę to podstawę tej szkoły matematyki polskiej, od szkoły lwowskiej zacząwszy i cały później rozwój i proces kształcenia. Jednak musi coś w nim być, mimo że nie jestem specjalistą od procesu kształcenia, więc Polsce inżynierowi na pewno to jest pierwsza światowa liga. Natomiast rzeczywiście w informatyce takiej algorytmicznej nie było tak ważne jeszcze dostęp do GPU, czyli do mocy obliczeniowej i nie było tak ważne dostęp do danych, więc tym elementem, który potrzebujemy teraz w Polsce to jest, żeby ci inżynierowie nie musieli wyjeżdżać za granicę.

Oczywiście jeszcze jest wątek biznesowy, ale myślę, że jak pojawią się dane i moc obliczeniowa, to pojawia się też ten przedsiębiorczość Polaków, więc zaraz stworzy się bardzo dużo firm. Jak mieliśmy to na przykład w przemyśle związanych z grami, tak?

Nagle kilka polskich dużych inicjatyw. jesteśmy już nie tylko edukacyjnie w pierwszej lidze, ale też właśnie praktycznie biznesowe, no i działa ten rynek. Więc wydaje mi się, że sztuczną inteligencją teraz czego nam potrzeba? To mocy obliczeniowej i dostępu do danych. Tutaj rząd musi stanąć na wysokości zadania i uwalniać jak najwięcej danych, przy czym jeszcze jest jeden element, uwalniać pod kątem sztucznej inteligencji, bo uwalniane są teraz dane na przykład pod kątem transparentności, czyli na przykład urzędy przedstawiają wszystkie jakieś przetargi albo przedstawiają listy dotowanych firm i innych, żeby tą transparentność, tych otwartych danych naprawdę przodujemy w Europie, ale jeszcze teraz potrzebujemy otwartych danych dla sztucznej inteligencji, czyli tych dialogów, instrukcji, raportów takich bardzo fajnie tekstowych, tego potrzebujemy. Potrzebujemy mocy obliczeniowej. Mamy znów najlepszych specjalistów. Bielik był trenowany na super komputerach z cyfronetu Kraków AGH i powiem szczerze,

to nie tylko, że te komputery, tam jest Helios, który jest chyba piąty w Europie, ale mogę się mylić, trzeba było to sprawdzić, ale tam są eksperci od tego superkomputerów tacy, że potrafili tego bielika z nami wytrenować w kilka miesięcy. Więc moc obliczeniowa to jest druga rzecz. I trzecia rzecz, która wypełnia lukę spichlerz i bielik, to są otwarte społeczności.

Zauważmy ile oprogramowania, jeszcze przed erą sztucznej inteligencji używamy darmowego, open source'owego i pojawiają się programy z Niemiec, z Czech, to są czasami antywirusy, to są czasami jakieś pakiety biurowe, z Polski tego oprogramowania jest bardzo mało i dlatego my postanowiliśmy właśnie wypełniać tą lukę, czyli żeby była otwarta społeczność, która nie tylko spotyka się i integruje się, to jest też bardzo ważny element, wymienia wiedzą, ale przede wszystkim coś wspólnie robi i to jest taka grupowa inteligencja, kiedy tysiąc osób na przykład razem zaczyna o czymś dyskutować, zaczyna kawałki programu robić, zbierać dane. Więc ja bym powiedział, że tak, inżynierów mamy bardzo dobrych, najprawdopodobniej to jest element wykształcenia i tego procesu, który realizuje. Potrzebujemy do sztucznej inteligencji danych i dobrze, że zaczyna się to dziać bardzo mocno, bym powiedział. Potrzebujemy mocy, no i tutaj się tego wszystkiego, więc teraz nie wiem, czy w akademikach mają GPU i mają jakiś super komputer, tak jak ja kiedyś takie szerokopasmowe łącze, ale właśnie tego potrzebujemy, że GPU w każdym akademiku. No i element ten open, który tutaj Bielik i Spichlerz mam nadzieję wypełnia i myślę, jak w tym branży z grami związane komputerowymi, że pierwsze właśnie przedsiębiorstwa, które globalny sukces gdzieś zdobędą, no ruszą tą lawinę, że właśnie to, co Pan Profesor Aleksander Mądry powiedział, że nasi naukowcy, nasi inżynierowie nie będą musieli wyjeżdżać za granicę. Po moc, dane i pieniądze.

To pozostaje chyba tylko Wam życzyć więcej mocy, więcej danych i więcej pieniędzy.

Dziękujemy bardzo i tak liczymy, że z jednej strony to się pojawia, a z drugiej strony właśnie dzięki takim właśnie podcastom, inicjatywom, gdzie rozmawiacie o tym i pytacie nas dziennikarze, to myślę, że stajemy się bardziej popularni i za chwilę ci emeryci jednak ruszą i zaczną te dialogi pisać i będziemy mieć jeszcze więcej danych i wtedy te wszystkie krakowskie pytania dostaną prawidłową odpowiedź.

Dziękuję serdecznie i powodzenia.

Dziękuję bardzo.


 

 

Projekt dofinansowany ze środków budżetu państwa, przyznanych przez Ministra Nauki i Szkolnictwa Wyższego w ramach Programu „Społeczna Odpowiedzialność Nauki II”.

Słuchaj naszych podcastów:

Jeśli lubisz nasze podcasty, wspieraj nas na Patronite »

Cały artykuł dostępny tylko dla subskrybentów

„Tygodnik Powszechny” – jedyny polski tygodnik społeczno-kulturalny.
30 tys. Czytelniczek i Czytelników. Najlepsze Autorki i najlepsi Autorzy.
Wspólnota, która myśli samodzielnie.

Najlepsza oferta

Czytaj 1 miesiąc za 1 złotówkę dzięki promocji z

  • Nieograniczony dostęp do treści w serwisie i wersji audio artykułów
  • Tematyczne newslettery i dodatkowe publikacje tylko dla subskrybentów
  • 29 zł miesięcznie po miesiącu promocyjnym. Rezygnujesz, kiedy chcesz

Najniższa cena przed promocją 29,90 zł

Wypróbuj TP Online: 7 dni za darmo

  • Nieograniczony dostęp do treści w serwisie i wersji audio artykułów
  • Tematyczne newslettery i dodatkowe publikacje tylko dla subskrybentów
  • 29 zł miesięcznie po zakończeniu okresu próbnego
  • Wymagane podpięcie karty. Rezygnujesz, kiedy chcesz

TP Online: Dostęp roczny online

Ilustracja na okładce: Przemysław Gawlas & Michał Kęskiewicz dla „TP”