Dlaczego algorytmy się mylą

Choć sztuczna inteligencja góruje nad nami w wielu dziedzinach, czasem łatwo przyłapać ją na banalnych błędach. Ale to właściwie nie jej wina.

15.03.2021

Czyta się kilka minut

Halowe Mistrzostwa Świata w Lekkoatletyce, bieg na 60 m kobiet. Sopot, 9 marca 2014 r. / ALEXANDER HASSENSTEIN / GETTY IMAGES
Halowe Mistrzostwa Świata w Lekkoatletyce, bieg na 60 m kobiet. Sopot, 9 marca 2014 r. / ALEXANDER HASSENSTEIN / GETTY IMAGES

Algorytmy klasyfikacyjne oparte na sieciach neuronowych – zwane czasem szumnie sztuczną inteligencją – są powszechnie stosowane w wielu dziedzinach naszego życia. ­Google Translate, wirtualni asystenci: Siri i Alexa, autonomiczne samochody – te wszystkie produkty korzystają z tej techniki. Działanie systemu opartego na takich algorytmach przebiega w dwóch fazach. W fazie pierwszej stworzony przez informatyków algorytm samodzielnie „uczy się”, przez znajdowanie korelacji wśród dostarczonych mu danych, i sam buduje pewien statystyczny model. W drugiej fazie, w oparciu o nowe dane i stworzony przez siebie model, system interpretuje nasze pytania (Siri), generuje tłumaczenie tekstu w obcym języku (Google Translate) bądź rozpoznaje pieszego na drodze (autonomiczny samochód).

Dopóki taki system działa poprawnie, nikogo nie interesuje mechanizm, na którym się opiera. Co więcej, jak pisałem już wcześniej (zob. „TP” 35/2020), sam model zwykle nie jest czytelny dla człowieka – możemy śledzić jedynie dane wejściowe i wyjściowe, a nie kolejne kroki „rozumowania” sztucznej inteligencji. Czy jest to powód do niepokoju? Otóż wydaje się, że tak, ponieważ kilka razy, kiedy udało się zinterpretować korelacje wykrywane przez algorytmy, okazały się one zupełnie przypadkowe. Jeśli więc zamierzamy powierzyć algorytmom interpretację zdjęć rentgenowskich czy wydawanie wyroków sądowych, to mamy się czym martwić.

Skąd się biorą dzieci

Oczywiście ludzie też popełniają błędy w interpretacji danych statystycznych. W 2004 r. Andrew J. Tatem z Uniwersytetu Oksfordzkiego i współpracownicy przedstawili w „Nature” zapowiedź kresu dominacji mężczyzn nad kobietami w sporcie. Otóż analiza statystyczna wyników biegów na sto metrów z ostatnich kilkudziesięciu lat pokazała, że w 2156 r. kobiety będą szybsze na tym dystansie niż mężczyźni. Od początku XX w. zarówno sprinterzy, jak i sprinterki osiągają coraz lepsze wyniki, ale – jak zauważyli badacze – kobiety systematycznie zbliżają się do mężczyzn (podczas igrzysk w Amsterdamie w 1928 r. różnica wynosiła 1,4 s na korzyść mężczyzn, w 2004 r. w Atenach – już tylko 1,08 s). Jeśli ten trend się utrzyma, najszybciej sto metrów podczas LXVI igrzysk olimpijskich powinna przebiec kobieta (z wynikiem 8,079 s; najszybszy mężczyzna osiągnie wtedy czas 8,098 s).

Z kolei Helmut Sies z Uniwersytetu w Düsseldorfie w 1988 r. – tym razem wyłącznie dla żartu – poddał analizie statystycznej dane z Niemiec na temat liczebności par bocianów na tym terenie oraz liczby urodzonych dzieci – i w krótkim liście do „Nature” wskazał na silną zależność ilościową między tymi zjawiskami. „W RFN martwią się spadkiem narodzin – tymczasem rozwiązanie problemu może być oczywiste dla każdego dziecka” – pisał Sies do redakcji czasopisma.

Czujemy intuicyjnie, że oba powyższe „odkrycia” są bezwartościowe – nawet jeśli nie potrafimy precyzyjnie uzasadnić, dlaczego tak jest. W pierwszym przypadku zwykły zdrowy rozsądek nie pozwala nam ektrapolować istniejących trendów w nieskończoność. Jak trzeźwo zauważył jeden z komentatorów, wiara w niezmienność tych trendów kazałaby uznać, że w 2636 r. kobiety przebiegać będą dystans stu metrów w czasie… mniejszym niż zero sekund. W drugim przypadku po prostu wiadomo, że nie ma związku przyczynowo-skutkowego między obecnością bocianów a narodzinami dzieci. Wiemy również, że bardzo wiele korelacji w naturze jest zupełnie przypadkowych – skorelowane zjawiska nie mają ze sobą żadnego związku (np. wspólnej dla obu przyczyny). Doroczne spożycie sera na głowę w USA jest silnie skorelowane z liczbą osób zmarłych w wyniku zaplątania się w prześcieradło; i co z tego wynika? W dużych zbiorach danych po prostu zawsze znajdziemy jakieś absurdalne korelacje. Odpowiadają za to wyłącznie rozmiary zbiorów i prawa matematyki.

Jak rozpoznać wilka

Algorytmy – w przeciwieństwie do nas – nie mają zdrowego rozsądku i nagminnie popełniają oba opisane powyżej błędy: nadmiernej ekstrapolacji i mylenia korelacji ze związkami przyczynowymi. Oto ilustracja pierwszego z nich. Krytycy programu autonomicznych samochodów od dawna już zwracają uwagę na pewną istotną barierę w rozpoznawaniu przez nie niebezpieczeństwa na drodze. Otóż, samochody te uczą się sytuacji typowych w ruchu ulicznym, dzięki czemu „wiedzą”, jak uniknąć potrącenia pieszego bądź zderzenia z innym pojazdem. Ale jak zareaguje taki samochód na lądujący awaryjnie samolot? Kamery autonomicznego samochodu niejednokrotnie obserwowały przemieszczające się na horyzoncie samoloty i uczyły się, że nie stanowią one żadnego niebezpieczeństwa w ruchu. Nie będą więc mogły wziąć pod uwagę tego, że tym razem coś z samolotem jest nie tak. A jak zareaguje taki samochód na trzęsienie ziemi? Albo tornado? Są to oczywiście wypadki bardzo rzadkie, ale krytyczne z punktu widzenia bezpieczeństwa. Zwróćmy też uwagę, że w przeciwieństwie do algorytmu, nawet początkujący kierowca będzie wiedział, co w tej sytuacji robić – że przed tornadem należy uciekać, a w przypadku trzęsienia ziemi – zatrzymać się. Problem w tym, że wiedza kierowcy o tornadach czy trzęsieniach ziemi pochodzi ze źródeł, do których algorytm nie ma dostępu.

Drugi błąd sztucznej inteligencji, a więc wykrywanie przypadkowych korelacji, zostało już udokumentowane wielokrotnie. W grupie badawczej Melanie Mitchell z Portland State University zbudowano prostą aplikację do rozpoznawania, czy na fotografii znajduje się zwierzę. Aplikacja działała znakomicie w pierwszej fazie testów, ale czasem popełniała banalnie proste błędy. Po analizie jej działania okazało się, że algorytm klasyfikował jako zwierzę każdy obiekt sfotografowany na rozmytym tle. Nic dziwnego, bo kiedy fotografujemy zwierzęta, szczególnie dzikie, robimy to najczęściej z dużej odległości i nastawiamy ostrość na obiekt naszego zainteresowania.

Inny słynny przykład to program, który miał nauczyć się odróżniać psy husky od wilków. Okazało się, że niemal wszystkie zdjęcia wilków robione były w śniegu – i algorytm skorelował obecność śniegu z etykietą „wilk”.

Przenośny, czyli chory

Nie wszystkie zastosowania algorytmów są na tyle błahe, żeby nad ich błędami można było przejść do porządku dziennego. Dwa lata temu John R. Zech z Uniwersytetu Kalifornijskiego w San Francisco i współpracownicy w czasopiśmie „PLOS Medicine” poddali drobiazgowej analizie automatyczny system do diagnostyki zapalenia płuc na podstawie zdjęć rentgenowskich. System został wytrenowany na podstawie aż 150 tys. zdjęć pochodzących z kilku różnych szpitali. Skuteczność diagnoz okazała się bardzo niejednoznaczna: system diagnozował trafnie, jeśli zdjęcia pochodziły ze szpitala, z którym miał już do czynienia, ale nie potrafił diagnozować zdjęć z jednego szpitala, jeśli uczył się wcześniej tylko na podstawie zdjęć z innych szpitali. Wyglądało to tak, jakby stawiał diagnozę nie na podstawie obrazowanych tkanek, ale raczej w oparciu o inne informacje zawarte na kliszy.

I tak właśnie było (choć udało się zidentyfikować tylko jeden taki dodatkowy „element diagnostyczny”). Otóż w jednym ze szpitali używano, poza stacjonarnym, również przenośnego aparatu rentgenowskiego do prześwietleń leżących, ciężko chorych pacjentów. W prawym górnym rogu kliszy tego aparatu umieszczony był napis „przenośny” i w fazie uczenia się system diagnostyczny skorelował ten właśnie napis z zapaleniem płuc w zaawansowanej fazie.

Ale czy wina leży na pewno po stronie algorytmów? Przecież to ludzie, a nie algorytmy, przygotowują dane, na podstawie których algorytmy się uczą. A to wymaga bardzo dokładnego planowania i ogromnej wyobraźni. Jeśli zabraknie któregoś z tych elementów, eksperyment łatwo może zakończyć się fiaskiem. Taka historia kilka lat temu przydarzyła się naukowcom z Chin. Xiaolin Wu i Xi Zhang z Shanghai Jiao Tong University postanowili zbadać, czy na podstawie rysów twarzy uzyskanych ze zwykłego zdjęcia można zidentyfikować przestępcę. W tym celu uzyskali od chińskiej policji 730 zdjęć z dokumentów tożsamości znanych kryminalistów, a ponadto ściągnęli ze stron internetowych 1126 zdjęć (w identycznych ujęciach) uczciwych obywateli. Następnie wytrenowali przy użyciu tych zdjęć cztery różne systemy klasyfikacyjne. W przeprowadzonych testach algorytm oparty na sieciach neuronowych w 89,51 proc. przypadków trafnie wskazywał, do której grupy należy osoba na niewidzianej wcześniej fotografii.

Kto jest winny

Wobec tak wielkiego sukcesu, który mógłby mieć dalekosiężne konsekwencje społeczne, Wu i Zhang postanowili pójść o krok dalej i sprawdzić, na jakie rysy twarzy zwracał uwagę algorytm przy podejmowaniu decyzji. Okazało się, że praworządni obywatele mają dłuższe odległości między wewnętrznymi kącikami oczu, większe kąty między nosem a kącikami ust oraz mniejszą krzywiznę górnej wargi.

Za tym dość skomplikowanym opisem kryje się coś prostego: uśmiech. Algorytm nie odkrył tego, co odróżniało kryminalistów od niekryminalistów w rysach twarzy, tylko to, co ich różniło w wyrazie twarzy. Jak wspomniano, zdjęcia przestępców pochodziły z dokumentów tożsamości, na których nie wolno się uśmiechać. Pozostałe zdjęcia umieszczone zostały na stronach internetowych przez samych tam przedstawionych, którzy zapewne zadbali o to, żeby dobrze na nich wyglądać. Algorytm nauczył się identyfikować nie przestępców, ale uśmiech.

Ten przypadek świetnie ilustruje niebezpieczeństwo korzystania z niewłaściwych danych do uczenia algorytmów. Korzystając ze zdjęć pochodzących z różnych źródeł, Wu i Zhang wprowadzili nieświadomie do jednej z grup cechę ją wyróżniającą – uśmiech – która nie miała nic wspólnego z poszukiwanymi przez nich rysami twarzy. Trudno więc winić algorytm, że tę cechę wyłapał. Ale czy nie podobnie było z algorytmami opisanymi wcześniej? Wróćmy do algorytmu identyfikującego wilki. Wyobraźmy sobie, że pokazujemy dziecku, które nigdy nie widziało wcześniej ani wilka, ani śniegu, fotografie, na których jest jedno i drugie, a następnie wypowiadamy, wskazując na fotografię, słowo „wilk”. Jest prawdopodobne, że w wyniku takiej nauki dziecko nazwie śnieg wilkiem. Nie oznacza to jednak, że jest ono mało rozgarnięte – winien jest raczej ten, kto wybierał fotografie. W istocie, ten sam błąd popełnili ci, którzy wybierali w omawianych wyżej przykładach zdjęcia zwierząt i klisze rentgenowskie.

Rasizm w sądzie

Od jakiegoś czasu toczy się gorąca dyskusja na temat błędów czy też tendencyjności algorytmów w dziedzinach mających doniosłe konsekwencje społeczne. Ale i tu okazuje się, że to nie algorytm sam w sobie jest tendencyjny, ale raczej korzysta z tendencyjnie dobranych danych.

Od kilku lat używa się w sądach amerykańskich narzędzi algorytmicznych w roli doradczej przy wydawaniu wyroków sądowych. Jednym z najbardziej popularnych narzędzi tego rodzaju jest system Compas. W 2016 r. ProPublica, niezależna organizacja tropiąca nadużycia w świecie polityki i biznesu, przeprowadziła analizę funkcjonowania tego systemu. Okazało się, że Compas, oceniając ryzyko recydywy (co miało wpływ na decyzje o przedterminowych zwolnieniach osadzonych), mylił się w różny sposób zależnie od rasy przestępcy: przeszacowywał prawdopodobieństwo popełnienia przestępstwa przez czarnych, a niedoszacowywał je dla białych. Badanie algorytmu używanego przez Compas nie wykazało jednak żadnego ukrytego „rasizmu” w jego funkcjonowaniu. Dopiero analiza formalna przeprowadzona przez matematyczkę Alexandrę Chouldechovą z Uniwersytetu Carnegie Mellon pokazała, że to dane na temat przestępczości w USA, z których korzystał algorytm, zmuszają go do takich właśnie konkluzji.

W 2019 r. w USA głośno było również o jednym z algorytmów wspomagających lokalny system ochrony zdrowia, który przypisywał pacjentom pewną liczbę „punktów ryzyka”, mających odzwierciedlać ich stan zdrowia, i na tej podstawie kierował ich do specjalistycznych programów medycznych. Problem w tym, że system dokonywał ocen w oparciu o dotychczasowe koszty leczenia danego pacjenta – a te w przypadku osób czarnoskórych były statystycznie niższe niż u białych. W efekcie biali pacjenci z takimi samymi chorobami mieli większe szanse na załapanie się do specjalistycznych programów leczniczych od osób czarnoskórych.

Całą tę sytuację opisali w „Science” Ziad Obermeyer i współpracownicy, którym udało się wprowadzić do algorytmu dodatkowe zmienne i zredukować nierówności w traktowaniu o ok. 85 proc. Źródłem problemu nie był jednak sam algorytm, lecz realia społeczne, w których osobom czarnoskórym trudniej uzyskać pomoc medyczną – co znajduje odzwierciedlenie w ich historii leczenia.

Niebezpieczne jest zbyt poważne traktowanie terminu „sztuczna inteligencja”. Taka antropomorfizacja rodzi wygórowane oczekiwania: zaczynamy o algorytmach myśleć jak o maszynach myślących. Zapominamy jednocześnie, że pracują one w poznawczej izolacji: wiedzą tylko tyle, ile im wprost powiemy. Kiedy więc usłyszymy o kolejnej spektakularnej „wpadce” algorytmu, pamiętajmy, że nauczył się wszystkiego od nas. ©

Dziękujemy, że nas czytasz!

Wykupienie dostępu pozwoli Ci czytać artykuły wysokiej jakości i wspierać niezależne dziennikarstwo w wymagających dla wydawców czasach. Rośnij z nami! Pełna oferta →

Dostęp 10/10

  • 10 dni dostępu - poznaj nas
  • Natychmiastowy dostęp
  • Ogromne archiwum
  • Zapamiętaj i czytaj później
  • Autorskie newslettery premium
  • Także w formatach PDF, EPUB i MOBI
10,00 zł

Dostęp kwartalny

Kwartalny dostęp do TygodnikPowszechny.pl
  • Natychmiastowy dostęp
  • 92 dni dostępu = aż 13 numerów Tygodnika
  • Ogromne archiwum
  • Zapamiętaj i czytaj później
  • Autorskie newslettery premium
  • Także w formatach PDF, EPUB i MOBI
89,90 zł
© Wszelkie prawa w tym prawa autorów i wydawcy zastrzeżone. Jakiekolwiek dalsze rozpowszechnianie artykułów i innych części czasopisma bez zgody wydawcy zabronione [nota wydawnicza]. Jeśli na końcu artykułu znajduje się znak ℗, wówczas istnieje możliwość przedruku po zakupieniu licencji od Wydawcy [kontakt z Wydawcą]
Profesor informatyki i filozofii. Filozofię ukończył na Uniwersytecie Warszawskim, a doktorat z informatyki zrobił w University of Maryland, College Park. Przez wiele lat współpracował naukowo z firmą IBM, w której zajmował się problemami przetwarzania i… więcej

Artykuł pochodzi z numeru Nr 12/2021