Istotnie, mamy problem

Głęboko we wnętrzu współczesnej metody naukowej czai się pułapka związana z dążeniem do uzyskiwania wyników statystycznie istotnych. Na szczęście coraz lepiej wiemy, co robić, by w nią nie wpadać.

Mirosław Szreder

05.07.2021

Czyta się kilka minut

/ JACEK NOWAK / ALAMY / BE&W

Użyteczność badań naukowych manifestuje się najsilniej w postaci rozmaitych wynalazków, technologii czy leków. Ostatnie miesiące dobitnie to pokazały. Stworzenie w krótkim czasie szczepionek przeciwko koronawirusowi jest niezaprzeczalnym triumfem metod naukowych oraz całego procesu gromadzenia wiedzy naukowej i jej weryfikacji.

Ten proces przynosi trwały postęp cywilizacyjny, ale – wbrew pozorom – sam nie jest wolny od porażek i problemów. Ważnym ich źródłem są dylematy dotyczące sposobów rozstrzygania o tym, czy zaobserwowane w eksperymentach laboratoryjnych lub próbach losowych prawidłowości odnieść można do całych populacji będących celem tych badań.

Zerwać z kultem

O niektórych z tych problemów, w tym o tzw. kryzysie replikacyjnym, pisał na tych łamach w kwietniu Wojciech Brzeziński [„Jak zbadać badania”, „TP” nr 17/2021]. Jego artykuł koncentrował się na tych problemach, których źródłem są sami naukowcy. Są one najczęściej emanacją ludzkich słabości i nieopanowanych pokus. Dążenie do szybkiego odniesienia sukcesu badawczego, czasami rozgłosu lub sławy, a także presja na publikowanie badań w prestiżowych czasopismach sprawiają, że wiele ogłaszanych wyników nie znajduje późniejszego potwierdzenia przy próbie ich weryfikacji. Brzeziński słusznie zauważył, że w środowiskach naukowych coraz ważniejsze staje się szybkie przedstawienie i opublikowanie „statystycznie istotnych wyników”, bez należytej refleksji na temat ich jakości i znaczenia. Źródłem tego problemu są jednak nie tylko naukowcy, ale także pewne aspekty metody badawczej, w której tak ważna i pożądana jest „statystyczna istotność”.

„Porzućcie statystyczną istotność” – apelowało ponad 800 naukowców reprezentujących wiele dziedzin na łamach „Nature” wiosną 2019 r., wyjaśniali, że nie wszystko, co jest „statystycznie istotne”, jest w ogóle naukowo interesujące lub ważne. Już wtedy od ponad dziesięciu lat dostępna była na rynku książka Stephena Ziliaka i Deirdre McCloskey „The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives” („Kult statystycznej istotności. W jaki sposób za błąd standardowy płacimy zatrudnieniem, sprawiedliwością i życiem”). Spróbujmy najpierw wyjaśnić, co takiego tkwi w pojęciu „statystycznej istotności”, że związane z nią błędy, ich konsekwencje i koszty mogą dotykać najważniejszych sfer naszego życia.

Po pierwsze, stało się ono – w opinii części jego użytkowników – poważnie brzmiącym określeniem na opisanie znacznych zmian lub różnic występujących w dowolnych zbiorach liczbowych. Często użycie tego terminu jest wyrazem dążenia badacza do podkreślenia wagi zaobserwowanych przez siebie efektów. I, wbrew ścisłej definicji „statystycznej istotności”, w wielu przypadkach pojęcie to odnoszone jest do obserwacji w ogóle niezwiązanych z eksperymentem losowym. Ale i w takich okolicznościach zamiast zaobserwowane efekty nazwać dużymi lub ponadprzeciętnymi, część autorów uzna, iż większe wrażenie zrobi kategoria statystycznej istotności, ze swoim naukowym rodowodem.

Niestety, praktyce tej sprzyja fakt, że wśród niespecjalistów wiele osób nie wie, co pojęcie istotności statystycznej w nauce faktycznie oznacza.

W języku potocznym

Dość powszechne stało się np. przypisywanie statystycznej istotności prawidłowościom i wzorcom, które w dostrzegalny sposób uwydatniają się w zbiorach danych statystycznych, np.: „statystycznie istotny wzrost dochodów w określonej grupie gospodarstw domowych” albo „statystycznie istotny wzrost inflacji w pewnym przedziale czasu”. Tak potocznie użyta kategoria statystycznej istotności ma podkreślać nieprzypadkowość i trwałość zaobserwowanej tendencji. W wartościach absolutnych nie musi to oznaczać dużych zmian (np. wzrost inflacji każdego roku o 1 punkt proc.), lecz akcentować trend, jaki przebija się przez informacyjny szum charakterystyczny dla dużych zbiorów danych statystycznych. Oczywiście, rząd zamiast wypowiadać się o inflacji, chętniej ogłosi statystycznie istotny wzrost emerytur, mając na myśli raczej trend wzrostu świadczeń emerytalnych przez kilka lat niż ich konkretne, niekoniecznie duże wielkości.

W innym znaczeniu – także odległym od oryginalnego – statystycznie istotna wielkość, najczęściej różnica, oznacza dużą zmianę w stosunku do obserwowanych wcześniej wahań. Np. statystycznie istotna różnica w liczbie nowych infekcji w dwóch sąsiednich dniach jest komunikatem oznaczającym po prostu dużą zmianę z dnia na dzień, większą od notowanych w poprzednich dniach.

Żadnego z podanych wyżej znaczeń terminu „statystyczna istotność” – mimo że obecnych często w publicystyce naukowej i w codziennym użyciu – nie można uznać za poprawne. W nauce termin ten ma wyrażać coś, czego doświadczamy wszyscy, kiedy tylko uświadomimy sobie, że obracamy się i żyjemy w świecie zdarzeń losowych. Próbując zrozumieć i zinterpretować te zdarzenia (czyli przypadki), szukamy zwykle odpowiedzi, czy rzeczywiście to, co się zdarzyło, to kolejny przypadek, czy też kryje się za tym jakaś prawidłowość.

Możemy też zapytać nieco inaczej: jak nieprawdopodobna musiałaby być sekwencja zdarzeń, których doświadczyliśmy, by można uznać je za nieprzypadkowe? Czyli właśnie za statystycznie istotne – bo takie jest oryginalne znaczenie tego terminu.

Klucz numer dziewięć

Jeżeli więc – jak w opowiadaniu Olgi Tokarczuk pt. „Dziewięć”, będącym fragmentem „Biegunów” – klucz hotelowy o numerze dziewięć gubił się pośród innych kluczy najczęściej, to pytanie autorki: „jakie to prawo rządziło kluczem numer dziewięć, jakie przyczyny i jaki skutek”, dobrze ilustruje omawiany problem. Czy fakt, że każdego roku portier „w małym tanim hotelu nad restauracją” musiał zamawiać najwięcej nowych kluczy z numerem dziewięć, uznać można za przypadek (losowy ciąg zdarzeń), czy raczej, wobec małego prawdopodobieństwa takiej sekwencji przypadków, za statystycznie istotną prawidłowość?

W rzeczywistości jest to pytanie o to, jak małe musi być prawdopodobieństwo ciągu zdarzeń, aby uznać je za niedające się wyjaśnić losowością (statystycznie istotne). Najczęściej przyjmuje się w nauce – arbitralnie, dodajmy – że tym granicznym prawdopodobieństwem jest 5 proc. W niektórych dziedzinach to kryterium jest znacznie bardziej wyśrubowane, zwłaszcza gdy obserwacje prowadzone są w warunkach laboratoryjnych, przy mniejszej liczbie zakłóceń niż np. w badaniach psychologicznych.

Przyjmijmy więc roboczą – dość zdroworozsądkową – hipotezę, że klucze do poszczególnych pokoi hotelowych gubią się z jednakową częstotliwością. Kilkuletnie, rzetelne obserwacje portiera wskazują jednak, że klucz numer dziewięć gubi się częściej od innych. Mamy teraz do wyboru albo uznać, że portier jest świadkiem ciągu zdarzeń o małym prawdopodobieństwie (bo klucze faktycznie gubią się przypadkowo), albo musimy przyjąć, że nasza robocza hipoteza jest nieprawdziwa – że jest jakiś nieznany nam jeszcze powód, dla którego nie wszystkie klucze gubią się z taką samą częstotliwością.

Teraz, korzystając z prostej matematyki (zakładając, że wiemy, ile jest pokoi w hotelu oraz ile i jakich kluczy zgubiło się w określonym przedziale czasu), możemy obliczyć, jakie jest prawdopodobieństwo, że klucz o numerze dziewięć gubi się zupełnie przypadkowo. Jeśli to prawdopodobieństwo będzie mniejsze od 5 proc., to zgodnie z kryteriami przyjmowanymi w nauce powinniśmy uznać, że nasza hipoteza robocza nie jest poprawna – czyli że klucze jednak nie gubią się całkowicie losowo (nie wiemy jeszcze, co sprawia, że tak się dzieje, ale uczyniliśmy pierwszy krok do tego odkrycia...).

Naukowcy w praktyce niemal nigdy nie dysponują pełną wiedzą o wszystkich wystąpieniach zjawisk, które ich interesują – zawsze obserwują jakąś próbę (np. tylko przez jakiś czas zbierają wyniki zderzeń cząstek elementarnych, znaleźli tylko kilka skamieniałości jakiegoś kopalnego gatunku, podają testowany lek wyłącznie pewnej grupie pacjentów albo śledzą zachowanie jedynie określonej grupy szympansów) i na tej podstawie formułują wnioski o zbiorowościach. Dlatego stale mają do czynienia z losowością i statystycznym testowaniem hipotez.

Próba wystarczająco duża

Przedstawione wyżej podejście do istotności statystycznej, choć jest logicznie spójne, a w statystyce obecne już od prawie stu lat, budzi współcześnie coraz więcej wątpliwości i kontrowersji. A jest się o co spierać, bo konsekwencje odrzucenia lub nieodrzucenia jakiejś hipotezy badawczej, np. dotyczącej efektów ubocznych szczepionki, mogą być bardzo poważne. Zasadnicze są tu dwa problemy: pierwszy dotyczy rzeczywistego znaczenia statystycznej istotności jako kategorii poznawczej w nauce, drugi – postępujących w praktyce badań naukowych uproszczeń w rozstrzyganiu o nieprawdziwości testowanych hipotez.

Słusznie krytykowany jest od pewnego czasu „kult statystycznej istotności”, przede wszystkim dlatego, że istotne statystycznie wyniki można uzyskać stosunkowo łatwo, jeżeli tylko do dyspozycji ma się odpowiednio dużą próbę losową. Współcześnie o takie próby nietrudno, ale problem ten naukowcy sygnalizowali już znacznie wcześniej.

W 1966 r., na łamach „Psychological Bulletin” David Bakan scharakteryzował doświadczenie, w którym sam uczestniczył, polegające na przetestowaniu zwykłych baterii wśród 60 tys. Amerykanów. Dzieląc tę próbę na dwie grupy osób według dowolnych kryteriów, takich jak mieszkanie po wschodniej versus zachodniej stronie rzeki Missisipi czy na północy versus południu kraju, uzyskiwał za każdym razem statystycznie istotne różnice w średnich wartościach żywotności baterii używanych przez respondentów (co oznacza, jak już wiemy, iż prawdopodobieństwo, że te różnice są efektem przypadku, obliczono na mniej niż 5 proc.).

Dzieje się tak dlatego, że w dużych liczebnie próbach nawet małe rozbieżności między tym, co zaobserwowano, a tym, czego należało się spodziewać, gdyby prawdziwa była testowana hipoteza, stają się statystycznie istotne – ponieważ są trudnymi do wyjaśnienia czynnikami losowymi. W statystyce bowiem przyjmuje się, że wraz ze wzrostem liczebności próby (teoretycznie do nieskończoności) losowe zakłócenia powinny maleć do zera. Gdy tak się nie dzieje, zostają uznane za wyraz oddziaływania przyczyn o charakterze nielosowym. W konsekwencji, przy odpowiednio dużej próbie, zawsze można się doszukać jakichś statystycznie istotnych powiązań.

Sam fakt, że wynik badań okazał się statystycznie istotny, nie oznacza jednak, że jest on ważny w sensie poznawczym. Dlatego nie wszystkie wyniki badań naukowych, w których wykazano statystycznie istotne efekty, przyczyniają się do faktycznego wzbogacenia wiedzy. Z kolei nieistotne statystycznie wyniki nie wzbudzą zainteresowania ani praktyków, ani redakcji czasopism, w których badacz chciałby je opublikować. Tymczasem mogą być one nowatorskie, czy wręcz przełomowe, ale po prostu wymagają dalszych studiów. Jeśli te wyniki nie ujrzą światła dziennego, bo nie wykazano jeszcze ich statystycznej istotności, nie będą miały szansy stać się inspiracją do głębszych dyskusji i analiz.

Nauka poza istotnością

Dlatego rodzi się coraz więcej wątpliwości, czy naukowcy nie stali się zakładnikami statystycznej istotności. Na szczęście w środowiskach naukowych rośnie nie tylko świadomość tego problemu, ale także zrozumienie dla postulatów, by statystyczna weryfikacja hipotez stanowiła jedną z kilku, a nie jedyną metodę naukowego uzasadnienia wyników badań eksperymentalnych. I w tym kierunku dokonują się w ostatnich latach ważne zmiany w podejściu do tego wyzwania zarówno naukowców, jak i redakcji czasopism naukowych. Postuluje się wzbogacenie testowania hipotez o prezentację wyników przedziałowych szacunków (przedziałów ufności), ilorazów wiarygodności i sięganie do innego podejścia w weryfikacji hipotez (wykorzystującego twierdzenie Bayesa, które pozwala mierzyć, jak zmienia się prawdopodobieństwo danej hipotezy wraz z napływem nowych danych). Łącznie wszystkie te narzędzia znacznie lepiej wyrażają naszą pewność co do uzyskanych wyników niż sztywne, jednowymiarowe kryterium istotności statystycznej.

Drugim problemem jest sam sposób rozstrzygania o tym, czy otrzymany wynik badania naukowego uznać można za statystycznie istotny. Krytykowane jest oparcie decyzji w tym względzie wyłącznie na jednej wielkości – wspomnianym wcześniej prawdopodobieństwie zaistnienia zaobserwowanych zdarzeń. Samo to prawdopodobieństwo nie oznacza niczego więcej niż to, jak nieprzystające do postawionej hipotezy są wyniki otrzymane w próbie. Dodatkowo krytykę tę wzmacnia praktyka stosowania dla tego prawdopodobieństwa jednolitego pięcioprocentowego progu. Poniżej tego progu wynik uznaje się za statystycznie istotny, powyżej – za statystycznie nieistotny. Statystycy chcieliby, aby badacze wyszli poza te uproszczone ramy. Szerszy kontekst, o który apelują, to przede wszystkim potrzeba uwzględnienia warunków, w jakich uzyskano próbę badawczą, konsekwencji jej liczebności, a także stopnia spełnienia innych założeń. Potrzebna jest – jak głosi jeden z punktów stanowiska Amerykańskiego Towarzystwa Statystycznego na ten temat – pełna informacja i przejrzystość.

Wielu zagrożeń, tkwiących zarówno w metodach badawczych, jak i w postawach naukowców, świadome są środowiska naukowe, zwłaszcza te identyfikujące się z ruchem tzw. otwartej nauki, i nie pozostają wobec nich obojętne. Zdają sobie sprawę także z tego, że niektóre prace – tak jak to było w przypadku badań nad szczepionkami – budzą szczególnie duże zainteresowanie społeczne. W ostatecznym rachunku dyskusja, która rozgorzała, sprzyja wzmocnieniu wiarygodności nauki i zaufania do jej wyników.©

nauka