Ostrożnie ze statystyką

Dziś bez narzędzi statystycznych nie może się obyć większość dziedzin nauki. Ich niewłaściwe użycie może prowadzić do groźnych konsekwencji.

Mirosław Szreder

30.03.2020

Czyta się kilka minut

Prototyp mobilnej kapsuły do badań i testów na obecność wirusa SARS-CoV-2, 3 kwietnia 2020 r. / FOT. ANDRZEJ BANAS / POLSKA PRESS/Polska Press/East News /

Gdy jedynym twoim narzędziem jest młotek, wszystko wokół zaczyna przypominać gwoździe”. Te słowa, przypisywane Abrahamowi Maslowowi i Markowi Twainowi, trafnie opisują coraz częstszy w statystyce problem: niektórzy badacze i analitycy są na tyle przywiązani do pewnych technik i narzędzi analitycznych, że są gotowi stosować je bez względu na charakter danych liczbowych czy rozkłady analizowanych cech. Rezultatem bywa ogłaszanie lub interpretowanie odkryć i wniosków, które rażą niespójnością lub są po prostu nieprawdziwe.

Najczęstsza, choć jej nie ma

Dobrego przykładu dostarczają publikacje dotyczące wysokości zarobków w Polsce w 2018 r. Dane te podał GUS w lutym, a odnosiły się one do indywidualnych wynagrodzeń z wylosowanej próby 47 tys. przedsiębiorstw zatrudniających co najmniej dziewięć osób. Obok średniej płacy (5003,78 zł) oraz mediany płac (4094,98 zł) – tworzących adekwatny obraz rozkładu wynagrodzeń – cytowano często z opracowania GUS zdanie o płacy dominującej. Brzmi ono: „Najczęstsze miesięczne wynagrodzenie ogółem brutto otrzymywane przez pracowników zatrudnionych w gospodarce narodowej wynosiło 2379,66 zł”.

Wrażenie robi zarówno termin „najczęstsze wynagrodzenie”, jak i podana jego wartość – znacznie mniejsza od średniej i mediany. Problem w tym, że określonej punktowo (dokładnej) dominanty, czyli najczęściej pojawiającej się wartości, nie powinno się w ogóle podawać w przypadku rozkładów cech ciągłych. Chodzi o ten rodzaj cech, które mogą przybierać dowolne wartości (nie tylko będące liczbami całkowitymi), takie jak czas, waga lub wzrost, wysokość podatków czy zarobki. Wartości takich cech (np. setki tysięcy płac) grupuje się w przedziały „od – do”, a ich rozkład prezentuje np. w formie wykresu słupkowego. Gdy rozpiętości przedziałów są jednakowe, to łatwo wskazać ten, któremu odpowiada największa liczebność (najwyższy słupek na wykresie). Jest to przedział płacy dominującej. Ale dokładną wartość takiej płacy szacuje się już wewnątrz tego przedziału, i ponieważ jest to przybliżenie, może się okazać, że taka dokładna wartość (np. płaca wyrażona co do grosza) w ogóle nie występuje w populacji – albo tylko u kilku osób.

Nie da się pogodzić ze sobą najczęściej występującej wartości w określonej populacji z brakiem jednostek, które taką wartością się charakteryzują. Mało tego, często niewiele pomaga opatrzenie takiej punktowej wartości dominującej słowem „około”, a więc zbudowanie wokół niej szerszego przedziału liczbowego. Przedział taki podaje GUS w swoim raporcie, ale mimo że wcale nie jest on wąski (2100,01 zł – 2501,89 zł), to płace z tego zakresu otrzymywało w 2018 r. zaledwie 8,6 proc. zatrudnionych. Dokładnie taki sam odsetek osób uzyskiwał wynagrodzenie z przedziału 3352,54 zł – 3752,84 zł, czyli o tysiąc złotych wyższe.

Palenie i wirus

Zbyt duże przywiązanie badacza do pewnych technik analitycznych może skutkować poważniejszymi konsekwencjami. Np. wykorzystanie tej samej metodyki, niezależnie od tego, jak wybrano próbę badawczą, oraz w jaki sposób dokonano pomiarów wybranych do próby jednostek, będzie często prowadziło do nieupoważnionych uogólnień. Pokus do tego rodzaju mało krytycznej postawy wobec danych jest wiele. Przede wszystkim – łatwość w dotarciu do różnych zbiorów danych. Tym ważniejsze staje się więc przypominanie, że „nauka rozpoczyna się nie po dokonaniu pomiarów, lecz z chwilą rozpoczęcia pomiarów” (jak zatytułował w 2010 r. swój głośny artykuł Kenneth Prewitt). Ważny jest sposób doboru próby, jej liczebność i szacunki błędów, jakimi mogą być obciążone wyniki wnioskowania. Do prób wybranych w sposób celowy, albo spośród ochotników (np. gotowych do wypełnienia ankiety na portalu internetowym), nie można podchodzić jak do próby losowej. Trudno dla tych pierwszych określić precyzję wnioskowania, a także błąd uogólnień.

W ostatnim czasie pozytywnym przykładem opisu badania statystycznego jest artykuł w czasopiśmie „Lancet” o czynnikach ryzyka dla osób zarażonych SARS-CoV-2. Grupa kilkunastu chińskich uczonych przebadała 191 pacjentów z Wuhan, a ich wnioski zawierają wiele nowych i wcześniej nieznanych prawidłowości. W szczególności wskazują na czynniki sprzyjające śmiertelności wśród zarażonych koronawirusem (m.in. zaawansowany wiek i współwystępowanie innych chorób), a także na istotność każdego z nich. Ten ostatni aspekt – istotności statystycznej – jest tu szczególnie ważny, gdyż pominięcie go skłaniać może do fałszywych uogólnień.

W jednym z mediów pojawiła się informacja, że „na ryzyko zgonu nie wpływało palenie papierosów”. Tymczasem autorzy badania wyraźnie wskazują, że wśród 191 zbadanych osób było zaledwie 11 palaczy, uznali więc potencjalne prawidłowości w tym względzie za nieistotne statystycznie. Znaczenie miało także to, że niemal tyle samo palących wśród tych, którzy zmarli (6 osób), i tych, którzy wyzdrowieli (5 osób). Innymi słowy, brak jest podstaw do stwierdzenia zarówno, że palenie wpływa, jak i tego, że nie wpływa na ryzyko zgonu w przypadku zarażenia koronawirusem. Po prostu z tego badania nie możemy się tego dowiedzieć. Rzetelnie autorzy informują także o innych ograniczeniach, np. o niemożności wykonania wszystkich badań laboratoryjnych u każdego ze 191 chorych, a także o tym, iż pacjenci przyjmowani byli do obu badanych szpitali w różnych stadiach rozwoju choroby. Wszystkie te dodatkowe informacje towarzyszące wynikom badania są ważne z punktu widzenia możliwości uogólnień zaobserwowanych w próbie prawidłowości.

Eksperyment naturalny

W analizach statystycznych nie wystarczy posiadanie pewnego zbioru danych liczbowych i właściwego do ich analizy oprogramowania. Świadome ignorowanie, a niekiedy wynikające z innych przyczyn (np. pośpiechu) niedostrzeganie ważnych założeń, których spełnienia wymagają aplikacje metod i mierników statystycznych, prowadzi ostatecznie do nieprawdziwych wniosków, przynosząc nauce i nam wszystkim więcej szkody niż pożytku. Z jednej strony mamy więc coraz więcej danych na niemal każdy temat, coraz lepsze komputery i oprogramowanie do ich przetwarzania, a z drugiej uzasadnione obawy o wiarygodność wyników analiz statystycznych lub rzetelność ich interpretacji. Nie jest przypadkiem, że właśnie na tym etapie rozwoju statystyki i informatyki pojawił się w światowej nauce tzw. kryzys replikowalności. Powtórzone w tych samych warunkach doświadczenia nie są w stanie potwierdzić wcześniejszych rezultatów. Kryzys ten w różnym nasileniu objawia się nie tylko w naukach społecznych, takich jak psychologia, ale także w „twardej” nauce – takiej jak biomedycyna.

W poznaniu złożoności, w tym przyczynowości zjawisk społecznych, pomóc może statystykom tzw. eksperyment naturalny. O jednym z takich badań pisał przed laty „New York Times”. Badacze poszukiwali odpowiedzi na pytanie, co decyduje o tym, że skończywszy elitarną szkołę, np. Uniwersytet Harvarda, zarabia się po 10-20 latach lepiej niż po innych dobrych uniwersytetach w USA? Czy dlatego, że jest się absolwentem Harvardu, czy też dlatego, że Harvard pozyskuje najzdolniejszych kandydatów na studia? Aby odpowiedzieć na te pytania, badacze przeanalizowali zarobki ponad 14 tys. absolwentów college’ów i uniwersytetów, i uzyskali wynik wskazujący na to, że decydująca o wysokości zarobków nie była uczelnia, jaką badani ukończyli. Ci, którzy z racji odrzucenia przez renomowane uniwersytety podjęli studia w niewiele gorzej wypadających w rankingach uczelniach, uzyskiwali po latach bardzo zbliżone wynagrodzenia do absolwentów Harvardu. O pozycji na rynku po kilkunastu latach od ukończenia studiów decydowały w większym stopniu cechy i zdolności badanych osób. Konkludując, autorzy tego badania stwierdzają: „Uwierz, że twoja ambicja, motywacja i talent zdecydują o przyszłych sukcesach w większym stopniu niż nazwa uczelni na dyplomie”.

Ale i do takich interesujących spostrzeżeń podejść trzeba z właściwą dozą pokory. Był to wszak tylko jeden, chociaż oparty na dużej próbie, naturalny eksperyment. „Żadne badanie nie daje definitywnych rozstrzygnięć” – stwierdzają autorzy tej pracy.

CZYTAJ WIĘCEJ:

nauka