Złudzenie Big Data

Czy wielka ilość informacji, do których mamy dziś dostęp, a także możliwości przetwarzania ich na skalę dotąd niespotykaną, przekładają się na naszą bardziej wartościową wiedzę?

Mirosław Szreder

28.02.2016

Czyta się kilka minut

/ Fot. Monty Rakusen / GETTY IMAGES

Trudno się dziwić zachłyśnięciu ilością informacji będącej w zasięgu naszej ręki, skoro właśnie tego, co obecnie oferuje tzw. Big Data, przez długi czas pragnęliśmy. W życiu codziennym i w nauce naturalne było poszukiwanie nowych informacji, nowych faktów i danych, a równocześnie technologii ich przetwarzania i analizowania. Ale nazbyt często do relacji między ilością a jakością informacji podchodzimy bezkrytycznie. Zbyt pospiesznie ulegamy złudzeniu, że więcej oznaczać musi lepiej.

Bat na wielkie liczby

Wśród zwolenników Big Data dość powszechne jest przekonanie, że rosnąca ilość jest w stanie zrekompensować niewystarczającą jakość. Viktor Mayer-Schönberger i Kenneth Cukier, autorzy głośnej książki „Big Data. Rewolucja, która zmieni nasze myślenie, pracę i życie” (wyd. MT Biznes, Warszawa 2013), jednoznacznie pogląd ten podzielają. Jak piszą: „Obserwowanie dużo większego spektrum danych zwalnia nas z konieczności zachowania dużej dokładności. (...) Obecnie w wielu nowych sytuacjach pozwolenie sobie na brak precyzji, na pewien bezład, może być pozytywną cechą, a nie wadą. Coś za coś”.

Inni z kolei, aby przekonaniu temu nadać jakąś wartość naukową, odwołują się do praw wielkich liczb. Twierdzą, że duża liczba obserwacji zawsze prowadzi do określenia rzeczywistego trendu. Zapominają przy tym jednak, że prawa wielkich liczb są twierdzeniami matematycznymi o określonych założeniach. Jeśli się ich nie spełni, nie można się do tych twierdzeń odwoływać. Innymi słowy, jeśli się np. nie zadba o jednakowe warunki badanych zdarzeń albo utożsami przypadkowe obserwacje z obserwacjami w próbie losowej, błędem będzie stosowanie praw wielkich liczb.

Gdyby tak nie było, to już dawno wszelkie badania reprezentacyjne, w tym badania opinii publicznej, zostałyby zastąpione przez internetowe sondy, w których bierze zwykle udział kilkadziesiąt razy więcej respondentów, niż wynosi liczebność typowej próby badawczej. Np. słynny Instytut Gallupa większość swoich badań w USA wciąż realizuje na stosunkowo mało licznych, lecz starannie wybranych losowo próbach respondentów. Zwykle składają się one w 60 proc. z wylosowanych numerów telefonów komórkowych i w 40 proc. z wylosowanych telefonów stacjonarnych. W tym samym czasie nieraz stukrotnie (!) więcej osób głosuje na różnych portalach na ten sam temat. Ale tych ostatnich wyników nikt nie uogólnia na całą populację internautów. A tym bardziej na całe społeczeństwo. Sugestywne stwierdzenie autorów przywołanej wyżej książki, iż „sięganie po próbę losową w epoce big data przypomina chwytanie bata w erze samochodów”, nie znajduje do tej pory potwierdzenia w praktyce.

Dlaczego? Otóż współcześnie problemem badań statystycznych nie jest ilość informacji, lecz ich jakość. Samo zwiększenie liczby obserwacji nie prowadzi do poprawy jakości wnioskowania.

Gdy wiosną ubiegłego roku okazało się, że żaden z ośrodków badawczych nie był w stanie przewidzieć znacząco wyższej popularności Partii Konserwatywnej niż Partii Pracy przed majowymi wyborami parlamentarnymi w Wielkiej Brytanii, zarządzono w tej sprawie dochodzenie. Żadna z wielu hipotez co do źródeł błędu nie dotyczyła jednak zbyt małej liczebnie próby. Mało tego, jeden z ośrodków swój ostatni sondaż przed wyborami wykonał na próbie przekraczającej 10 tys. respondentów. I uzyskał oceny obciążone błędem tej samej wielkości co inne pracownie, wykorzystujące próby od 1 tys. do 4 tys. wyborców.

Nie ma prostego przełożenia w badaniach statystycznych między ilością a jakością. Większa ilość informacji przy jednoczesnym pozwoleniu sobie na brak precyzji tworzy jedynie złudzenie bardziej wartościowej wiedzy.

Kiedy błąd nie maleje

To złudzenie bierze się z przekonania, że jeśli obserwacji poddamy wszystkie lub prawie wszystkie jednostki danej zbiorowości, unikniemy błędów i obciążeń. Wiele osób zakłada, że największym błędem w badaniach jest ten wynikający z faktu, że bada się jedynie próbę, a nie całą populację – czyli tzw. błąd losowania. Tymczasem to zaledwie jedna z kilku kategorii błędów, którymi może być obciążone badanie statystyczne. W dodatku ten akurat błąd statystycy najlepiej potrafią kontrolować, a co więcej, często bywa on najmniejszym składnikiem całkowitego błędu badania.

Bo w badaniach występują też błędy o charakterze nielosowym. Zwłaszcza błędy narzędzia pomiarowego czy choćby te spowodowane brakami odpowiedzi. Specyfiką wszystkich błędów o charakterze nielosowym jest to, że w przeciwieństwie do błędu losowania nie zmniejszają się one wraz z rosnącą liczebnością próby. Gdy np. rodziny o najwyższych dochodach z zasady odmawiają udziału w jakimkolwiek badaniu, to choćby największa próba nie niweluje systematycznego obciążenia wyników. Zwiększenie ilości obserwacji nie poprawia ich jakości.

Podobnie trzeba by odpowiedzieć wszystkim dopominającym się przed wyborami o sondaż, który z dużą dokładnością byłby w stanie przewidzieć wynik wyborów. Chcieliby zamiast typowego dla większości sondaży błędu 3 proc. widzieć błąd 1 proc. lub mniejszy. Jest dla nich oczywiste, że wiązać by się to musiało ze zwiększeniem liczby respondentów w próbie. A w konsekwencji – z większymi kosztami badania.

Ilość i jakość

Ale to nie koszty zwiększenia próby z 1067 osób do 9600 zniechęcają ośrodki badawcze do tego typu sondaży. Wiedzą one bowiem, że w ten sposób zmniejszyłyby jedynie błąd losowy badania. Pozostałe zaś błędy, te nielosowe, a więc niereagujące na liczebność próby, będą nadal obciążać wyniki sondażu. Co więcej – ich udział w ogólnym błędzie badania się zwiększy.

Odbiorca wyników takiego badania miałby wrażenie, że są one obciążone niewielkim błędem (1 proc.). Podczas gdy całkowity błąd badania zmniejszyłby się prawdopodobnie bardzo niewiele w porównaniu do sondaży opartych na próbie ok. 1,1 tys. osób.

Co to oznacza dla osób zafascynowanych nowymi możliwościami zdobywania i analizowania wielkich zbiorów danych? Czy Big Data nie daje żadnych korzyści?

Nowe zasoby informacji zawierają sporo wartościowej wiedzy, jeżeli tylko potrafimy ją z nich wydobyć. Jednak rodzą poważne zagrożenie bezkrytycznego traktowania tych zasobów. Bierze się to z założenia, że wszystko, co wielkie, zasługuje na zaufanie („skoro tysiące obserwacji to potwierdzają, to jakże może być inaczej?”). Ale też z fałszywego przekonania, że rosnąca ilość jest zawsze w stanie zrekompensować niewystarczającą jakość. To ostatnie przekonanie, szczególnie w nauce, może prowadzić do wielu błędnych konkluzji, pozornych zależności przyczynowych czy wzajemnie sprzecznych prawidłowości. ©

Prof. dr hab. MIROSŁAW SZREDER jest ekonomistą, specjalizuje się w rozwoju i nowych zastosowaniach nauk ilościowych, szczególnie statystyki. Prorektor Uniwersytetu Gdańskiego, członek Komitetu Statystyki i Ekonometrii PAN.

Terabajty spragnione myśli

Karol Darwin po pięciu latach podróży wrócił z notatkami o objętości ok. 400 stron dzisiejszego standardowego maszynopisu. Dziś każdego roku w recenzowanych czasopismach naukowych publikuje się ok. 1,5 mln artykułów. Czyli trzy nowe artykuły co minutę. To jednak dopiero wierzchołek góry lodowej.

Prawdziwy zalew informacji przynoszą zautomatyzowane systemy pozyskiwania danych, które przewidział Stanisław Lem w jednym z opowiadań o Trurlu i Klapaucjuszu. Uwięzieni przez głodnego wiedzy zbója Dyploja, skonstruowali mu Demona Drugiego Rodzaju, który automatycznie zapisywał na długiej taśmie papieru niekończący się strumień faktów. Ostatecznie zwoje taśmy uwięziły łapczywie pochłaniającego informacje zbója, wczytanego w raport o tym, „jakie są rozmiary dziurki tylnej małego ptaszka zwanego kurkucielem”.

Oto Big Data w pigułce. Obserwatoria satelitarne automatycznie pobierają dane o temperaturze, wilgotności, produkcyjności biomasy i prędkości wiatru w każdym punkcie globu, bez przerwy. Podwodne roboty wykonują miliony fotografii morskiego dna. Teleskopy satelitarne przesyłają z każdym dniem kolejne miliardy pikseli, z laboratoriów biochemicznych spływają sekwencje genomów kolejnych setek istot żywych, a zderzacze cząstek produkują terabajty danych na temat oddziaływań cząstek.

Informacja to jednak jeszcze nie wiedza. Kartezjusz w rozprawie „Reguły kierowania umysłem” twierdził, że każdy problem należy rozłożyć na proste, „elementarne” problemiki, a następnie „wszystkie i poszczególne rzeczy, które odnoszą się do naszego celu, przeglądnąć ciągłym i nieprzerwanym ruchem myśli” (Reguła VII). Karol Darwin mógł „przeglądnąć ciągłym ruchem myśli” całe swoje notatki z podróży. Fizyk cząstek albo klimatolog mają dziś do dyspozycji zbyt dużo danych, aby postępować metodą Kartezjusza.

Ciekawym rozwiązaniem jest „nauka obywatelska” lub „społecznościowa”, w której wolontariusze dokonują cząstkowej analizy surowych danych, a naukowiec otrzymuje dane wstępnie obrobione, które już raz „przeszły” przez czyjąś głowę. Odkryć dokonują więc nie pojedynczy geniusze, lecz zespoły. W zeszłym roku „Physical Review Letters” opublikowały artykuł z zakresu fizyki cząstek, którego autorami były... 5154 osoby. Artykuł ma 33 strony, z czego lista autorów zajmuje 24. ©

Łukasz Lamża

Big Data