Krajobraz po powodzi

Rzeka danych generowanych przez ludzkość płynie coraz szerszym strumieniem, a nauka i biznes uzależniają się od jej analizy. Jakie miejsce w tym cyfrowym świecie pozostało dla człowieka?

Jarek Gryz

19.08.2019

Czyta się kilka minut

Archiwa amerykańskiego wywiadu lotniczego zawierające miliony fotografii czekających na digitalizację. Moreno Valley, Kalifornia, 2014. / ZUMA PRESS / FORUM

Dane zbieramy, od kiedy istnieje pismo: notujemy daty chrztu i małżeństwa, tworzymy kroniki historyczne, spisujemy transakcje handlowe. Do niedawna ich archiwizacja na piśmie napotykała na poważne ograniczenia – koszty papieru i samego zapisu na nim danych (także drukiem), ale technologia cyfrowa zmieniła wszystko.
Największa biblioteka świata, Biblioteka Kongresu, przechowująca 16 milionów książek, wymaga około 10 TB (terabajtów) pamięci – a nośniki o takiej pojemności kosztują dzisiaj około tysiąca złotych. Przesyłanie i zapisywanie danych, a nawet ich zbieranie – z kamer, sensorów, kas sklepowych – jest dziś całkowicie zautomatyzowane.
Nic zatem dziwnego, że w ostatnich latach nastąpiła eksplozja w tej dziedzinie. Co dwa dni generujemy tyle danych, ile zebraliśmy od początku świata do 2000 r.

Ilość, szybkość i różnorodność

Rzeka danych płynie dzień i noc. Eksperymenty w Wielkim Zderzaczu Hadronów (LHC) korzystają z detektorów dostarczających 25 GB (gigabajtów) danych na sekundę, z czego rocznie zachowuje się ich około 30 PT (petabajtów, 1 PT to milion GB). Twitter rejestruje około 500 mln tweetów dziennie. Amerykańska sieć handlowa Walmart przeprowadza milion transakcji na godzinę, co odpowiada 2,5 PT danych. Każdy silnik airbusa A380 generuje w ciągu 30 minut lotu 10 TB (terabajtów) danych (1 TB to tysiąc GB).
Dane same w sobie – nawet w dużej ilości – są bezużyteczne, dopiero ich analiza pozwala wydobyć z nich cenne informacje. Prym wiedzie tu wielki biznes, głównie handel. Dla marketingu dane na temat przeszłych zakupów to żyła złota. Można na ich podstawie tworzyć modele klientów o podobnych cechach, przewidywać sekwencje zakupów rozłożone w czasie, modelować „koszyki” zakupów itd.
Każde z tych odkryć przekłada się następnie na skuteczniejszą reklamę lub wydajniejszą obsługę w sklepie (np. ustawianie obok siebie produktów kupowanych razem).
Angielskie określenie Big Data, pochodzące jeszcze z lat 90., oznacza nie tylko dużą ilość danych, ale także ich różnorodność (liczby, tekst, zdjęcia, nagrania filmowe i dźwiękowe itp.) i szybkość, z jaką do nas docierają – stąd sugestia „rzeki danych” jako polskiego odpowiednika tego terminu. Te dwie ostatnie cechy współczesnych danych wymagały dużo bardziej wyrafinowanych algorytmów niż te stosowane do danych jednorodnych i statycznych.
Nic zatem dziwnego, że rynek w dziedzinie usług i oprogramowania do analizy danych wart był w 2018 r. 42 mld dolarów i rośnie w tempie ponad 10 proc. rocznie. Bodaj najbardziej poszukiwaną specjalnością wśród informatyków jest w tej chwili data scientist, a uczelnie – także w Polsce – uruchamiają osobne programy w tej dziedzinie.

Pytanie za milion

Algorytmów do analizy danych są w tej chwili setki, ale służą do realizacji kilku podstawowych zadań.
Grupowanie organizuje zbiory podobnych elementów w spójne grupy, czego efektem ubocznym jest wykrywanie anomalii – elementów, które do żadnej grupy nie pasują. Regresja buduje model danych w postaci funkcji matematycznej. Agregacja opisuje zbiór danych za pomocą ich własności statystycznych, takich jak suma, średnia, mediana itp.
Najczęściej używaną metodą analizy danych jest jednak klasyfikacja, która na podstawie własności elementu danych przydziela go do zawczasu zdefiniowanych grup. Klasyfikacji używa się do tak różnych zadań jak rekomendacje filmów na Netfliksie czy też rozpoznawanie obiektów na zdjęciach.
Ale proces analizy danych to dużo więcej niż tylko wybór i uruchomienie algorytmu. Bardzo ważne jest samo przygotowanie danych.
W ubiegłym roku jeden z największych azjatyckich serwisów muzycznych KKBox zorganizował konkurs, którego celem było zaprojektowanie algorytmu rekomendującego piosenki swoim abonentom. Wziął w nim udział jeden z moich doktorantów, Nima Shahbazi – zresztą niedawny laureat głównej nagrody, wartości miliona dolarów, w podobnym konkursie.
Poszukiwany algorytm jest uważany za skuteczny, jeśli rekomendowana piosenka jest następnie kilkakrotnie odsłuchana (co sugeruje, że spodobała się użytkownikowi). KKBox dostarczył dane ponad 30 tys. użytkowników, 360 tys. piosenek i ponad 7 mln odsłuchań (par użytkownik/piosenka). Dane te były ubogie: niewiele mówiły o użytkownikach, w dodatku każdy z nich wysłuchał znikomą część dostępnych piosenek.
Co gorsza, algorytm miał być oceniany na podstawie danych o nowych użytkownikach i piosenkach – czyli takich, o których niczego nie wiedzieliśmy. Żeby sprawdzić, jaki efekt uzyskamy analizując takie surowe dane, Nima zastosował algorytm oparty na sieciach neuronowych. Wygenerowane rekomendacje były żenująco słabe – niewiele lepsze niż wybór losowy! Było oczywiste, że dane trzeba lepiej przygotować.
Po pierwsze, należy większą wagę przywiązywać do ostatnich odsłuchań piosenek, bo te reprezentują obecny gust użytkownika. Po drugie, trzeba uzupełnić zbiór odsłuchań w taki oto sposób: jeśli użytkownicy A i B zgadzają się w ocenie wspólnie odsłuchanych piosenek, to można założyć, że piosenkę X, którą A lubi, B też powinien lubić (choć jej nigdy nie słuchał). Po trzecie, należy uzupełnić dane o takie parametry, jak liczba piosenkarzy, gatunków i piosenek odsłuchanych przez danego użytkownika. Obserwacji tego rodzaju było oczywiście więcej.
Nima spędził około 80 proc. czasu na selekcji i uzupełnianiu danych, a dopiero resztę na właściwym doborze algorytmów. Żadne z opisanych powyżej obserwacji nie miały charakteru technicznego, natomiast wymagały zrozumienia kontekstu, którego dotyczyły analizowane dane. Innymi słowy, bardziej niż informatyk, potrzebny był tu po prostu człowiek.

Czy jesteś robotem?

Wiele z zadań, jakie trzeba wykonać przy analizie danych, to żmudna i niewdzięczna praca. Kilkanaście lat temu „New York Times” postanowił zdigitalizować wszystkie archiwalne wydania gazety z ostatnich 150 lat.
Proces ten odbywa się w trzech etapach – najpierw robi się skan archiwalnego tekstu, następnie poddaje się go obróbce programem do rozpoznawania tekstu i wreszcie poprawia ewentualne błędy. Pierwsze dwa kroki są proste i tanie, ale w przypadku starych i zniszczonych gazet 10-30 proc. tekstu nie jest rozpoznawalne automatycznie i potrzebna jest interwencja człowieka. A to jest kosztowne.
Ale Luis von Ahn, profesor z uniwersytetu Carnegie Mellon, wpadł na przebiegły pomysł. Podzielił cały zeskanowany tekst na pojedyncze wyrazy i podtykał internautom jako dobrze wszystkim znane CAPTCHA. To te ciągi często bezsensownych, powykrzywianych i zamazanych liter, które mamy poprawnie zinterpretować, żeby udowodnić, że nie jesteśmy robotem. Każdy wyraz ze starych wydań „NYT” interpretowany był jako CAPTCHA przez wielu użytkowników dla zapewnienia poprawności odczytu na poziomie 99 proc.
Tak oto wielu z nas wzięło nieświadomie udział w digitalizacji „NYT”. Masowe wykorzystywanie usług czy opinii użytkowników internetu (najczęściej za ich zgodą i wiedzą) dla osiągnięcia jakiegoś skumulowanego rezultatu jest dziś powszechnie stosowane pod nazwą crowdsourcing.

Nowy paradygmat?

Dramatyczny wzrost ilości danych dostępnych dla naukowców w ostatnich latach skłonił niektórych obserwatorów do ogłoszenia jakościowej zmiany w uprawianiu nauki. W 2009 r. ukazał się zbiór artykułów opisujących rezultaty analizy wielkich zbiorów danych dokonanych wspólnie przez naukowców i informatyków, zatytułowany „The Fourth Paradigm” (ang. czwarty paradygmat).
Był to jednocześnie manifest zapowiadający rewolucję w nauce. Skoro algorytmy same potrafią wykrywać subtelne związki i zależności między danymi, naukowcy nie muszą już konstruować hipotez i modeli, algorytmy same będą je proponować. Autorzy poszli nawet dalej – uznali, że niepotrzebne jest wyjaśnianie zjawisk, a tylko ich przewidywanie, wystarczy wykrywać korelacje, a nie związki przyczynowo-skutkowe.
Dla metodologa nauki powyższe tezy brzmią naiwnie: choćbyśmy przeprowadzili miliony eksperymentów w LHC, to nie odkryjemy nowej mechaniki kwantowej; możemy co najwyżej sfalsyfikować tę wymyśloną przez Nielsa Bohra. Co do korelacji zaś, to mają one często marną wartość poznawczą.
Zauważono niegdyś silną korelację między sprzedażą lodów a liczbą utonięć (im więcej lodów, tym więcej utonięć i na odwrót). Ale cóż nam po tej obserwacji? Nie zmniejszymy liczby utonięć przez zakaz sprzedaży lodów właśnie dlatego, że nie jest to związek przyczynowo-skutkowy. Wyeliminowanie ich wspólnej przyczyny – czyli lata – też byłoby dość trudne [więcej na ten temat pisze Michał Eckstein – red.]

Bezrobocie i pornografia

Wydaje się, że entuzjazm wobec możliwości, jakie daje analiza wielkich zbiorów danych, może być jednak uzasadniony w przypadku nauk, w których budowanie prostych modeli jest tak czy owak niemożliwe i gdzie właśnie korelacje są użyteczne. Nie było przypadkiem, że autorzy „The Fourth Paradigm” reprezentowali takie właśnie nauki: oceanografię, epidemiologię, ochronę środowiska.
Ale największe chyba możliwości może przynieść Big Data w naukach społecznych, gdzie problemem było do tej pory nie tylko zebranie wystarczającej ilości danych, ale również ocena ich wiarygodność.
W 2017 r. ukazała się fascynująca książka „Everybody Lies”, o której psycholog Steven Pinker pisze wręcz, że „wskazuje nową drogę w naukach społecznych”. Jej autor, Seth Stephens-Davidowitz, poddaje analizie cyfrowe ślady, jakie pozostawiają użytkownicy portali internetowych takich jak Google, Facebook czy PornHub.
Wartość tych śladów – wpisów, kliknięć czy innych interakcji – leży w ich masowości, łatwej do analizy formie i wiarygodności. Standardowe w naukach społecznych badania ankietowe zbierają dane z niewielkiej tylko próbki populacji, są kosztowne i często niewiarygodne (badani nierzadko ukrywają prawdziwe przekonania).
Tymczasem Stephens-Davidowitz dostarczył nam informacji o setkach milionów ludzi, którzy szczerze sygnalizują swoje poglądy dzięki poczuciu anonimowości w internecie. Wymieńmy dwa przykładowe efekty jego analizy.
▪ Częstotliwość wpisywania obraźliwego określenia nigger (ang. czarnuch) w wyszukiwarce Google korelowała z głosami oddanymi na Donalda Trumpa w danej okolicy silniej niż bezrobocie, religijność mieszkańców, procent imigrantów czy fakt posiadania broni.
▪ Wzrost bezrobocia w okolicy wywołuje zwiększoną liczbę wyszukiwań stron pornograficznych.
Choć powyższe odkrycia można traktować jak ciekawostki, a nie rzetelną naukę, to z pewnością mogą one być inspiracją dla bardziej usystematyzowanych badań.

Internetowy test ciążowy

Prawie każde nasze działanie zostawia dziś cyfrowy ślad. Aplikacje telefoniczne takie jak Uber czy Google Maps znają nasze położenie, wyszukiwarka Google wie, co nas interesuje, a media społecznościowe znają nasze poglądy polityczne.
Większość z nas jest jednak świadoma, że pozostawia takie informacje o sobie i może podjąć proste kroki, aby uniknąć ich ujawniania. Niestety, niewiele możemy zrobić, aby zapobiec wykryciu osobistych danych, których nie zostawiliśmy nigdzie explicite, ale które można wywnioskować ze śladów zostawionych w internecie. Oto słynna już historia sprzed kilku lat.
Target, amerykańska sieć supermarketów, zatrudniła analityka danych, by ten na podstawie informacji o klientach zebranych przez karty lojalnościowe oceniał, czy dana klientka spodziewa się dziecka.
Zadanie okazało się stosunkowo łatwe: zidentyfikowano 25 produktów, których zakupy pozwalały z bardzo dużym prawdopodobieństwem przewidzieć nie tylko to, że klientka jest w ciąży, ale również przybliżony termin porodu. Marketingowcy zaczęli wysyłać przyszłym matkom kupony rabatowe na śpioszki, wózki itp.
Trwało to dopóty, dopóki w jednym ze sklepów Target nie pojawił się wściekły ojciec pewnej 15-latki. Zażądał wyjaśnień, dlaczego jego córka dostaje broszury reklamujące ubranka dla niemowlaków: czyżby Target zachęcał nastolatki do zachodzenia w ciążę?
Target wystosował oficjalne przeprosiny; no cóż, żaden algorytm nie jest nieomylny. Ale kilka dni później zadzwonił skruszony ojciec; córka się przyznała, algorytm miał rację.

Pełna anonimowość

Wydawać by się mogło, że anonimowość jest prostą i niezawodną metodą zachowania prywatności (gdyby 15-latka nie podała swojego nazwiska i adresu, ani jej ojciec, ani sklep nie wiedzieliby, że jest w ciąży). W istocie ustawodawstwa większości krajów Zachodu wymagają anonimizacji tzw. wrażliwych danych (np. medycznych).
Niestety w ostatnich latach pokazano, że nawet anonimowość nie daje gwarancji utajnienia danych. Kilka lat temu Vitaly Shmatikov i jego grupa z Uniwersytetu w Teksasie zaprojektowali błyskotliwy algorytm, który porównując wyłącznie strukturę dwóch sieci społecznościowych, Flickr i Twitter, poprawnie wskazał właścicieli 88 proc. anonimowych kont tego drugiego. Warto przy tym podkreślić, że ani Target, ani Shmatikov nie złamali prawa wykrywając informacje, które użytkownicy chcieli ukryć.
Nie znaczy to oczywiście, że niepotrzebna jest ochrona prawna prywatności, ale moim zdaniem naiwnością jest liczyć na to, że prawo zapewni nam pełną gwarancję ochrony danych osobowych.
Co nam pozostaje? W zasadzie możemy wycofać się ze świata cyfrowego. Wyrzucić smartfon, nie otwierać przeglądarki internetowej na swoim domowym komputerze i zrezygnować z karty kredytowej. Ale kto z nas byłby na to gotowy? ©
Autor jest profesorem informatyki na Uniwersytetecie York w Toronto. Od dwudziestu lat zajmuje się analizą danych.

CZYTAJ TAKŻE
WIELKIE MIRAŻE: Automatyczne algorytmy szukające wzorców w gigantycznych bazach danych mogą pomóc naukowcom, ale ich nie zastąpią.

bazy danych