Spora część polskiej Sieci wie, że zamówiłem trochę książek w Amazon. Przyszły dwa tygodnie przed terminem. Dwie z nich już przeczytałem. Jedną z nich jest Super Crunchers Ian Ayresa (to z podtytułu tej książki zapożyczyłem tytuł tego tekstu).
By zrozumieć o czym opowiada Ayres wystarczy przypomnieć sobie co stało się z młodszymi specjalistami kredytowymi w bankach. Wychowani w PRL czytelnicy bloga zapewne w ogóle nie mają takich wspomnień, ale jeszcze 30 lat temu, na przykład w USA, o udzieleniu kredytu decydował pracownik lokalnego oddziału banku, bardzo szanowany członek społeczności, który na podstawie własnej oceny popartej finansową analizą możliwości kredytowych klienta, przyznawał kredyt lub odmawiał jego udzielenia.
Tak było zanim stworzono punktową metodę przyznawania kredytów (w oparciu o credit score). Obecnie, specjalista do spraw kredytów tym różni się od osoby wprowadzającej dane do systemu, że ma ‘ładny’ tytuł stanowiska. Dane wprowadzone przez pracownika banku przetwarzane są przez centralny system instytucji i to stworzone przez innych pracowników banku algorytmy decydują o przejęciu lub odrzuceniu podania o kredyt.
Ayres w gruncie rzeczy pyta: kto następny? W jakich kolejnych dziedzinach analiza statystyczna okaże się lepsza, wydajniejsza od pracy ekspertów? Jednym z najbardziej opornych dziedzin jest medycyna. Trudno się temu dziwić – to w końcu medycy przez długie lata ignorowali statystyczne dowody na efektywność ‘wariackiego’ konceptu Ingaza Semmelweisa, że mycie rąk przez lekarzy drastycznie obniża śmiertelność matek na izbach porodowych. Dziś, trudno uwierzyć, że terabajty danych, które miliony pacjentów w państwach rozwiniętych ‘produkuje’ każdego roku swoimi dolegliwościami jest praktycznie niewykorzystane. Istnieją już jednak programy komputerowe, które z listy 30 000 potencjalnych chorób wskazują, na podstawie wprowadzonych do systemu symptomów, kilka najbardziej prawdopodobnych schorzeń. Tymczasem, po zdigitalizowaniu kart pacjenta i zmuszeniu lekarzy pierwszego kontaktu do dokładnego wpisywania danych, cała służba zdrowia mogłaby się przekształcić w jedno gigantyczne badanie kliniczne. Ten system istnieje już w onkologii (gdzie lekarze mogą na przykład skorzystać ze statystyk o tym czy przy III stadium raka mózgu skuteczniejsza jest radioterapia czy chemioterapia) i nie ma technicznych przeciwwskazań przed rozszerzeniem do na inne dziedziny.
Wykładniczy wzrost mocy obliczeniowych i dostępnej pojemności pamięci umożliwił gromadzenie, przetwarzanie i analizowanie danych na skalę nie znaną jeszcze 30 lat temu. Biblioteka Kongresu liczy około 20 terabajtów informacji. W 2007 roku Yahoo każdego dnia gromadziło 12 terabajtów danych!
Czytaj dalszą część »