Chyba wszyscy czytelnicy bloga mieli do czynienia z CAPTCHA, choć zapewnie niektórzy nie zdają sobie z tego sprawy. CAPTCHA, czyli Completely Automated Public Turing test to tell Computers and Humans Apart, to z reguły obrazki z zakodowanymi w nich literami i cyframi, które należy odczytać i wpisać do formularza. Celem tych obrazków jest odróżnienie ludzi od maszyn, w tym przypadku głównie spamujących botów.
CAPTCHA chronią fora internetowe przed spamującymi botami, usługi kont pocztowych przed zakładaniem przez boty kont wykorzystywanych do nielegalnej działalności, i tak dalej. Już po tym zdaniu, powinno się nasunąć spostrzeżenie, że powstała cała gałąź przemysłu zajmująca się neutralizowaniem CAPTCHA.
Problem polega na tym, że twórcy CAPTCHA mają istotną przewagę a tworzenie trudniejszych CAPTCHA jest łatwiejsze niż tworzenie algorytmów zdolnych dokonywać skomplikowanej analizy wizualnej obrazków. W tej dziedzinie, przynajmniej na razie, ludzkie oko i mózg góruje nad maszynami.
W tym miejscu pojawia się wolny rynek, globalizacja, obniżenie kosztów transmisji danych oraz państwa z bardzo dużymi zasobami bardzo taniej siły roboczej. Część czytelników już pewnie domyśla – istnieją firmy zatrudniające osoby, których zadaniem jest odczytywanie CAPTCHA, w trybie rzeczywistym. Wygląda to tak: spamujący bot napotyka na CAPTCHA, którego nie potrafi rozgryźć, wysyła zapytanie do dostawcy usługi. Na komputerze pracownika wyspecjalizowanej firmy pojawia się obrazek i formularz do wpisania odpowiedzi. Odpowiedź trafia do bota, który ją wykorzystuje.
Ile wynosi koszt takiej usługi? Na poziomie pracownika jest to obecnie około 0,75$ za 1000 CAPTCHA, choć jeszcze w 2006 roku rozwiązanie 1000 CAPTCHA przynosiło około $10. Rynek jest więc bardzo konkurencyjny. Warto jednak podkreślić, że skoro są to zarobki pracownika to koszt dla spamera jest zapewne o kilkadziesiąt procent wyższy – trzeba przecież pokryć koszty stanowiska pracy i marzę usługodawcy.
Autorzy analizy sektora CAPTCHA (omówienie badań) podają, że rozwiązanie 1000 CAPTCHA kosztuje zleceniodawcę od $1 do $2. Fakt, że spamerzy gotowi są płacić za rozwiązywanie CAPTCHA przekonuje, ze CAPTCHA chronią realne dobro ekonomiczne, którym jest potencjalna ekspozycja na materiał reklamowy.
Autorzy badań przetestowali sektor neutralizujący CAPTCHA i stwierdzili, że z wyjątkiem jednego serwisu, od 86% do 89% rozwiązań było poprawnych, co jest dla autora tego tekstu wynikiem wyśmienitym z uwagi na fakt, że sam osiąga zbliżone rezultaty. Imponujący był także czas reakcji, jego mediana dla badanej grupy wyniosła 14 sekund. Jak duży jest to biznes? Autorzy szacują, ze lider branży może zatrudniać od 400 do 500 pracowników i posiada zdolność przerobową od 27 do 41 CAPTCHA na sekundę. Zdolności przerobowe całego sektora można szacować na 1 000 000 CAPTCHA dziennie. Przy cenie $1 za 1000 CAPTCHA tworzyłoby to rynek wart 0,35 mln USD rocznie.
W gruncie rzeczy, CAPTCHA przestały być technologiczną zaporą dla spamerów – stały się przeszkodą ekonomiczną. Stanowią po prostu dodatkowe koszty i tak długo jak utrudniają spamerom ‘wyjście na zero’ tak długo są skuteczne. Okazuje się jednak, że na przykład w przypadku zakładania ‘spamujących’ kont pocztowych wystarczy by jedno konto zdołało wysłać 100 wiadomości by zwróciły się koszty usługi neutralizującej CAPTCHA (jeden spam farmaceutyczny zarabia około $0,00001). To oznaczać może pojawienie się zapór następnej generacji.
Ukłony: Marginal Revolution


1) Można też napisać/kupić odpowiedni program, nawet CAPTCHA gmailowa jest już przez takie programy rozwiązywana (dlatego rejestracja na gmaila wymaga posiadania telefonu komórkowego).
2) Była swego czasu strona pornograficzna (dalej jest?) wymagająca rozwiązanie CAPTCHA przed obejrzeniem czegokolwiek (i w trakcie). CAPTCHA rozwiązane przez “użytkowników” były w większości usługą typu opisanego przez Trystero (część była rzeczywistą CAPTCHĄ, dla weryfikacji czy odpowiedzi są poprawne).
ad 1) http://www.lafdc.com/captcha/ (strona chińskiego producenta łamaczy Captcha)
@Bulwersator
“Można też napisać/kupić odpowiedni program”
Można też przeczytać blogonotkę przed umieszczeniem takiego “odkrywczego” komentarza:
“Problem polega na tym, że twórcy CAPTCHA mają istotną przewagę a tworzenie trudniejszych CAPTCHA jest łatwiejsze niż tworzenie algorytmów zdolnych dokonywać skomplikowanej analizy wizualnej obrazków. W tej dziedzinie, przynajmniej na razie, ludzkie oko i mózg góruje nad maszynami.”
“W tej dziedzinie, przynajmniej na razie, ludzkie oko i mózg góruje nad maszynami.”
Nie zawsze.
a) Szybkość – 14 sekund jest rzeczywiście imponujące, ale komputer jest jeszcze szybszy.
b) Trafność – przy prostych programy osiągają 100%, człowiek się częściej myli, przy skomplikowanych: programy są dość słabe (ale coraz lepsze).
Spotkałem się z takimi CAPTCHA, których po prostu nie da się odczytać. To znaczy da się, ale nie jednoznacznie. Rozwiązując można sobie tylko zgadywać co autor miał na myśli i na zgadnięcie ma się jakieś 25% szans. Nie wiem czy jest tak zrobione specjalnie, czy po prostu ktoś kto projektuje taki captcha to idiota.
@ Bulwersator
Może z łaski swojej przeczytasz opracowanie, do którego linkuje zanim zaczniesz udowadniać, że nie mam pojęcia o czym piszę? Są CAPTCHA, z którymi algorytmy sobie nie radzą. Zresztą, gdyby ich nie było to nie powstał by sektor zatrudniający ludzi do odczytywania CAPTCHA.
@ llukiz
Ja też mam czasem problemy, dlatego autentycznie szanuje mieszkańców Bangladeszu czy Wietnamu, którzy potrzebują 14 sekund przy 90% trafności na odczytanie CAPTCHA w nie swoim języku.
“Zresztą, gdyby ich nie było to nie powstał by sektor zatrudniający ludzi do odczytywania CAPTCHA.”
Niekoniecznie.
- Program do CAPTCHy yahoo kosztuje 8000$ (zakładam że ta strona sprzedaje programy, a nie wyciąga kasę od naiwnych)
- Rozwiązanie CAPTCHy przez człowieka kosztuje 1/1000$.
Wniosek: jeśli chcemy rozwiązać mniej niż 8 milionów CAPTCH to lepiej zlecić to ludziom. W dodatku w przypadku złamania CAPTCHy jest ryzyko, że zostanie wprowadzona nowa lepsza (Gmail w pewnym momencie zablokował rejestrację, powodem prawdopodobnie było złamanie zabezpieczeń przed automatycznym zakładaniem kont).
@ Bulwersator
Wniosek: jeśli chcemy rozwiązać mniej niż 8 milionów CAPTCH to lepiej zlecić to ludziom.
A to jest bardzo mądra uwaga – ludzkie neutralizowanie CAPTCHA może mieć przyczyny technologiczne i ekonomiczne.
a ciekawostka jest to, ze captcha google (reCAPTCHA) uzywane jest przez googla do odczytywania zeskanowanych ksiazek… sa dwa slowa – jedno jest ‘prawdziwym’ captcha sluzacym do weryfikacji, a drugie to zeskanowane slowo, ktorego komputer nie moze jednoznacznie odczytac…
Wpis ma 2 części:
1) anegdotka informatyczna
2) inny biznes oparty na CAPTCHA, dużo bardziej optymistyczny
1) anegdotka
Na aplikacjach www poproszono nas o napisanie portalu społecznościowego (typu nasza-klasa, koderom naszego kalibru zajmuje to po 1-2 tygodnie). Jednym z wymagań (to była praca domowa) było użycie jakiejkolwiek CAPTCHY do zakładania kont użytkownikom.
Generalnie CAPTCHA jest słabym zabezpieczeniem. Znajomy z UCL napisał na I roku studiów (żeby nie było – studiował wtedy matematykę) wraz z 2 innymi studentami aplikację, która łamała te z rapidshare’a z prawdopodobieństwem 90%.
Dlatego opracowano lepsze zabezpieczenie: pokazujemy zdjęcie (nie rysunek, bo to za proste) jakiegoś zwierzaka, i prosimy o napisanie np. “trzeciej litery nazwy tego zwierzaka”. Generalnie człowiek który zna język i ma więcej niż 10 lat sobie radzi. Program – ni cholery.
Ktoś ze znajomych wpadł na uroczy pomysł: do bazy obrazków zwierzaczków (te portale były testowane off-line) dodał 3 obrazki typu pies, kot, chomik, i jakieś 100 obrazków egzotycznych ptaków, węży, ryb itp. których nazw nikt nie kojarzy :). Portal był napisany tak, by testowany na komputerze twórcy używał tylko tych 3 łatwych rysunków, a na innych komputerach pełnej puli.
Był to jeden z lepszych dowcipów programistycznych jakie widziałem :).
2) biznes
A wracając do biznesu – jest też inicjatywa zwana (o ile dobrze pamiętam) “re-captcha”, która polega na tym, że:
Biblioteka skanująca książki do postaci elektronicznej chce je z OCR’ować, czyli przetłumaczyć z obrazu na znaki, bo tak zajmuje mniej miejsca. Programy OCRujące sobie generalnie radzą, ale nie zawsze. Te zlepki liter, z którymi sobie nie radzą, są podawane grupie ludzi jako CAPTCHA, i jeśli odpowiednio liczna grupa zgodnie przetłumaczy je na jakiś ciąg symboli, ten ciąg symboli uznawany jest za poprawny. Działa samo, i już w setkach liczone są książki które nieświadomi użytkownicy internetu zOCRowali :).
Pragnę zwrócić uwagę, że łamanie CAPTCHA ma dotkliwe skutkik także dla serwisów hostingujących takich jak hotfile czy sharingmatrix.
W przeszłości, gdy ktoś ściągał serię plików zamieszczonych na ich serwerach to albo musiał czatować przed komputerem i mozolnie pilnować aż jeden plik się ściągnie, przepisywać kody CAPTCHA i znowu czekać (darmowe ściąganie ma ograniczenia) albo wykupić wersję premium.
Obecnie coraz więcej osób posługuje się programami typu JDownloader, gdzie program ma wbudowany algorytm deszyfrujący zawartość obrazka i samodzielnie kolejkujący ściągane pliki, a gdy nie może odczytać obrazka wyrzuca na ekran niewielkie okienko z kodem i czeka aż użytkownik samodzielnie go przepisze. Jeśli użytkownika nie ma przy komputerze to program po pewnym czasie wysyła do serwera żądanie o zmianę obrazka i znowu próbuje sam go zdeszyfrować.
Ciężko oszacować straty jakie ponoszą z tego typu praktyk serwisy hostingujące pliki, jednak z całą pewnością są to duże sumy i warto też o tym wspomnieć.
@gracz
Biorąc pod uwagę, że serwisy typu rapidshare żyją z hostowania treści naruszających prawa autorskie, umywając od tego ręce za pomocą regulaminu – to szczerze? Nie żal mi. Jaki twórca (a powiedzmy sobie szczerze – wszystko ma swojego twórcę) potrzebuje jakiegoś megauploada do hostowania swoich dzieł?
Jakoś sourceforge i milion innych stron udostępniających legalne treści nie ma takich problemów.
Captcha często istnieje tylko po to, by nakłonić Cię do wykupienia abonamentu.
Jest przeciez program, ktory sie zowie xrumer i ktory kosztuje 500$ oparty o algorytm sztucznej inteligencji i on zlamie kazda CAPTCHE lacznie z ta googlowa. Wartosciowa lista stron kosztuje do niego 2000zł, ale kto wie jak efektownie uzyc tego programu temu szybko sie te pieniadze zwracaja z nawiazka. Nie widze potrzeby inwestowania w pracownikow skoro jest ten program.
akuda: “Jaki twórca potrzebuje jakiegoś megauploada do hostowania swoich dzieł?
Właściwie każdy który, nie ma serwera z bardzo dobrym uploadem, a musi podzielić się dużą ilością danych z dużą grupą osób i nie musi prowadzić statystyk czy pobierać opłat.