Faktury elektroniczne EBPP

Trystero

Technologie tworzą zupełnie nowe rynki

Opublikowane przez Trystero w kategorii Gospodarka, Świat dnia 14.08.2010 | Komentarze (14) »

Chyba wszyscy czytelnicy bloga mieli do czynienia z CAPTCHA, choć zapewnie niektórzy nie zdają sobie z tego sprawy. CAPTCHA, czyli Completely Automated Public Turing test to tell Computers and Humans Apart, to z reguły obrazki z zakodowanymi w nich literami i cyframi, które należy odczytać i wpisać do formularza. Celem tych obrazków jest odróżnienie ludzi od maszyn, w tym przypadku głównie spamujących botów.

CAPTCHA chronią fora internetowe przed spamującymi botami, usługi kont pocztowych przed zakładaniem przez boty kont wykorzystywanych do nielegalnej działalności, i tak dalej. Już po tym zdaniu, powinno się nasunąć spostrzeżenie, że powstała cała gałąź przemysłu zajmująca się neutralizowaniem CAPTCHA.

Problem polega na tym, że twórcy CAPTCHA mają istotną przewagę a tworzenie trudniejszych CAPTCHA jest łatwiejsze niż tworzenie algorytmów zdolnych dokonywać skomplikowanej analizy wizualnej obrazków. W tej dziedzinie, przynajmniej na razie, ludzkie oko i mózg góruje nad maszynami.

W tym miejscu pojawia się wolny rynek, globalizacja, obniżenie kosztów transmisji danych oraz państwa z bardzo dużymi zasobami bardzo taniej siły roboczej. Część czytelników już pewnie domyśla – istnieją firmy zatrudniające osoby, których zadaniem jest odczytywanie CAPTCHA, w trybie rzeczywistym. Wygląda to tak: spamujący bot napotyka na CAPTCHA, którego nie potrafi rozgryźć, wysyła zapytanie do dostawcy usługi. Na komputerze pracownika wyspecjalizowanej firmy pojawia się obrazek i formularz do wpisania odpowiedzi. Odpowiedź trafia do bota, który ją wykorzystuje.

Ile wynosi koszt takiej usługi? Na poziomie pracownika jest to obecnie około 0,75$ za 1000  CAPTCHA, choć jeszcze w 2006 roku rozwiązanie 1000 CAPTCHA przynosiło około $10. Rynek jest więc bardzo konkurencyjny. Warto jednak podkreślić, że skoro są to zarobki pracownika to koszt dla spamera jest zapewne o kilkadziesiąt procent wyższy – trzeba przecież pokryć koszty stanowiska pracy i marzę usługodawcy.

Autorzy analizy sektora CAPTCHA (omówienie badań) podają, że rozwiązanie 1000 CAPTCHA kosztuje zleceniodawcę od $1 do $2. Fakt, że spamerzy gotowi są płacić za rozwiązywanie CAPTCHA przekonuje, ze CAPTCHA chronią realne dobro ekonomiczne, którym jest potencjalna ekspozycja na materiał reklamowy.

Autorzy badań przetestowali sektor neutralizujący CAPTCHA i stwierdzili, że z wyjątkiem jednego serwisu, od 86% do 89% rozwiązań było poprawnych, co jest dla autora tego tekstu wynikiem wyśmienitym z uwagi na fakt, że sam osiąga zbliżone rezultaty. Imponujący był także czas reakcji, jego mediana dla badanej grupy wyniosła 14 sekund. Jak duży jest to biznes? Autorzy szacują, ze lider branży może zatrudniać od 400 do 500 pracowników i posiada zdolność przerobową od 27 do 41 CAPTCHA na sekundę. Zdolności przerobowe całego sektora można szacować na 1 000 000 CAPTCHA dziennie. Przy cenie $1 za 1000  CAPTCHA tworzyłoby to rynek wart 0,35 mln USD rocznie.

W gruncie rzeczy, CAPTCHA przestały być technologiczną zaporą dla spamerów – stały się przeszkodą ekonomiczną. Stanowią po prostu dodatkowe koszty i tak długo jak utrudniają spamerom ‘wyjście na zero’ tak długo są skuteczne. Okazuje się jednak, że na przykład w przypadku zakładania ‘spamujących’ kont pocztowych wystarczy by jedno konto zdołało wysłać 100 wiadomości by zwróciły się koszty usługi neutralizującej CAPTCHA (jeden spam farmaceutyczny zarabia około $0,00001). To oznaczać może pojawienie się zapór następnej generacji.

Ukłony: Marginal Revolution

Podziel się z innymi:
  • Wykop
  • Google Bookmarks
  • Facebook
  • BLIP - Bardzo Lubię Informować Przyjaciół
  • Co-Robie.pl | Co teraz robisz?
  • Wrzuć to na Flakera - powiadom swoich Znajomych
  • grono.net - internetowa społeczność przyjaciół
  • Dodaj link - Linkr.pl - tylko ciekawe linki
  • Polec.pl - Pozytywnie Odjazdowo Lajtowo Elokwentny Content
  • Dodaj wyczajenie
  • Spis.pl - najciekawsze w sieci
  • pinger.pl - Nie taki zwykły blog.

Komentarze (14) do "Technologie tworzą zupełnie nowe rynki"

  1. Bulwersator powiedział(a):

    1) Można też napisać/kupić odpowiedni program, nawet CAPTCHA gmailowa jest już przez takie programy rozwiązywana (dlatego rejestracja na gmaila wymaga posiadania telefonu komórkowego).
    2) Była swego czasu strona pornograficzna (dalej jest?) wymagająca rozwiązanie CAPTCHA przed obejrzeniem czegokolwiek (i w trakcie). CAPTCHA rozwiązane przez “użytkowników” były w większości usługą typu opisanego przez Trystero (część była rzeczywistą CAPTCHĄ, dla weryfikacji czy odpowiedzi są poprawne).

  2. Bulwersator powiedział(a):

    ad 1) http://www.lafdc.com/captcha/ (strona chińskiego producenta łamaczy Captcha)

  3. adegie powiedział(a):

    @Bulwersator
    “Można też napisać/kupić odpowiedni program”

    Można też przeczytać blogonotkę przed umieszczeniem takiego “odkrywczego” komentarza:

    “Problem polega na tym, że twórcy CAPTCHA mają istotną przewagę a tworzenie trudniejszych CAPTCHA jest łatwiejsze niż tworzenie algorytmów zdolnych dokonywać skomplikowanej analizy wizualnej obrazków. W tej dziedzinie, przynajmniej na razie, ludzkie oko i mózg góruje nad maszynami.”

  4. Bulwersator powiedział(a):

    “W tej dziedzinie, przynajmniej na razie, ludzkie oko i mózg góruje nad maszynami.”
    Nie zawsze.
    a) Szybkość – 14 sekund jest rzeczywiście imponujące, ale komputer jest jeszcze szybszy.
    b) Trafność – przy prostych programy osiągają 100%, człowiek się częściej myli, przy skomplikowanych: programy są dość słabe (ale coraz lepsze).

  5. llukiz powiedział(a):

    Spotkałem się z takimi CAPTCHA, których po prostu nie da się odczytać. To znaczy da się, ale nie jednoznacznie. Rozwiązując można sobie tylko zgadywać co autor miał na myśli i na zgadnięcie ma się jakieś 25% szans. Nie wiem czy jest tak zrobione specjalnie, czy po prostu ktoś kto projektuje taki captcha to idiota.

  6. Trystero powiedział(a):

    @ Bulwersator

    Może z łaski swojej przeczytasz opracowanie, do którego linkuje zanim zaczniesz udowadniać, że nie mam pojęcia o czym piszę? Są CAPTCHA, z którymi algorytmy sobie nie radzą. Zresztą, gdyby ich nie było to nie powstał by sektor zatrudniający ludzi do odczytywania CAPTCHA.

    @ llukiz

    Ja też mam czasem problemy, dlatego autentycznie szanuje mieszkańców Bangladeszu czy Wietnamu, którzy potrzebują 14 sekund przy 90% trafności na odczytanie CAPTCHA w nie swoim języku.

  7. Bulwersator powiedział(a):

    “Zresztą, gdyby ich nie było to nie powstał by sektor zatrudniający ludzi do odczytywania CAPTCHA.”

    Niekoniecznie.
    - Program do CAPTCHy yahoo kosztuje 8000$ (zakładam że ta strona sprzedaje programy, a nie wyciąga kasę od naiwnych)
    - Rozwiązanie CAPTCHy przez człowieka kosztuje 1/1000$.

    Wniosek: jeśli chcemy rozwiązać mniej niż 8 milionów CAPTCH to lepiej zlecić to ludziom. W dodatku w przypadku złamania CAPTCHy jest ryzyko, że zostanie wprowadzona nowa lepsza (Gmail w pewnym momencie zablokował rejestrację, powodem prawdopodobnie było złamanie zabezpieczeń przed automatycznym zakładaniem kont).

  8. Trystero powiedział(a):

    @ Bulwersator

    Wniosek: jeśli chcemy rozwiązać mniej niż 8 milionów CAPTCH to lepiej zlecić to ludziom.

    A to jest bardzo mądra uwaga – ludzkie neutralizowanie CAPTCHA może mieć przyczyny technologiczne i ekonomiczne.

  9. jasiek powiedział(a):

    a ciekawostka jest to, ze captcha google (reCAPTCHA) uzywane jest przez googla do odczytywania zeskanowanych ksiazek… sa dwa slowa – jedno jest ‘prawdziwym’ captcha sluzacym do weryfikacji, a drugie to zeskanowane slowo, ktorego komputer nie moze jednoznacznie odczytac…

  10. akuda powiedział(a):

    Wpis ma 2 części:
    1) anegdotka informatyczna
    2) inny biznes oparty na CAPTCHA, dużo bardziej optymistyczny

    1) anegdotka

    Na aplikacjach www poproszono nas o napisanie portalu społecznościowego (typu nasza-klasa, koderom naszego kalibru zajmuje to po 1-2 tygodnie). Jednym z wymagań (to była praca domowa) było użycie jakiejkolwiek CAPTCHY do zakładania kont użytkownikom.

    Generalnie CAPTCHA jest słabym zabezpieczeniem. Znajomy z UCL napisał na I roku studiów (żeby nie było – studiował wtedy matematykę) wraz z 2 innymi studentami aplikację, która łamała te z rapidshare’a z prawdopodobieństwem 90%.

    Dlatego opracowano lepsze zabezpieczenie: pokazujemy zdjęcie (nie rysunek, bo to za proste) jakiegoś zwierzaka, i prosimy o napisanie np. “trzeciej litery nazwy tego zwierzaka”. Generalnie człowiek który zna język i ma więcej niż 10 lat sobie radzi. Program – ni cholery.

    Ktoś ze znajomych wpadł na uroczy pomysł: do bazy obrazków zwierzaczków (te portale były testowane off-line) dodał 3 obrazki typu pies, kot, chomik, i jakieś 100 obrazków egzotycznych ptaków, węży, ryb itp. których nazw nikt nie kojarzy :). Portal był napisany tak, by testowany na komputerze twórcy używał tylko tych 3 łatwych rysunków, a na innych komputerach pełnej puli.

    Był to jeden z lepszych dowcipów programistycznych jakie widziałem :).

    2) biznes

    A wracając do biznesu – jest też inicjatywa zwana (o ile dobrze pamiętam) “re-captcha”, która polega na tym, że:
    Biblioteka skanująca książki do postaci elektronicznej chce je z OCR’ować, czyli przetłumaczyć z obrazu na znaki, bo tak zajmuje mniej miejsca. Programy OCRujące sobie generalnie radzą, ale nie zawsze. Te zlepki liter, z którymi sobie nie radzą, są podawane grupie ludzi jako CAPTCHA, i jeśli odpowiednio liczna grupa zgodnie przetłumaczy je na jakiś ciąg symboli, ten ciąg symboli uznawany jest za poprawny. Działa samo, i już w setkach liczone są książki które nieświadomi użytkownicy internetu zOCRowali :).

  11. gracz powiedział(a):

    Pragnę zwrócić uwagę, że łamanie CAPTCHA ma dotkliwe skutkik także dla serwisów hostingujących takich jak hotfile czy sharingmatrix.
    W przeszłości, gdy ktoś ściągał serię plików zamieszczonych na ich serwerach to albo musiał czatować przed komputerem i mozolnie pilnować aż jeden plik się ściągnie, przepisywać kody CAPTCHA i znowu czekać (darmowe ściąganie ma ograniczenia) albo wykupić wersję premium.
    Obecnie coraz więcej osób posługuje się programami typu JDownloader, gdzie program ma wbudowany algorytm deszyfrujący zawartość obrazka i samodzielnie kolejkujący ściągane pliki, a gdy nie może odczytać obrazka wyrzuca na ekran niewielkie okienko z kodem i czeka aż użytkownik samodzielnie go przepisze. Jeśli użytkownika nie ma przy komputerze to program po pewnym czasie wysyła do serwera żądanie o zmianę obrazka i znowu próbuje sam go zdeszyfrować.

    Ciężko oszacować straty jakie ponoszą z tego typu praktyk serwisy hostingujące pliki, jednak z całą pewnością są to duże sumy i warto też o tym wspomnieć.

  12. akuda powiedział(a):

    @gracz

    Biorąc pod uwagę, że serwisy typu rapidshare żyją z hostowania treści naruszających prawa autorskie, umywając od tego ręce za pomocą regulaminu – to szczerze? Nie żal mi. Jaki twórca (a powiedzmy sobie szczerze – wszystko ma swojego twórcę) potrzebuje jakiegoś megauploada do hostowania swoich dzieł?

    Jakoś sourceforge i milion innych stron udostępniających legalne treści nie ma takich problemów.

    Captcha często istnieje tylko po to, by nakłonić Cię do wykupienia abonamentu.

  13. Szeryf powiedział(a):

    Jest przeciez program, ktory sie zowie xrumer i ktory kosztuje 500$ oparty o algorytm sztucznej inteligencji i on zlamie kazda CAPTCHE lacznie z ta googlowa. Wartosciowa lista stron kosztuje do niego 2000zł, ale kto wie jak efektownie uzyc tego programu temu szybko sie te pieniadze zwracaja z nawiazka. Nie widze potrzeby inwestowania w pracownikow skoro jest ten program.

  14. rmrmg powiedział(a):

    akuda: “Jaki twórca potrzebuje jakiegoś megauploada do hostowania swoich dzieł?

    Właściwie każdy który, nie ma serwera z bardzo dobrym uploadem, a musi podzielić się dużą ilością danych z dużą grupą osób i nie musi prowadzić statystyk czy pobierać opłat.

Dodaj komentarz

Trystero

niezależny blog finansowy

Autor bloga jest inwestorem giełdowym i doktorantem na czołowym polskim uniwersytecie. Publikowane na blogu teksty dotyczą rynku kapitałowego, ekonomii, gospodarki i życia społecznego– w takiej mniej więcej kolejności więcej »

Content on this page requires a newer version of Adobe Flash Player.

Get Adobe Flash player