segunda-feira, junho 01, 2009

Novos 'quebra-cabeças' distinguem humanos de máquinas na web


Anne Eisenberg
Programas maliciosos tentam de toda forma fazer registros em websites e depois instalar o caos, mas um inteligente "quebra-cabeça" freqüentemente barra sua entrada: um grupo de letras e números distorcidos, com aparência de rabiscos, que as pessoas conseguem decifrar e digitar corretamente para obter permissão, mas as máquinas ainda não conseguem.
Bom, pelo menos por enquanto.
Agora, para ficar um passo à frente dos fraudadores e seus programas automatizados, pesquisadores estão desenvolvendo mais versões desses quebra-cabeças, conhecidos como captchas, para ajudar sites a bloquear abusos que incluem spams, postagens ilegais e votações online distorcidas.
Pesquisadores do Google estão testando um novo captcha que requer que as pessoas desvirem imagens aleatoriamente rotacionadas, como um papagaio empoleirado temporariamente de ponta-cabeça em um galho. A tarefa é simples para as pessoas - usando uma tela de celular sensível ao toque, por exemplo, para virar a imagem -, mas difícil para as máquinas.
Os novos desafios podem ser adaptados a partir do tema do site - por exemplo, desenhos em um site da Disney, ou objetos à venda no eBay, disse Rich Gossweiler, cientista de pesquisa sênior do Google, que liderou a equipe de desenvolvimento do novo sistema. Ele pode ser instalado rapidamente, afirmou, e tem suprimento quase ilimitado de imagens.
"Nossa técnica expande o vocabulário dos captchas" além dos caracteres embaçados, disse Gossweiler. "E pode fazer com que o proceso seja menos trabalhoso. É divertido resolver um quebra-cabeça."
O programa rejeita imagens como rostos humanos, que os computadores já aprenderam a reconhecer, disse. "Primeiro removemos todas essas imagens que os computadores podem virar do lado certo, e depois aquelas com as quais os humanos têm dificuldade", explicou.
As pessoas podem achar difícil rotacionar arte abstrata, mas conseguem rapidamente distinguir a imagem de um papagaio, por exemplo, mesmo se estiver entre objetos como folhas.
"Conseguimos ver que deve ficar em posição vertical", disse, "mas é mais difícil para o computador segmentar o papagaio" e depois reorientá-lo.
O Google pode reabastecer sua biblioteca de imagens continuamente, testando novos candidatos. "Se várias pessoas colocam uma imagem na posição correta, nós a mantemos", disse Gossweiler. Mas se a imagem for difícil, será descartada.
Outra abordagem nova na corrida dos captchas foi desenvolvida por Luis von Ahn, professor da Universidade Carnegie Mellon e pioneiro no desenvolvimento de captchas. (O termo é um acrônimo em inglês de "teste de Turing completamente automatizado para diferenciar computadores de humanos", um teste de referência proposto por Alan Turing, matemático britânico, para determinar se é possível afirmar que um computador pensa como humano.)
Von Ahn criou uma versão mais segura dos captchas auditivos, usados por deficientes visuais, que navegam na internet com leitores de tela. Tradicionalmente, nos captchas de áudio, uma voz distorcida lê números e o usuário os digita. Mas a pesquisa liderada por von Ahn e pela estudante Jennifer Tam mostrou que esses captchas são facilmente decifrados por programas automáticos, e podem levar a riscos de segurança.
Nos novos captchas, que, segundo von Ahn, experimentos provaram ser mais seguros, os trechos de áudio não são de números, mas de frases tiradas de antigos programas de rádio postados no site Internet Archive. Elas seriam fáceis para pessoas decifrarem, mas difíceis para programas automatizados.
Von Ahn também criou um sistema gratuito, chamado reCaptcha (recaptcha.net), usado atualmente por 120 mil sites, incluindo Ticketmaster, Craigslist, Facebook, Twitter e The New York Times.
O diferencial que o sistema oferece é um benefício adicional para projetos que estão digitalizando livros e artigos: a origem das imagens distorcidas que as pessoas devem decifrar não é aleatória. Elas são tiradas de projetos massivos de digitalização de livros e outras mídias, nos quais são selecionadas aquelas imagens que as máquinas não foram capazes de ler porque, por exemplo, a página está amassada.
O reconhecimento automático de caracteres permite às pessoas que estão escaneando o trabalho saber quais palavras não podem ser lidas. Essas são as palavras que o reCaptcha seleciona e, uma vez interpretadas, devolve ao documento original. Assim, palavra por palavra, a maior parte dos termos misteriosos é decifrada, nesse caso por humanos. "Estamos digitalizando cerca de 25 milhões de palavras por dia fazendo as pessoas digitaram captchas", disse von Ahn.
Os captchas de áudio também estão sendo usados para projetos de transcrição e digitalização. "Estamos fazendo tanto fala como texto", afirmou von Ahn. "Faça sua escolha."
O New York Times está pagando o reCaptcha por sua ajuda em digitalizar seus arquivos, disse Marc Frons, diretor de tecnologia de operações digitais. Por enquanto, palavras incompreensíveis cobrindo cerca de 30 anos foram decifradas com reCaptchas, afirmou.
Muitas pessoas se preocupam que, conforme as máquinas se tornem mais inteligentes, os dias da proteção por captcha estejam contados, quer os enigmas tomem a forma de texto distorcido, fragmentos de áudio ou imagens rotacionadas. Mas Henry Baird, professor do departamento de ciência e engenharia da computação da Universidade de Lehigh, discorda. Baird e seus colegas propuseram um sistema para captchas que, como o do Google, pode ser moldado ao tema de um site.
"As habilidades das máquinas estão melhorando lentamente", disse, "mas eu acho que ainda há uma grande lacuna entre as habilidades de percepção inatas dos humanos e as capacidades das máquinas".

Fonte: www.terra.com.br