¿Cómo sabe recaptcha que no está ingresando traducciones falsas de las imágenes [cerrado]

22

Por lo que entiendo, Captchas son textos que han sido distorsionados por la aplicación de filtros, ruido y otros algoritmos misceláneos. Por lo tanto, para averiguar si la capacidad de lectura de la persona es la de una persona, se compara lo que respondió con la respuesta conocida.

Ahora, leyendo en ReCaptcha, dice que las palabras que se muestran son aquellas que no pueden ser traducidas por OCR. Además, recaptcha se está utilizando para traducir esas imágenes. ¿Cómo puede saber si realmente estás en lo correcto en tu lectura o simplemente estás inventando cosas?

Si supiera lo que dice, no se usaría en recaptcha como material de traducción. Si no sabe lo que dice el texto, ¿cómo valida su respuesta?

Supongo que este es probablemente un análisis basado en la probabilidad con grandes tamaños de muestra antes de marcar cualquier cosa como traducida.

¿Alguien sabe dónde está la respuesta a esto?

Zigu
fuente
3
De interés es la broma 4chan / anónimo en la encuesta de Time. "Pastel de mármol, también el juego", que explotó defectos en la verificación de crowdsourcing de la segunda palabra.
DanBeale 01 de
2
El truco @Dan mentioend: musicmachinery.com/2009/04/27/moot-wins-time-inc-loses
BlueRaja - Danny Pflughoeft

Respuestas:

33

Básicamente, las páginas de los libros se escanean fotográficamente y luego se transforman en texto mediante el "Reconocimiento óptico de caracteres" (OCR) y se envían a la web en forma de una imagen con una palabra conocida por el programa de computadora detrás de reCAPTCHA y una palabra que no es aún conocido

Luego, el usuario escribe ambas palabras y, si resuelven la respuesta conocida, el sistema asume que su respuesta es correcta para la nueva. Luego, el sistema proporciona la nueva imagen a otras personas para determinar, con mayor confianza, si la respuesta original fue correcta. Por lo tanto, el sistema es un servicio de superación personal que mejora con el tiempo.

http://www.google.com/recaptcha/learnmore

Paul
fuente
22

Es por eso que reCaptcha te hace ingresar dos palabras. Una de las palabras ya se conoce, y una de las palabras no se conoce. Si apruebas o fallas el captcha solo depende de cómo respondas a la palabra conocida. Su respuesta para la otra palabra (desconocida) se utilizará, junto con otras respuestas a la misma palabra, para convertirla también en una palabra conocida.

Joel Coehoorn
fuente
44
... por lo que con el tiempo se vuelve cada vez más frustrante de usar y te convence de que eres un idiota / robot cuando fallas por quinta vez consecutiva. :-(
Sirex
Extraño ... Nunca he fallado uno que puedo recordar, tal vez solo suerte de mi parte.
Paul
@Sirex Solía ​​pensar eso, pero luego me di cuenta de que esto solo es cierto si el tamaño del texto del corpus es constante o se reduce en relación con las entradas de captcha de números. La verdad es que el texto del corpus está creciendo ... la pregunta es si ese crecimiento sigue el ritmo del crecimiento en el uso general de captcha.
Joel Coehoorn
Yeah Yo supongo. He visto muchas reCaptchas que son increíblemente difíciles. Donde incluso la palabra conocida es ambigua.
Sirex