Por lo que entiendo, Captchas son textos que han sido distorsionados por la aplicación de filtros, ruido y otros algoritmos misceláneos. Por lo tanto, para averiguar si la capacidad de lectura de la persona es la de una persona, se compara lo que respondió con la respuesta conocida.
Ahora, leyendo en ReCaptcha, dice que las palabras que se muestran son aquellas que no pueden ser traducidas por OCR. Además, recaptcha se está utilizando para traducir esas imágenes. ¿Cómo puede saber si realmente estás en lo correcto en tu lectura o simplemente estás inventando cosas?
Si supiera lo que dice, no se usaría en recaptcha como material de traducción. Si no sabe lo que dice el texto, ¿cómo valida su respuesta?
Supongo que este es probablemente un análisis basado en la probabilidad con grandes tamaños de muestra antes de marcar cualquier cosa como traducida.
¿Alguien sabe dónde está la respuesta a esto?
Respuestas:
Básicamente, las páginas de los libros se escanean fotográficamente y luego se transforman en texto mediante el "Reconocimiento óptico de caracteres" (OCR) y se envían a la web en forma de una imagen con una palabra conocida por el programa de computadora detrás de reCAPTCHA y una palabra que no es aún conocido
Luego, el usuario escribe ambas palabras y, si resuelven la respuesta conocida, el sistema asume que su respuesta es correcta para la nueva. Luego, el sistema proporciona la nueva imagen a otras personas para determinar, con mayor confianza, si la respuesta original fue correcta. Por lo tanto, el sistema es un servicio de superación personal que mejora con el tiempo.
http://www.google.com/recaptcha/learnmore
fuente
Es por eso que reCaptcha te hace ingresar dos palabras. Una de las palabras ya se conoce, y una de las palabras no se conoce. Si apruebas o fallas el captcha solo depende de cómo respondas a la palabra conocida. Su respuesta para la otra palabra (desconocida) se utilizará, junto con otras respuestas a la misma palabra, para convertirla también en una palabra conocida.
fuente