¿Se ha agrietado / pirateado / OCR'd / derrotado / roto reCaptcha? [cerrado]

172

¿Se han utilizado métodos de programación para derrotar a reCAPTCHA?

Estoy interesado en ver evidencia y potencialmente demostraciones de que reCAPTCHA en particular se ha vuelto obsoleto por métodos completamente automatizados y sin humanos.

Para aclarar, no buscar soluciones de trampas reCAPTCHA que involucren a los humanos de ninguna manera, ya sea que los equipos se encarguen de llenar CAPCHA, buscadores de pornografía o Mechanical Turk.

También estoy no buscando alternativas a reCAPTCHA, como elegir el tipo de animal, o campos de fondo o el engaño Javascript.

Dave Rutledge
fuente
18
La cantidad de información errónea en estas respuestas es ASOMBROSA. Si ReCaptcha se ha "roto", entonces alguien mejor dígale a Facebook, Craigslist y TicketMaster, ¡estadísticas! : p
Jeff Atwood
15
Jeff, les han dicho, y la única información errónea se refiere a CAPTCHA como un mecanismo de seguridad válido. Se ha roto empíricamente, tanto en implementaciones comunes como en teoría (no solo reCAPTCHA, sino el concepto mismo de CAPTCHA). Por otro lado, no es COMPLETAMENTE sin valor, en realidad me he referido a este mismo sitio como un caso de uso válido para CAPTCHA; además de los muchos otros mecanismos, puede funcionar en conjunto para costar un poco a los "atacantes" más.
AviD
13
Estoy decepcionado de que el sujeto no tiene pwneden ella
skaffman
2
Un poco más de investigación sobre el tema: schneier.com/blog/archives/2010/10/analyzing_captc.html . En realidad, los comentarios me parecieron más interesantes que la publicación o la investigación en sí ...
AviD
9
Oo! ¡El mejor CAPTCHA! xkcd.com/810
AviD

Respuestas:

92

Noto que casi todas las respuestas aquí se relacionan con la ineficacia del concepto de CAPTCHA, en principio, y aunque estoy muy de acuerdo con ellas, de hecho di una charla en OWASP hace unos meses explicando eso : la pregunta es muy específica. , así que proporcionaré una demostración.
Pero primero, reiteraré esa demostración a un lado, releeré los otros comentarios, ya que es verdad que CAPTCHA no tiene sentido y no es útil, irrelevante para la implementación ...

Pero realmente, mira CAPTCHA Killer . Puede cargar una imagen CAPTCHA y automáticamente, si no de inmediato, proporcionará la respuesta de OCR. También proporciona una API (REST, creo, pero tal vez también SOAP). Personalmente probé numerosas imágenes de reCAPTCHA, y en realidad fueron algunas de las más fáciles (o al menos las más rápidas) rotas.

ACTUALIZACIÓN : el sitio web de CAPTCHA Killer ahora está desactivado, aparentemente bajo presión legal. Consulte http://captcha.org/ para obtener una descripción completa del tema.

Y sí, OCR no es la mejor manera de romper un sitio protegido por CAPTCHA: hay muchas otras formas mejores.

Ávido
fuente
3
Me pregunto cómo funciona el captcha killer. De alguna manera me parece que está utilizando mano de obra barata y ganando dinero con el anuncio en el sitio web. (Y merchandising.)
Georg Schölly
3
Respuesta útil sobre captchas en general, pero la pregunta era sobre reCAPTCHA específicamente.
Mike
2
Acabo de probar Captcha Killer con tres reCAPTCHA. Los tres expiraron sin devolver una respuesta.
lfaraone 03 de
21
CAPTCHA Killer parece haber sido asesinado: ¡ha sido destruido violentamente por corporaciones multinacionales que buscan difundir su dominio supremo y eliminar la libertad de expresión creativa! ¡Qué asesino tan hermoso, una muerte tan temprana!
Kiril
44
Creo que es solo un cambio de dominio y la versión se paga ahora, revise este bypasscaptcha.com/captchakiller.php
MarmiK
54

Puede que le interese este informe detallado sobre cómo 4chan derrotó a reCAPTCHA y lo utilizó para manipular los resultados anuales de la Encuesta TIME 100 de Time.com .

Hackear Recaptcha (también conocido como 'La inundación del pene')

La siguiente táctica utilizada fue ver si podían encontrar una falla en la implementación de reCAPTCHA. Una cosa que descubrieron sobre reCAPTCHA fue que siempre presenta dos palabras a un usuario para la decodificación: una palabra es una palabra de control conocida por el sistema reCAPTCHA, mientras que la otra es una palabra desconocida (reCAPTCHA usa a los humanos para ayudar a corregir los errores de OCR). Wikipedia describe el proceso: “El texto escaneado se somete a análisis por dos programas de reconocimiento óptico de caracteres diferentes; En los casos en que los programas no están de acuerdo, la palabra cuestionable se convierte en CAPTCHA. La palabra se muestra junto con una palabra de control ya conocida y está etiquetada por el humano. Esas palabras a las que los jueces humanos les dan constantemente una sola etiqueta se reciclan como palabras de control ”. 2iasdo4 De lo que se dio cuenta Anónimo fue que si siempre etiquetaban el texto escaneado desconocido con la misma palabra, y si lo hacían miles y miles de veces, con el tiempo, un gran porcentaje de las palabras desconocidas estarían mal etiquetadas con su palabra. Todo lo que tenían que hacer era mirar las dos palabras en el captcha, ingresar la etiqueta adecuada para la 'fácil' (presumiblemente esa sería la que los dos escáneres ópticos estarían de acuerdo) e ingresar la palabra "pene" para el uno duro Si lo hicieran con la frecuencia suficiente, pronto un porcentaje significativo de las imágenes se etiquetaría como 'pene' y se restablecería la capacidad de votar automáticamente (un efecto secundario, que no se perdió en Anónimo, fue la noción de que en los años venideros habría una serie de libros digitales con la palabra "pene" insertada al azar en todo el texto. Actualización: le pregunté a Ben Maurer,

Optimizando reCAPTCHA

Tan atractivo como la noción de esparcir la palabra 'pene' en los textos, el equipo de Anonymous sabía que el reloj estaba corriendo, y si iban a restaurar el Mensaje, no tenían tiempo para esperar a que los votantes volvieran a estar en línea. iban a tener que votar manualmente, muchas, muchas veces. Y, entonces, necesitaban poder ingresar al captcha lo más rápido que pudieran. Desarrollaron un conjunto de pautas que les permitieron decidir rápidamente qué palabras reCAPTCHA podrían omitir. Por ejemplo:

Se le darán 2 palabras: 1 real, 1 falso.

Para [REAL FAKE]o [FAKE REAL], simplemente puede escribir REALy debe ser aceptado.

Si es [LOOKSREAL LOOKSREAL]o [LOOKSFAKE LOOKSFAKE], generalmente es más rápido simplemente escribir ambas palabras. No pierdas un tiempo precioso decidiendo cuál de ellos es real.

Use tanto la apariencia como el tipo de palabra para identificar una palabra falsa. No confíes solo en uno de ellos.

Todo el conjunto de reglas está aquí: captcha falso .

Mathias Bynens
fuente
44
¿Pero no es el punto de esa historia que no rompieron reCAPTCHA? En su lugar, tuvieron éxito al simplificar el proceso de votación manual para permitir que determinados voluntarios voten miles de veces cada uno.
pdc
44
@pdc, solo porque no hicieron OCR a las imágenes (aunque esto también podría haberse hecho), no significa que no rompieron reCAPTCHA. Piénselo de esta manera: ¿El propósito de reCAPTCHA es presentar imágenes indescifrables? ¿O es para evitar inundaciones automáticas? Si es el primero, podría argumentar que no estaba roto (discutible, pero no estaría de acuerdo con usted), pero si es el segundo, entonces tiene una prueba empírica de que reCAPTCHA no funciona. También creo que debería quedar bastante claro que, aparte del valor del entretenimiento, el SEGUNDO propósito es el real, y solo el que cuenta.
AviD
@AviD ¿Eh? Según el artículo, las inundaciones automáticas ya no eran posibles. Por el contrario, las personas dedicadas podían votar varias veces más rápido de lo que podrían hacerlo (y se utilizaron varias técnicas no relacionadas con el captcha para frustrar medidas ineficaces contra el voto tan pesado de los humanos). Básicamente equivalente al uso de mano de obra humana barata, que reCAPTCHA, por supuesto, no pretende detenerse.
ToolmakerSteve
@ToolmakerSteve ese es exactamente el problema, reCAPTCHA no intenta detener el problema real. CAPTCHA intenta resolver el problema equivocado, mal.
AviD
32

La debilidad de los sistemas CAPTCHA es que las personas preparan habitaciones llenas de personas en China cuyo único trabajo es mirar una imagen CAPTCHA y escribir el resultado, que se conecta al sistema automatizado que realmente está enviando correo no deseado.

No hay mucho que puedas hacer al respecto realmente.

También es mucho más barato que tratar de hacer reconocimiento de imagen, OCR, etc. en la imagen real (puede obtener una respuesta por menos de $ 0.01 de la otra manera).

cletus
fuente
62
O incluso mejor, toman el captcha de tu sitio y se lo muestran a algún imbécil (literalmente) como un requisito para mostrarles algo de porno.
Paul Tomblin el
2
Hombre ... eso es inteligente (crédito donde se debe).
cletus
77
Tenga en cuenta que esto no lo convierte en una herramienta ineficaz. Simplemente significa que si su sitio es lo suficientemente popular, esto podría suceder. Para el otro 99.99% de los sitios web en el mundo, un simple captcha servirá.
Robert P
1
Demonios, el captcha de CodingHorror ni siquiera cambia, ni está ofuscado, ¡y logra hacer el trabajo bien!
Robert P
55
En realidad, eso no es del todo cierto. A pesar de que son ejemplos de esto, es FAR más barato a OCR-grieta CAPTCHA. El uso de tiendas de sudor generalmente NO es económicamente factible para los spammers.
Jens Roland
21

Antes de ceder ante la presión de usar captcha, considere soluciones creativas como tener un campo etiquetado "Sus comentarios" que está oculto por CSS. Si se ingresa el campo, el servidor descarta la solicitud. La mayoría de los bots caerán en él, incluso si todavía no hay una buena manera de derrotar a la sala llena de trabajadores mal pagados, lo que captcha no ayuda de ninguna manera.

ACTUALIZACIÓN : Acabo de leer un estudio de caso donde eliminar CAPTCHA aumentó las tasas de conversión en casi un 10%. Eso me indicaría que está bastante roto si está perdiendo el 10% de sus clientes potenciales solo para filtrar los bots. Imagine lo que significa el 10% para la mayoría de las empresas.

DavGarcia
fuente
2
Esto es muy inteligente pero no funciona si eres lo suficientemente popular. Yahoo o Google, por ejemplo, nunca podrían usar esto.
Dreeves
2
La pregunta aquí es si su sitio es lo suficientemente valioso como para atacar específicamente. La mayoría no lo son, y tener pequeñas idiosincrasias servirá de algo.
David Thornley
3
Yo haría +1 para la actualización con una pérdida del 10%, punto MUY importante. (pero no puedo hacer +1 porque la sugerencia de campo oculto, esto es menos que inútil.)
AviD
2
Hay 2 problemas de "ataque dirigido" y "spam aleatorio". Su solución puede salvar su trasero para el spam aleatorio, sin embargo, un ataque dirigido inundará su sistema en un día.
dr. mal
1
@dreeves: ¿Google no acaba de adquirir reCAPTCHA?
Prabu
18

Mi captcha favorito es de Microsoft: http://research.microsoft.com/en-us/um/redmond/projects/asirra/

Asirra (Reconocimiento de imágenes de especies animales para restringir el acceso) es un HIP que funciona pidiendo a los usuarios que identifiquen fotografías de gatos y perros. Esta tarea es difícil para las computadoras, pero nuestros estudios de usuarios han demostrado que las personas pueden realizarla de manera rápida y precisa. ¡Muchos incluso piensan que es divertido!

Es un servicio gratuito y tienen un código de ejemplo para comenzar.

Me pregunto cuánto tiempo pasará antes de que se rompa.

BoltBait
fuente
1
Lamentablemente, la respuesta de cletus anterior muestra cómo dicho servicio será ineficaz en la mayor lucha contra el spam.
Erik Forbes el
1
Fallé ese 2 de cada 4 veces, una imagen mal iluminada de un Pomerania puede parecer un gato :(
Tom Anderson
3
Tomé el examen y se siente bien saber que soy humano. :)
BoltBait
55
En realidad, el mejor captcha solía ser HotCaptcha, pero está fuera de línea la última vez que lo revisé. Basado en HotOrNot.com, no fue terriblemente efectivo, pero MUY popular entre los usuarios :-)
AviD
2
El problema aquí es que sería muy fácil forzar la fuerza bruta debido a un pequeño espacio clave. Si comienza a agregar más objetos para nombrar, entonces entra en ambigüedad al nombrar (por ejemplo, ¿es un canguro, un joey o un canguro bebé?). Debería asegurarse de tener una relación uno a muchos entre los objetos que se nombrarán y sus posibles nombres.
Oorang
11

reCAPTACHA no está roto y no lo estará por mucho tiempo. La cuestión es que si implementas tu propio captcha si está roto, probablemente tarde mucho tiempo en solucionarlo.

Esto está tomado de la página sobre seguridad reCAPTCHA :

reCAPTCHA es un servicio web. Eso significa que todas las imágenes son generadas y clasificadas por nuestros servidores. (...) esto también proporciona un nivel adicional de protección: nuestros CAPTCHA se pueden actualizar automáticamente cada vez que se encuentra una vulnerabilidad de seguridad.

Por ejemplo, si alguien escribe un programa que puede leer nuestras imágenes distorsionadas, podemos agregar más distorsiones en muy poco tiempo y sin que los maestros web tengan que cambiar nada de su lado.

Creo que, como están especializados en captchas, tienen versiones mejoradas almacenadas, listas para implementarse en poco tiempo si es necesario. (¿Por qué deberían crear una seguridad más fuerte cuando el más débil aún no está roto?)

Georg Schölly
fuente
9

No solo ha sido derrotado, sino también una aplicación útil ha creado con éxito para convertirse en la herramienta más sorprendente para derrotar todo tipo de protecciones de cuenta gratuita de una gran lista de sitios de descarga directa (no solo megaupload y rapidshare )

Jdownloader es de código abierto y está escrito en Java, por lo que un vistazo al código fuente puede responder no solo si está roto sino también cómo .

Editar : La mayoría de los sitios de descarga directa no usan reCaptcha, sino un método Captcha más simple (3 letras mayúsculas coloreadas en diferentes colores). Sin embargo, Jdownloader y Cryptload (un programa similar a Jdownloader) son las únicas implementaciones que sé que efectivamente han roto un método Captcha. No he oído hablar de ninguna implementación para crackear reCaptcha.

Actualización : Parece que al menos una implementación de reCaptcha (no toda la reCaptcha en sí) también se ha descifrado .

Actualización de diciembre de 2010 : Jdownloader parece estar finalmente derrotando a reCaptcha . El complemento todavía es experimental y funciona solo en las versiones de Windows de Jdownloader, pero, como me dijo un compañero que lo probó, funciona.

Fernando Miguélez
fuente
2
¿Sabes cuál de esos host de archivos usa RE-captcha porque rapidshare y megaupload no lo hacen?
dr. malvado
@ dr.evil estaba cubriendo una lista de hosters casi todo lo que podemos decir, ya que la lista contenía muchos que no habíamos escuchado en ningún momento, el programa era lo suficientemente inteligente como para romper la mayoría del captcha y si no estaba solicitando al usuario Lo mismo, no es útil. Lo he usado en el pasado personalmente. Fue uno de los mejores descargadores en algunos casos mejor que IDM. Tenga en cuenta: no soy promotor de jDownloader. Gracias
MarmiK
8

Hubo un discurso en Defcon el año pasado que abordó los problemas con CAPTCHA en general. Una de las cosas que hicieron fue usar múltiples motores OCR gratuitos y hacer que votaran las mejores palabras. Al hacer esto, fueron capaces de lograr una posibilidad bastante decente de tener éxito. Para un tipo, fue del 40% más o menos, sin embargo, no creo que fuera reCaptcha.

FryGuy
fuente
3
Ese es un punto importante, un bot de spam no tiene que romper todos los capthas: el 1% lo haría si puede seguir intentándolo.
Martin Beckett
8
  • "De hecho, [reCAPTCHA] se volvió bastante inútil el 4 de enero [2011] cuando los spammers aparentemente pusieron sus manos colectivas en una pieza de software que elude a reCAPTCHA y permite un proceso de registro totalmente automatizado. Los bots han estado ocupados, de hecho muy ocupados , desde entonces " [1]

Hace 2-3 años, el enfoque de captchas basado en la escritura de texto traspasó la línea cuando perdieron la batalla, es decir, otras complicaciones solo los hacen relativamente (ya que la potencia de la computadora aumenta, mientras que los humanos no) son más fáciles para las máquinas y más repugnantes y repelentes, si no completamente imposible para los humanos. Esto entra en contacto con el paradigma original de CAPTCHA como prueba para garantizar que la computadora no genere la respuesta.

Actualización:
Tenga en cuenta que reCAPTCHA es propiedad de Google Inc. pero Google Inc. no lo utiliza por sus propios servicios.
Aquí hay un enlace que contiene la página web con captcha utilizada por el propio Google / internamente, por ejemplo, para el registro de Gmail:

texto alternativo



Tenga en cuenta que reCAPTCHA de Google siempre tiene 2 palabras.
Aquí está el enlace para la imagen con reCAPTCHA de Google ofrecido para ser utilizado por otros .

Y la captura de pantalla de reCAPTCHA:

texto alternativo

Les dejo sacar las conclusiones obvias a un lector.

Citado: [1]
foros de vBulletin golpeados por reCAPTCHA cracking spam bot | PC Pro blog
Publicado el 12 de enero de 2011 por Davey Winder

Gennady Vanin Геннадий Ванин
fuente
5

Veo comentarios de blog sobre un sistema protegido por reCAPTCHA donde se carga la página y 1 segundo después la publicación se realizó con éxito. El User-Agent no tenía sentido (en este caso particular afirmaba estar ejecutando Ubuntu 9.25 / Firefox 3.8), el referente era de un sitio completamente no relacionado sin ningún enlace para nosotros.

Esto está claramente automatizado.

Benjamin Franz
fuente
3

reCAPTCHA no ha sido derrotado. Si lo hubiera sido, ¿por qué Google simplemente lo compró y anunció que aplicará la tecnología dentro de Google para aumentar la protección contra el fraude y el spam para los productos de Google?

de Google adquiere reCAPTCHA publicado en el Blog de Google el 16/09/09:

De esta manera, la tecnología única de reCAPTCHA mejora el proceso que convierte las imágenes escaneadas en texto sin formato, conocido como Reconocimiento óptico de caracteres (OCR). Esta tecnología también impulsa proyectos de escaneo de texto a gran escala como Google Books y Google News Archive Search. Tener la versión de texto de los documentos es importante porque se puede buscar texto sin formato, representar fácilmente en dispositivos móviles y mostrarlo a usuarios con discapacidad visual. Por lo tanto, aplicaremos la tecnología dentro de Google no solo para aumentar la protección contra el fraude y el correo no deseado para los productos de Google, sino también para mejorar nuestro proceso de escaneo de libros y periódicos.

Miguel
fuente
3

La forma más fácil de derrotar a Captchas es Amazon Mechanical Turk. Hay un tipo llamado Kermit Welda que paga a la gente un centavo cada uno para registrar cuentas de Hotmail, AOL y Gmail. Eso es 6,000 cuentas de correo electrónico falsas a 5 centavos = $ 300 por día. El costo de hacer negocios es bastante barato cuando tienes a otras personas que hacen el trabajo sucio por ti. No es de extrañar que los filtros de spam de nuestro servidor quieran rechazar cualquier cosa de Hotmail.

Dr. Klahn
fuente
¿Es realmente una respuesta ...?
Austin Henley
Tiene sentido, un concepto similar a Death By Captcha .
kenorb
OP ha declarado claramente que esto no es lo que está buscando.
Scott Solmer
2

AFAIK En la práctica no existe una herramienta para descifrar la implementación de RE-captcha, sin embargo, eventualmente supongo que alguien la obtendrá.

Es bastante divertido si alguien logra obtenerlo, entonces todo el proyecto RE-captcha no tiene sentido porque re-captcha diseñó libros digitalizados que no se pueden hacer de manera automatizada.

Por cierto:

La debilidad de los sistemas CAPTCHA es que las personas preparan habitaciones llenas de personas en China cuyo único trabajo es mirar una imagen CAPTCHA y escribir el resultado, que se conecta al sistema automatizado que realmente está enviando correo no deseado.

No puede asegurar un sistema que piense así, es como decir "su aplicación web no es lo suficientemente segura si su host no está en un viejo búnker militar, porque ahora la gente puede robar su máquina".

Dr. mal
fuente
3
Su sentimiento es acertado, pero su aplicación está fuera de lugar: el pensamiento (del comentario que citó) es que CAPTCHA no resuelve el problema que pretende . O como a menudo digo "CAPTCHA (en general) es una mala solución al problema equivocado". El problema que CAPTCHA intenta resolver (por definición) es: ¿Cómo sé que el usuario es una persona, no una computadora? Ya sea que CAPTCHA resuelva o no esto (no lo hace), el problema REAL es: ¿Cómo puedo evitar una inundación masiva de mi servicio? Las granjas y proxies CAPTCHA muestran la diferencia exacta. Es por eso que cualquier solución de seguridad debería comenzar con las amenazas.
AviD
1
Tienes razón, todo se reduce "¿Por qué estás usando CAPTCHA?". Para algunos sistemas es suficiente seguridad para algunos sistemas que ni siquiera está cerca. Pero al igual que keysize en crypto lo ayuda a proteger algo haciendo que el forzamiento bruto tome años (¡aunque eventualmente lo resquebrajarán! de la misma manera Entonces, como dijiste, todo se reduce para qué estás usando CAPTCHA.
dr. mal
2

Hay muchos métodos que se utilizan para basura recaptcha. Si bien es difícil usar programas de red neuronal habilitados para resolverlos automáticamente, es posible tomar la imagen y tener el turk mecánico de Amazon o algún programa equivalente para resolverlos.

http://codemagician.wordpress.com/2010/01/22/solving-recaptcha/

palo rojo
fuente