Algoritmos de visión por computadora (¿cómo es esto posible?)

Recientemente me topé con una compañía que ha creado lo que parece ser una tecnología de visión por computadora que es capaz de detectar el robo en tiendas automáticamente y alertar a sus usuarios.

ENLACE

Ver algunos de los videos y ejemplos proporcionados por la compañía me ha dejado completamente desconcertado y asombrado de cómo pueden haber logrado esta funcionalidad.

Entiendo que nadie aquí podrá decirme exactamente cómo se pudo haber logrado esto, pero alguien lo sabe, y podría señalarme, investigar en este campo o, alternativamente, tal vez proporcionar detalles sobre cómo podría implementarse algo como esto. guía de donde uno podría comenzar?

Comprendí que los algoritmos de visión por computadora estaban a muchos años de ser tan sofisticados. ¿Es realmente posible este tipo de aplicación? ¿Alguien dispuesto a arriesgarse a adivinar cómo lograron esto?

algorithms computer-vision Maxim Gershkovich
fuente

Esto no parece tan difícil. Los juegos detectan colisiones todo el tiempo entre objetos; ¿por qué no pudiste detectar colisiones entre una persona y un estante de artículos y luego dar la alarma cuando esa persona caminaba hacia la puerta sin pagar?

Robert Harvey

Exactamente. Es solo reconocimiento de objetos y detección de colisiones. A menos que lo conecten al escáner, se supera fácilmente moviendo los objetos sobre el escáner, pero un poco por encima. El objeto parece haber chocado con el escáner, pero de hecho no lo hizo.

Andrew T Finnell

De todos modos, ninguno de los mecanismos de detección descritos en el sitio web (cariño, pérdida de cesta y autopago) requieren algo remotamente tan sofisticado. Verifican en un área muy confinada (el mostrador del cajero) y pueden verificar los artículos que se ven en la canasta contra lo que el escáner de códigos de barras dice que en realidad se escaneó.

Robert Harvey

Lo siento, estoy confundido. Tomemos el ejemplo sudoroso. Tengo dos artículos, uno de bajo costo, uno de alto. Puse el artículo de bajo costo debajo del de alto costo y escaneo. En ese momento, podemos comparar lo que se escaneó en el sistema POS con lo que es visible en la cámara en la mano del cajero, pero eso requiere que el sistema sea capaz de "comprender lo que se pone en la bolsa" frente a cientos de miles de posibles artículos a través de una cámara de calidad marginal. Esto parece extremadamente complicado. ¿Qué me estoy perdiendo?

Maxim Gershkovich

Creo que estás asumiendo demasiado sobre qué tan bien funciona esto. Apuesto a que hay una tasa de error decente, y es muy fácil jugar con el sistema. Veo esto como más un sistema de denuncia de irregularidades, donde solo identifica lugares potenciales en el video que necesitan revisión humana. Como tal, la imprecisión es bien tolerada.

Chris

Algoritmos de visión por computadora (¿cómo es esto posible?)

Respuestas: