¿Por qué la gente usa la cámara en lugar del sensor láser para la navegación del robot?
11
Estoy trabajando en la localización y navegación de robots en entornos urbanos. Quiero usar la cámara. Pero estoy un poco confundido acerca de los datos LRF u otros datos láser.
¿Por qué la gente quiere usar la cámara?
¿Por qué no LRF u otros datos láser?
¿Alguien puede explicar por favor a favor de la cámara?
Un telémetro láser 3D o LIDAR como el de Google Car es mucho más costoso que una cámara. La otra razón es que, aunque en el caso de un LIDAR, la distancia de cada píxel está disponible, los datos generados para procesar son enormes. Tiene que transferir y procesar datos más rápido, lo que vuelve a aparecer como un aumento del costo. Finalmente, las cámaras suelen tener una vida útil más larga, por lo que se requiere menos mantenimiento.
Con cámaras relativamente baratas y visión por computadora, se pueden lograr resultados bastante buenos.
Ejemplos:
Detección de objetos (tenga en cuenta que la maleta que tira una persona no está resaltada en rojo).
El costo es absolutamente la respuesta. Los escáneres láser de calidad comienzan (para el usuario final) generalmente alrededor de $ 10,000. Las cámaras de calidad son aproximadamente una décima parte del costo.
Chuck
1
¿En qué tipo de LIDAR estás pensando? He usado una que devolvió aproximadamente 1000 puntos por escaneo (en un plano 2D), pero una cámara moderna típica devuelve millones de píxeles, que son muchos más datos.
user253751
2
@immibis: el Velodyne VLP-16 hace aproximadamente 300k puntos por segundo en 16 planos, y el SICK LMS511 hace aproximadamente 50k puntos por segundo en 1 plano. VLP-16 tiene un campo de visión de 360 grados y es de aproximadamente 8k, el LMS511 tiene un campo de visión de 190 grados y es de aproximadamente 10k, pero es resistente para uso industrial. Estas son medidas de distancia , no imágenes. Las cámaras pueden, por supuesto, devolver una resolución más alta, pero en general se necesita una potencia de fuego tan alta para hacer estéreo, etc., que los cuadros se reducen a una resolución en blanco y negro muy baja o la frecuencia de actualización es muy baja.
Chuck
1
Entonces, 300k puntos por segundo, frente a 50 millones de píxeles por segundo. La cámara aún tiene más datos para transferir. Por supuesto, en cualquier caso , puede descartar datos / disminución de resolución si no puede procesarlos lo suficientemente rápido.
user253751
4
Además de esos puntos en la respuesta de Bence, las cámaras pueden:
Calcule muchas características complejas que resultan en una coincidencia muy sólida entre cuadros y reconocimiento de objetos
0.5 0.5∘0,025∘
Menor uso de energía
Sensor pasivo (no requiere señal 'limpia' de un láser)
Dependiendo del láser, puede haber restricciones legales sobre dónde puede usarlo. Correr por la ciudad lanzando rayos láser puede requerir un permiso / licencia especial.
Claro, dependiendo del láser . Pero no estamos hablando de armas de naves espaciales, aquí. No necesita permiso o una licencia para usar un escáner de código de barras, por ejemplo.
David Richerby
La mayoría de los LRF comerciales (Velodyne, Hokuyo) usan láseres de Clase 1, y son completamente seguros. Google, Uber, etc. ya están probando sus prototipos al aire libre con tales LRF instalados. Realmente no creo que su departamento legal esté inundado de quejas de padres indignados ...
HighVoltage
2
Como otro ya contestado. Cámaras típicamente son mucho más baratos que L aser R ange F inders.
Cuando hablas de cámara te refieres a las cámaras 2D, ¿no? Hay algunas cámaras 3D como la familia de cámaras ifm O3D3xx disponibles. Esas cámaras pueden no tener la precisión de un escáner láser, pero proporcionan datos de profundidad 3D en velocidades de cuadro razonables a un precio de ~ 1k
Puede consultar este enlace donde previamente he respondido una pregunta similar. (ventajas y desventajas de cada uno)
en entornos urbanos
Si se refiere a automóviles autónomos como los de Google, hay muchas consideraciones y limitaciones (seguridad, costo, etc.).
Si está interesado en la investigación y el aprendizaje, le sugiero que utilice cualquier plataforma de hardware que esté disponible.
Tenga en cuenta:
Un automóvil con un LIDAR que sea extremadamente costoso no se venderá fácilmente.
Un automóvil que se mueve de manera autónoma alrededor de las personas, podría matar en caso de error. Por lo tanto, las consideraciones son diferentes a solo desarrollar algoritmos en aras de la investigación y el aprendizaje.
No creo que la gente realmente "quiera" usar solo cámaras. Si cada investigador pudiera permitirse los LiDAR, todos los colocarían en sus robots para entornos al aire libre.
Las cámaras son bastante baratas y el único límite de alcance es la resolución de píxeles / superpíxeles que puede procesar en su algoritmo / software.
La mayoría de los investigadores (incluyéndome a mí) usan cámaras de luz estructurada (aunque no funcionan al aire libre, por lo que cambiamos a cámaras RGB en estos sensores cuando el robot está al aire libre). Una solución a este problema de la luz es que también utilizamos cámaras estéreo (visión estéreo / profundidad de múltiples vistas que es computacionalmente costosa) para determinar aproximadamente la profundidad, en función de las capacidades de procesamiento del controlador / CPU. Otra solución que todavía tengo que explorar personalmente es usar múltiples Kinects / Asus Xtions, etc., donde obtienes corroboración de profundidad, así como múltiples cámaras RGB para exteriores.
Los LiDAR suelen ser muy caros (en los miles de $$ para los realmente buenos). Aunque esto podría cambiar en el futuro con algunas compañías que salgan con $ 250 "LiDAR" como Sweep .
Además, los LRF / LiDAR tienen un alcance y una resolución limitados (es decir, más allá de una cierta distancia, no pueden resolver la profundidad sin ambigüedades y, por lo tanto, devuelven valores 0 (no estoy seguro específicamente sobre los LiDAR, pero las cámaras de profundidad tienen un máximo (por encima del cual) como así como el rango mínimo (debajo del cual) no te dan profundidad).
Voy a agregar otra razón por la que francamente esperaba que alguien más mencionara. Porque, ¿por qué hacemos robots en primer lugar? ¿Máquinas sin emociones para hacer nuestro trabajo sucio?
Creo que el hecho de que un robot pueda confiar exclusivamente en la "visión" como lo hacemos nosotros los mamíferos los hace más como nosotros. Entonces, para mí, los láseres y los sonares están engañando. En mi humilde opinión, debemos centrarnos en lugar de hacer trampa es hacer mejores cámaras con mayor velocidad de cuadros, mayor rango dinámico y menos artefactos, y escribir software que pueda obtener los datos necesarios de ellos. (O, hablando en términos posteriores a 2012, capacite a nuestras redes para obtener los datos que necesitan de ellas).
Además de esos puntos en la respuesta de Bence, las cámaras pueden:
fuente
Dependiendo del láser, puede haber restricciones legales sobre dónde puede usarlo. Correr por la ciudad lanzando rayos láser puede requerir un permiso / licencia especial.
fuente
Como otro ya contestado. Cámaras típicamente son mucho más baratos que L aser R ange F inders.
Cuando hablas de cámara te refieres a las cámaras 2D, ¿no? Hay algunas cámaras 3D como la familia de cámaras ifm O3D3xx disponibles. Esas cámaras pueden no tener la precisión de un escáner láser, pero proporcionan datos de profundidad 3D en velocidades de cuadro razonables a un precio de ~ 1k
fuente
¿Hay alguna ventaja de usar un LIDAR para SLAM frente a una cámara RGB estándar?
Puede consultar este enlace donde previamente he respondido una pregunta similar. (ventajas y desventajas de cada uno)
Si se refiere a automóviles autónomos como los de Google, hay muchas consideraciones y limitaciones (seguridad, costo, etc.).
Si está interesado en la investigación y el aprendizaje, le sugiero que utilice cualquier plataforma de hardware que esté disponible.
Tenga en cuenta:
fuente
No creo que la gente realmente "quiera" usar solo cámaras. Si cada investigador pudiera permitirse los LiDAR, todos los colocarían en sus robots para entornos al aire libre.
Las cámaras son bastante baratas y el único límite de alcance es la resolución de píxeles / superpíxeles que puede procesar en su algoritmo / software.
La mayoría de los investigadores (incluyéndome a mí) usan cámaras de luz estructurada (aunque no funcionan al aire libre, por lo que cambiamos a cámaras RGB en estos sensores cuando el robot está al aire libre). Una solución a este problema de la luz es que también utilizamos cámaras estéreo (visión estéreo / profundidad de múltiples vistas que es computacionalmente costosa) para determinar aproximadamente la profundidad, en función de las capacidades de procesamiento del controlador / CPU. Otra solución que todavía tengo que explorar personalmente es usar múltiples Kinects / Asus Xtions, etc., donde obtienes corroboración de profundidad, así como múltiples cámaras RGB para exteriores.
Los LiDAR suelen ser muy caros (en los miles de $$ para los realmente buenos). Aunque esto podría cambiar en el futuro con algunas compañías que salgan con $ 250 "LiDAR" como Sweep .
Además, los LRF / LiDAR tienen un alcance y una resolución limitados (es decir, más allá de una cierta distancia, no pueden resolver la profundidad sin ambigüedades y, por lo tanto, devuelven valores 0 (no estoy seguro específicamente sobre los LiDAR, pero las cámaras de profundidad tienen un máximo (por encima del cual) como así como el rango mínimo (debajo del cual) no te dan profundidad).
Espero que esto ayude.
fuente
Voy a agregar otra razón por la que francamente esperaba que alguien más mencionara. Porque, ¿por qué hacemos robots en primer lugar? ¿Máquinas sin emociones para hacer nuestro trabajo sucio?
Creo que el hecho de que un robot pueda confiar exclusivamente en la "visión" como lo hacemos nosotros los mamíferos los hace más como nosotros. Entonces, para mí, los láseres y los sonares están engañando. En mi humilde opinión, debemos centrarnos en lugar de hacer trampa es hacer mejores cámaras con mayor velocidad de cuadros, mayor rango dinámico y menos artefactos, y escribir software que pueda obtener los datos necesarios de ellos. (O, hablando en términos posteriores a 2012, capacite a nuestras redes para obtener los datos que necesitan de ellas).
fuente