¿Qué es la profundidad inversa (en odometría) y por qué debería usarla?

14

Al leer algunos artículos sobre odometría visual, muchos usan la profundidad inversa. ¿Es solo el inverso matemático de la profundidad (que significa 1 / d) o representa algo más? ¿Y cuáles son las ventajas de usarlo?

Mehdi
fuente

Respuestas:

12

Las características como el sol y las nubes y otras cosas que están muy lejos tendrían una estimación de distancia de inf. Esto puede causar muchos problemas. Para evitarlo, se estima la inversa de la distancia. Todas las infs se convierten en ceros que tienden a causar menos problemas.

Holmeski
fuente
1
no entiendo del todo, si estoy usando un dispositivo kinect, los valores de salida para el área no válida se configuran internamente en 0 , ya sea por estar demasiado cerca o demasiado lejos o por reflexión o disparidad. ¿Eso tiene algo? que ver con profundidad inversa?
zhangxaochen
@zhangxaochen La parametrización de profundidad inversa se usa ampliamente en SLAM Monocular y ayuda a estimar la profundidad del punto 3D. Kinect proporciona información en 3D o profundidad del punto. No creo que haya una gran necesidad de usar profundidad inversa en Kinect.
nbsrujan
8

La parametrización de profundidad inversa representa la distancia de un punto de referencia, d, desde la cámara exactamente como dice, como proporcional a 1 / d dentro del algoritmo de estimación. Lo racional detrás del enfoque es que, los enfoques de filtrado como el filtro Kalman extendido (EKF) suponen que el error asociado con las características es gaussiano.

En una configuración de odometría visual, la profundidad de un punto de referencia se estima mediante el seguimiento de las características asociadas a través de una serie de cuadros y luego utilizando el paralaje inducido. Sin embargo, para las características distantes (en relación con el desplazamiento de la cámara), el paralaje resultante será pequeño y, lo que es más importante, la distribución de errores asociada con la profundidad es muy alta cerca de la profundidad mínima con una cola larga (es decir, no está bien modelada a través de un Distribución gaussiana). Para ver un ejemplo, consulte la Fig. 7 en el artículo de Civera et al. (Mencionado por @freakpatrol), o la Fig. 4 de Fallon et al. ICRA 2012 .

Al representar la profundidad inversa (es decir, 1 / d), este error se vuelve gaussiano. Además, permite representar puntos muy distantes, por ejemplo, puntos en el infinito.

El aspecto importante de la representación utilizada es el artículo de Civera que se explica en la Sección II B de su documento (ver Ecuación (3)). Aquí, se representa un punto de referencia en relación con la pose (posición y orientación) de la primera cámara desde la que se ve. Esta pose se captura en los primeros cinco parámetros de la ecuación (3), mientras que el sexto parámetro, , representa la profundidad inversa. La ecuación (4) proporciona una expresión para recuperar la posición mundial del punto (es decir, donde la profundidad inversa se convierte en profundidad como )ρyo1/ /ρyo

johnmcd
fuente
El enlace de ICRA 2012 está roto.
T ....
3

El documento de Davison que presenta el método es bastante fácil de entender:

Parametrización de profundidad inversa para SLAM monocular por Javier Civera, Andrew J. Davison y JM Martınez Montiel DOI: 10.1109 / TRO.2008.2003276

freakpatrol
fuente
3
Asegúrese de agregar algún tipo de resumen breve a su respuesta. ¡Esto realmente no responde la pregunta del usuario, solo se vincula a un documento, y ese documento puede no estar disponible en ese enlace más adelante!
Brian Lynch el
Además, es una buena idea mencionar el título del documento, e idealmente un DOI, ya que eso significa que será más fácil de encontrar en el futuro, si esa URL específica muere.
Mark Booth
0

Además de las razones mencionadas en otras respuestas sobre el condicionamiento numérico de la profundidad inversa, una razón importante para que este término aparezca en literatura de odometría visual específica es la forma en que las profundidades se calculan a partir de la visión estereofónica: después de la rectificación, se infiere información 3D a partir de la distancia en X entre donde aparece un punto en las imágenes de las dos cámaras.

ZreZ=FsireFsi

surtur
fuente