¿Por qué RANSAC no se usa más ampliamente en estadísticas?

26

Viniendo del campo de la visión por computadora, a menudo he usado el método RANSAC (Random Sample Consensus) para ajustar modelos a datos con muchos valores atípicos.

Sin embargo, nunca lo he visto utilizado por los estadísticos, y siempre he tenido la impresión de que no se consideraba un método "estadísticamente sólido". ¿Por qué es así? Es de naturaleza aleatoria, lo que hace que sea más difícil de analizar, pero también lo son los métodos de arranque.

¿O es simplemente un caso de silos académicos que no hablan entre sí?

Bossykena
fuente
1
Me pregunto una cosa sobre los métodos de visión por computadora frente a los métodos de estadísticas: el rendimiento en el primero es imprescindible. Quizás haya una compensación entre rendimiento y "corrección", y la visión por computadora y las estadísticas tienen diferentes pesos para esas variables.
Lucas Reis

Respuestas:

10

Creo que la clave aquí es el descarte de una gran parte de los datos en RANSAC.

En la mayoría de las aplicaciones estadísticas, algunas distribuciones pueden tener colas pesadas y, por lo tanto, los números de muestra pequeños pueden sesgar la estimación estadística. Los estimadores robustos resuelven esto al sopesar los datos de manera diferente. RANSAC, por otro lado, no intenta acomodar los valores atípicos, está diseñado para casos en los que los puntos de datos realmente no pertenecen, no solo se distribuyen de manera no normal.

nbubis
fuente
1
Gran respuesta. He visto RANSAC más utilizado en CV para estimar homografías. Esto se usa más ampliamente cuando sabemos que algunas de las mediciones correspondientes son muy poco confiables. Además, el rendimiento en tiempo real y otras consideraciones han hecho que esta técnica sea bastante popular, ya que se puede paralelizar fácilmente.
Luca
7

Para nosotros, es solo un ejemplo de una regresión robusta: creo que también lo usan los estadísticos, pero tal vez no sea tan amplio porque tiene algunas alternativas mejor conocidas.


fuente
1
¿Puedes dar ejemplos de alternativas? Me gustaría investigar eso.
Bossykena
55
La más conocida y la más simple es la regresión mediana-mediana, bien conocida por las calculadoras inteligentes (¡Suspiro!). Consulte también Wikipedia en.wikipedia.org/wiki/Robust_regression y quizás la vista de tareas Robusta de CRAN cran.r-project.org/web/views/Robust.html
¿Existen alternativas a RANSAC que no solo le brinden la regresión imparcial sino también los puntos de datos a partir de los cuales se ha estimado el modelo? Gracias
Valerio
2

Esto suena muy parecido al embolsado, que es una técnica de uso frecuente.

Zach
fuente
3
RANSAC es muy diferente: en el empaquetado, todas las muestras se tienen en cuenta de alguna manera. RANSAC se utiliza en casos en los que hasta el 50% de los datos deben descartarse por completo.
nbubis
1

Desecha los datos con RANSAC, potencialmente sin justificarlos, pero basados ​​en aumentar el ajuste del modelo. Desechar los datos para aumentar el ajuste generalmente se evita, ya que puede perder datos importantes. La eliminación de valores atípicos sin justificación siempre es problemática.

Por supuesto, es posible justificarlo. Por ejemplo, si conoce los datos deben seguir un patrón dado, pero también hay una desviación en los datos del patrón debido a un error en las mediciones.

Retroalimentación negativa
fuente