Viniendo del campo de la visión por computadora, a menudo he usado el método RANSAC (Random Sample Consensus) para ajustar modelos a datos con muchos valores atípicos.
Sin embargo, nunca lo he visto utilizado por los estadísticos, y siempre he tenido la impresión de que no se consideraba un método "estadísticamente sólido". ¿Por qué es así? Es de naturaleza aleatoria, lo que hace que sea más difícil de analizar, pero también lo son los métodos de arranque.
¿O es simplemente un caso de silos académicos que no hablan entre sí?
Respuestas:
Creo que la clave aquí es el descarte de una gran parte de los datos en RANSAC.
En la mayoría de las aplicaciones estadísticas, algunas distribuciones pueden tener colas pesadas y, por lo tanto, los números de muestra pequeños pueden sesgar la estimación estadística. Los estimadores robustos resuelven esto al sopesar los datos de manera diferente. RANSAC, por otro lado, no intenta acomodar los valores atípicos, está diseñado para casos en los que los puntos de datos realmente no pertenecen, no solo se distribuyen de manera no normal.
fuente
Para nosotros, es solo un ejemplo de una regresión robusta: creo que también lo usan los estadísticos, pero tal vez no sea tan amplio porque tiene algunas alternativas mejor conocidas.
fuente
Esto suena muy parecido al embolsado, que es una técnica de uso frecuente.
fuente
Desecha los datos con RANSAC, potencialmente sin justificarlos, pero basados en aumentar el ajuste del modelo. Desechar los datos para aumentar el ajuste generalmente se evita, ya que puede perder datos importantes. La eliminación de valores atípicos sin justificación siempre es problemática.
Por supuesto, es posible justificarlo. Por ejemplo, si conoce los datos deben seguir un patrón dado, pero también hay una desviación en los datos del patrón debido a un error en las mediciones.
fuente