El PCA robusto (desarrollado por Candes et al. 2009 o mejor aún, Netrepalli et al. 2014 ) es un método popular para la detección de valores atípicos multivariados , pero la distancia de Mahalanobis también se puede utilizar para la detección de valores atípicos dada una estimación robusta y regularizada de la matriz de covarianza . Tengo curiosidad sobre las (des) ventajas de usar un método sobre el otro.
Mi intuición me dice que la mayor distinción entre los dos es la siguiente: cuando el conjunto de datos es "pequeño" (en un sentido estadístico), el PCA robusto dará una covarianza de rango inferior, mientras que la estimación de matriz de covarianza robusta en su lugar dará un valor completo. covarianza de rango debido a la regularización de Ledoit-Wolf. ¿Cómo afecta esto a su vez a la detección de valores atípicos?
fuente
Respuestas:
Este documento compara algunos métodos en esta área. Se refieren al enfoque de PCA robusto al que se vinculó como "PCP" (búsqueda de componentes principales) y la familia de métodos a los que se vinculó para una estimación de covarianza robusta como estimadores M.
Argumentan que
y demuestre que PCP (también conocido como PCA robusto) puede fallar en la detección de valores atípicos en algunos casos.
También hablan sobre tres tipos de "enemigos de la recuperación del subespacio", es decir, diferentes tipos de valores atípicos y qué tipos de métodos podrían funcionar bien para tratar con cada uno. Comparar sus propios valores atípicos con los tres tipos de "enemigos" discutidos aquí podría ayudarlo a elegir un enfoque.
fuente