¿Cuáles son buenas métricas para evaluar la calidad de un ajuste de PCA para seleccionar el número de componentes?

10

¿Cuál es una buena métrica para evaluar la calidad del análisis de componentes principales (PCA)?

Realicé este algoritmo en un conjunto de datos. Mi objetivo era reducir la cantidad de funciones (la información era muy redundante). Sé que el porcentaje de variación mantenido es un buen indicador de la cantidad de información que conservamos, ¿existen otras métricas de información que pueda usar para asegurarme de que eliminé la información redundante y no 'perdí' esa información?

árbol grande
fuente
3
Estrictamente hablando, no hay información "redundante", a menos que sus datos iniciales sean perfectamente colineales. Por lo general, se ve el porcentaje de varianza retenido ("utilizamos los primeros cinco componentes principales, que representaron el 90% de la varianza"). Estoy interesado en ver alternativas.
Stephan Kolassa
Dado que una de sus etiquetas es la teoría de la información: una forma indirecta de evaluar si PCA funciona es verificar los supuestos bajo los cuales la teoría de la información nos dice que tiene una baja pérdida de información para una reducción de dimensión determinada. Wiki dice que esto es así cuando sus datos son una suma de señal gaussiana más ruido gaussiano. en.wikipedia.org/wiki/…
CloseToC

Respuestas:

17

Supongo que parte de esta pregunta es si existen otras métricas además de la varianza porcentual acumulada (CPV) y el enfoque de diagrama de pantalla similar. La respuesta a esto es, sí, muchas .

Un excelente artículo sobre algunas opciones es Valle 1999:

Repasa el CPV, pero también el análisis paralelo, la validación cruzada, la varianza del error de reconstrucción (VRE), los métodos basados ​​en criterios de información y más. Puede seguir la recomendación hecha por el documento después de comparar y usar el VRE, pero la validación cruzada basada en PRESS también funciona bien en mi experiencia y también obtienen buenos resultados con eso. En mi experiencia, el CPV es conveniente y fácil, y hace un trabajo decente, pero esos dos métodos suelen ser mejores.

Hay otras formas de evaluar qué tan bueno es su modelo de PCA si sabe más sobre los datos. Una forma es comparar las cargas de PCA estimadas con las verdaderas si las conoce (lo que haría en simulaciones). Esto se puede hacer calculando el sesgo de las cargas estimadas a las verdaderas. Cuanto mayor sea su sesgo, peor será su modelo. Para saber cómo hacerlo, puede consultar este documento donde utilizan este enfoque para comparar métodos. Sin embargo, no se puede usar en casos de datos reales, donde no se conocen las verdaderas cargas de PCA. Esto habla menos de cuántos componentes eliminó, que del sesgo de su modelo debido a la influencia de las observaciones externas, pero aún sirve como una métrica de calidad del modelo.

Muerte mortal14
fuente
44
Enlace al documento de Valle, Li y Qin
Zhubarb
3

También hay medidas basadas en criterios de información teórica como

MDL de Rissanen (y variaciones)

Nikos M.
fuente
@usuario: 45382 Sí, ese es otro. También se menciona en el documento con los enlaces de Zhubarb.
Deathkill14
@ Deathkill14 correcto, leí el documento, se mencionan las medidas de información teórica (de hecho, como buenas alternativas)
Nikos M.
Un excelente artículo teórico sobre MDL, MML y bayesianismo: Vitany & Li, MDL ideal y su relación con el bayesianismo citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Además, otros métodos de selección de modelos como AIC y BIC son implementaciones efectivas de MDL.
ggll