¿Cuál es una buena métrica para evaluar la calidad del análisis de componentes principales (PCA)?
Realicé este algoritmo en un conjunto de datos. Mi objetivo era reducir la cantidad de funciones (la información era muy redundante). Sé que el porcentaje de variación mantenido es un buen indicador de la cantidad de información que conservamos, ¿existen otras métricas de información que pueda usar para asegurarme de que eliminé la información redundante y no 'perdí' esa información?
machine-learning
pca
data-mining
information-theory
árbol grande
fuente
fuente
Respuestas:
Supongo que parte de esta pregunta es si existen otras métricas además de la varianza porcentual acumulada (CPV) y el enfoque de diagrama de pantalla similar. La respuesta a esto es, sí, muchas .
Un excelente artículo sobre algunas opciones es Valle 1999:
Selección del número de componentes principales: la varianza del criterio de error de reconstrucción con una comparación con otros métodos
Sergio Valle, Weihua Li y S. Joe Qin, Investigación de Química Industrial e Ingeniería 1999 38 (11), 4389-4401
Repasa el CPV, pero también el análisis paralelo, la validación cruzada, la varianza del error de reconstrucción (VRE), los métodos basados en criterios de información y más. Puede seguir la recomendación hecha por el documento después de comparar y usar el VRE, pero la validación cruzada basada en PRESS también funciona bien en mi experiencia y también obtienen buenos resultados con eso. En mi experiencia, el CPV es conveniente y fácil, y hace un trabajo decente, pero esos dos métodos suelen ser mejores.
Hay otras formas de evaluar qué tan bueno es su modelo de PCA si sabe más sobre los datos. Una forma es comparar las cargas de PCA estimadas con las verdaderas si las conoce (lo que haría en simulaciones). Esto se puede hacer calculando el sesgo de las cargas estimadas a las verdaderas. Cuanto mayor sea su sesgo, peor será su modelo. Para saber cómo hacerlo, puede consultar este documento donde utilizan este enfoque para comparar métodos. Sin embargo, no se puede usar en casos de datos reales, donde no se conocen las verdaderas cargas de PCA. Esto habla menos de cuántos componentes eliminó, que del sesgo de su modelo debido a la influencia de las observaciones externas, pero aún sirve como una métrica de calidad del modelo.
fuente
También hay medidas basadas en criterios de información teórica como
MDL de Rissanen (y variaciones)
fuente