Tengo un conjunto de datos con 11 variables y se realizó PCA (ortogonal) para reducir los datos. Decidir sobre el número de componentes para mantener fue evidente para mí, por mi conocimiento sobre el tema y el diagrama de pantalla (ver más abajo), que dos componentes principales (PC) fueron suficientes para explicar los datos y los componentes restantes solo fueron menos informativos.
Gráfico de pantalla con análisis paralelo: valores propios observados (verde) y valores propios simulados basados en 100 simulaciones (rojo). Scree plot sugiere 3 PC, mientras que la prueba paralela sugiere solo las dos primeras PC.
Como puede ver, solo el 48% de la variación podría ser capturada por las dos primeras PC.
Las observaciones de trazado en el primer plano realizadas por las primeras 2 PC revelaron tres grupos diferentes usando el agrupamiento jerárquico aglomerativo (HAC) y el agrupamiento K-means. Estos 3 grupos resultaron ser muy relevantes para el problema en cuestión y también fueron consistentes con otros hallazgos. Entonces, excepto el hecho de que solo se capturó el 48% de la varianza, todo lo demás estuvo tremendamente bien.
Uno de mis dos revisores dijo: no se puede confiar mucho en estos hallazgos ya que solo se podría explicar el 48% de la varianza y es menos de lo requerido.
Pregunta
¿Hay algún valor requerido de cuánta varianza debe capturar PCA para que sea válido? ¿No depende del conocimiento del dominio y la metodología en uso? ¿Alguien puede juzgar el mérito de todo el análisis solo en función del mero valor de la varianza explicada?
Notas
- Los datos son 11 variables de genes medidos por una metodología muy sensible en biología molecular llamada Reacción en cadena de la polimerasa cuantitativa en tiempo real (RT-qPCR).
- Los análisis se realizaron con R.
- Las respuestas de analistas de datos basadas en su experiencia personal trabajando en problemas de la vida real en los campos de análisis de microarrays, quimiometría, análisis espectométricos o similares son muy apreciadas.
- Considere apoyar su respuesta con referencias tanto como sea posible.
Respuestas:
Con respecto a sus preguntas particulares:
No, no la hay (que yo sepa). Creo firmemente que no hay un valor único que pueda usar; sin umbral mágico del porcentaje de varianza capturado. El artículo de Cangelosi y Goriely: la retención de componentes en el análisis de componentes principales con la aplicación de datos de microarrays de ADNc ofrece una visión general bastante buena de media docena de reglas generales estándar para detectar la cantidad de componentes en un estudio. (Gráfico de pantalla, Proporción de la varianza total explicada, Regla de valor propio promedio, Diagrama de valor propio log, etc.) Como reglas generales , no confiaría en ninguno de ellos.
Idealmente debería ser dependiente, pero debe tener cuidado de cómo lo dice y qué quiere decir.
Por ejemplo: En Acústica existe la noción de Diferencia Justificable ( JND ). Suponga que está analizando una muestra acústica y que una PC en particular tiene una variación de escala física muy por debajo de ese umbral JND. Nadie puede argumentar fácilmente que para una aplicación Acoustics debería haber incluido esa PC. Estarías analizando el ruido inaudible. Puede haber algunas razones para incluir esta PC, pero estas razones deben presentarse no al revés. ¿Son nociones similares a JND para el análisis RT-qPCR?
Del mismo modo, si un componente se parece al polinomio Legendre de noveno orden y tiene una fuerte evidencia de que su muestra consiste en protuberancias gaussianas individuales, tiene buenas razones para creer que está modelando nuevamente una variación irrelevante. ¿Qué muestran estos modos de variación ortogonales? ¿Qué está "mal" con la tercera PC en su caso, por ejemplo?
El hecho de que usted diga " Estos 3 grupos resultaron ser muy relevantes para el problema en cuestión " no es realmente un argumento sólido. Puede dragar datos simples (lo cual es algo malo ). Hay otras técnicas, por ejemplo. Isomaps e incrustación localmente lineal , que también son geniales, ¿por qué no usarlos? ¿Por qué elegiste PCA específicamente?
La consistencia de sus hallazgos con otros hallazgos es más importante, especialmente si estos hallazgos se consideran bien establecidos. Profundiza en esto. Intente ver si sus resultados concuerdan con los hallazgos de PCA de otros estudios.
En general no se debe hacer eso. Sin embargo, no pienses que tu crítico es un bastardo o algo así; De hecho, el 48% es un pequeño porcentaje para retener sin presentar justificaciones razonables.
fuente