Si tengo un conjunto de datos con observaciones y variables (dimensiones), y generalmente es pequeño ( ), y puede variar de pequeño ( ) a quizás mucho más grande ( )n n = 12 - 16 p p = 4 - 10 p = 30 - 50
Recuerdo haber aprendido que debería ser mucho más grande que para ejecutar el análisis de componentes principales (PCA) o el análisis factorial (FA), pero parece que esto no es así en mis datos. Tenga en cuenta que, para mis fines, rara vez me interesan los componentes principales anteriores a PC2.p
Preguntas:
- ¿Cuáles son las reglas generales para el tamaño mínimo de muestra cuando PCA está bien para usar, y cuando no lo está?
- ¿Está bien usar las primeras PC incluso si o ?n < p
- ¿Hay alguna referencia sobre esto?
¿Importa si su objetivo principal es usar PC1 y posiblemente PC2?
- simplemente gráficamente, o
- como variable sintética luego utilizada en regresión?
pca
sample-size
factor-analysis
Patricio
fuente
fuente
Respuestas:
En realidad, puede medir si el tamaño de su muestra es "lo suficientemente grande". Un síntoma de que un tamaño de muestra pequeño es demasiado pequeño es la inestabilidad.
Bootstrap o validación cruzada de su PCA: estas técnicas alteran su conjunto de datos al eliminar / intercambiar una pequeña fracción de su muestra y luego construir "modelos sustitutos" para cada uno de los conjuntos de datos alterados. Si los modelos sustitutos son lo suficientemente similares (= estable), está bien. Probablemente deba tener en cuenta que la solución de la PCA no es única: las PC pueden voltearse (multiplicar tanto un puntaje como el componente principal respectivo por ). También puede usar la rotación Procrustes para obtener modelos de PC que sean lo más similares posible.−1
fuente
Para el análisis factorial (no el análisis de componentes principales), hay bastante literatura que cuestiona algunas de las viejas reglas generales sobre el número de observaciones. Las recomendaciones tradicionales, al menos dentro de la psicometría, serían tener al menos observaciones por variable (con x típicamente entre 5 y 20X X 5 5 20 ), por lo que en cualquier caso .n ≫ p
Se puede encontrar una descripción general bastante exhaustiva con muchas referencias en http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis
Sin embargo, el mensaje principal de los estudios recientes de simulación probablemente sería que la calidad de los resultados varía mucho (dependiendo de las comunidades, el número de factores o la relación de factores a variables, etc.) que teniendo en cuenta La relación de variables a observaciones no es una buena manera de decidir el número requerido de observaciones. Si las condiciones son auspiciosas, es posible que pueda salirse con muchas menos observaciones de lo que sugerirían las pautas anteriores, pero incluso las pautas más conservadoras son demasiado optimistas en algunos casos. Por ejemplo, Preacher y MacCallum (2002) obtuvieron buenos resultados con tamaños de muestra extremadamente pequeños yp > n pero Mundfrom, Shaw y Ke (2005) encontraron algunos casos en los que un tamaño de muestra de n > 100 p fue necesario. También descubrieron que si el número de factores subyacentes se mantiene igual, más variables (y no menos, como lo implican las pautas basadas en la relación observaciones-variables) podrían conducir a mejores resultados con pequeñas muestras de observaciones.
Referencias relevantes:
fuente
La equivalencia se puede ver de esta manera: cada paso de PCA es un problema de optimización. Estamos tratando de encontrar qué dirección expresa la mayor variación. es decir:
bajo las restricciones:
Tomar n = p es más o menos equivalente a adivinar un valor con solo dos datos ... no es confiable.
fuente
Espero que esto pueda ser útil:
Referencia:
de "R in Action" de Robert I. Kabacoff, libro muy informativo con buenos consejos que cubre casi todas las pruebas estadísticas.
fuente