¿Tamaño de muestra mínimo para PCA o FA cuando el objetivo principal es estimar solo unos pocos componentes?

27

Si tengo un conjunto de datos con observaciones y variables (dimensiones), y generalmente es pequeño ( ), y puede variar de pequeño ( ) a quizás mucho más grande ( )nn n = 12 - 16 p p = 4 - 10 p = 30 - 50pnn=1216pp=410p=3050

Recuerdo haber aprendido que debería ser mucho más grande que para ejecutar el análisis de componentes principales (PCA) o el análisis factorial (FA), pero parece que esto no es así en mis datos. Tenga en cuenta que, para mis fines, rara vez me interesan los componentes principales anteriores a PC2.pnp

Preguntas:

  1. ¿Cuáles son las reglas generales para el tamaño mínimo de muestra cuando PCA está bien para usar, y cuando no lo está?
  2. ¿Está bien usar las primeras PC incluso si o ?n < pn=pn<p
  3. ¿Hay alguna referencia sobre esto?
  4. ¿Importa si su objetivo principal es usar PC1 y posiblemente PC2?

    • simplemente gráficamente, o
    • como variable sintética luego utilizada en regresión?
Patricio
fuente
Recuerdo haber leído sobre este tipo de pautas con respecto al análisis factorial. ¿También está interesado en eso o solo en PCA? Además, la respuesta puede depender del tipo de datos con los que está tratando, ¿tiene en mente un campo de aplicación específico?
Gala
1
Gracias Gael por los comentarios y referencias a continuación. Ahora me queda la necesidad de conocer las diferencias entre FA y PCA. :)
Patrick
3
Esta pregunta ha sido tratada ampliamente en este sitio, ver por ejemplo stats.stackexchange.com/questions/1576/… y stats.stackexchange.com/questions/612/…
Gala del

Respuestas:

21

En realidad, puede medir si el tamaño de su muestra es "lo suficientemente grande". Un síntoma de que un tamaño de muestra pequeño es demasiado pequeño es la inestabilidad.

Bootstrap o validación cruzada de su PCA: estas técnicas alteran su conjunto de datos al eliminar / intercambiar una pequeña fracción de su muestra y luego construir "modelos sustitutos" para cada uno de los conjuntos de datos alterados. Si los modelos sustitutos son lo suficientemente similares (= estable), está bien. Probablemente deba tener en cuenta que la solución de la PCA no es única: las PC pueden voltearse (multiplicar tanto un puntaje como el componente principal respectivo por ). También puede usar la rotación Procrustes para obtener modelos de PC que sean lo más similares posible.1

cbeleites apoya a Monica
fuente
Gracias cbeleites. ¿Crees que el bootstrapping será demasiado informativo con n tan bajo como, digamos, 16? Para entenderlo, solo estaría buscando una estabilidad relativa ejecutando muchas PCA, dejando un sitio fuera de cada ejecución.
Patrick
En ese caso, es ciertamente factible observar los 16 modelos que se alteran al eliminar una muestra (o incluso en los 120 modelos que dejaron 2 muestras). Creo que con una pequeña probablemente optaría por un enfoque tan sistemático similar a un CV.n
cbeleites apoya a Monica el
23

Para el análisis factorial (no el análisis de componentes principales), hay bastante literatura que cuestiona algunas de las viejas reglas generales sobre el número de observaciones. Las recomendaciones tradicionales, al menos dentro de la psicometría, serían tener al menos observaciones por variable (con x típicamente entre 5 y 20xx520 ), por lo que en cualquier caso .np

Se puede encontrar una descripción general bastante exhaustiva con muchas referencias en http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

Sin embargo, el mensaje principal de los estudios recientes de simulación probablemente sería que la calidad de los resultados varía mucho (dependiendo de las comunidades, el número de factores o la relación de factores a variables, etc.) que teniendo en cuenta La relación de variables a observaciones no es una buena manera de decidir el número requerido de observaciones. Si las condiciones son auspiciosas, es posible que pueda salirse con muchas menos observaciones de lo que sugerirían las pautas anteriores, pero incluso las pautas más conservadoras son demasiado optimistas en algunos casos. Por ejemplo, Preacher y MacCallum (2002) obtuvieron buenos resultados con tamaños de muestra extremadamente pequeños y p>n pero Mundfrom, Shaw y Ke (2005) encontraron algunos casos en los que un tamaño de muestra de n>100pfue necesario. También descubrieron que si el número de factores subyacentes se mantiene igual, más variables (y no menos, como lo implican las pautas basadas en la relación observaciones-variables) podrían conducir a mejores resultados con pequeñas muestras de observaciones.

Referencias relevantes:

  • Mundfrom, DJ, Shaw, DG y Ke, TL (2005). Recomendaciones de tamaño mínimo de muestra para realizar análisis factoriales. Revista Internacional de Pruebas, 5 (2), 159-168.
  • Predicador, KJ y MacCallum, RC (2002). Análisis factorial exploratorio en investigación genética del comportamiento: recuperación de factores con tamaños de muestra pequeños. Behavior Genetics, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D. y Wieringa, PA (2009). Análisis factorial exploratorio con tamaños de muestra pequeños. Investigación conductual multivariante, 44 (2), 147-181.
Gala
fuente
55
(+1) Aquí hay otro documento, que utiliza simulación y conjuntos de datos reales, que sugiere que la regla general N / p no funciona muy bien en la práctica, y que proporciona los tamaños de muestra necesarios para obtener una solución estable y precisa en EFA- -control de varios criterios de calidad - en función de la cantidad de factores y la cantidad de elementos (y, opcionalmente, el ancho medio del alfa 95% de Cronbach, basado en la fórmula de Feldt) en una escala psiquiátrica: requisitos de tamaño de muestra para validación interna de escalas psiquiátricas Int J Métodos Psychiatr Res. Diciembre de 2011; 20 (4): 235-49.
chl
1

pp12np

La equivalencia se puede ver de esta manera: cada paso de PCA es un problema de optimización. Estamos tratando de encontrar qué dirección expresa la mayor variación. es decir:

max(aiTΣai)

σ

bajo las restricciones:

aiTai=1

aiTaj=0
j<i

Σσ . La normalización del módulo de las variables, la matriz de covarianza y la matriz de correlación son lo mismo.

Tomar n = p es más o menos equivalente a adivinar un valor con solo dos datos ... no es confiable.

2np

lcrmorin
fuente
kk(p1)+(p2)++(pk)pkp(p1)/2 .
whuber
El punto es que está calculando (pk) coeficientes de vectores propios a partir de p (p-1) / 2 coeficientes de la matriz. Para una matriz aleatoria, no creo que haya una manera de "omitir" algunos coeficientes calculando vectores propios / valores propios.
lcrmorin
Claro que sí: los algoritmos habituales encuentran los valores propios y los vectores propios uno a la vez, desde el valor propio más grande hacia abajo. Además, este no es un problema computacional, sino uno de contar el número de valores estimados, ¿a menos que haya leído mal su respuesta?
whuber
1

Espero que esto pueda ser útil:

tanto para FA como para PCA

'' Los métodos descritos en este capítulo requieren muestras grandes para obtener soluciones estables. Lo que constituye un tamaño de muestra adecuado es algo complicado. Hasta hace poco, los analistas usaban reglas generales como "el análisis factorial requiere de 5 a 10 veces más sujetos que variables". Estudios recientes sugieren que el tamaño de muestra requerido depende de la cantidad de factores, la cantidad de variables asociadas con cada factor y cómo bueno, el conjunto de factores explica la varianza en las variables (Bandalos y Boehm-Kaufman, 2009). Me arriesgaré y diré que si tienes varios cientos de observaciones, probablemente estés a salvo ''.

Referencia:

Bandalos, DL y MR Boehm-Kaufman. 2009. "Cuatro conceptos erróneos comunes en el análisis factorial exploratorio". En Mitos estadísticos y metodológicos y leyendas urbanas, editado por CE Lance y RJ Vandenberg, 61–87. Nueva York: Routledge.

de "R in Action" de Robert I. Kabacoff, libro muy informativo con buenos consejos que cubre casi todas las pruebas estadísticas.

doctorado
fuente
2
Parece que solo está conectando un libro y rehaciendo algunos puntos hechos anteriormente basados ​​en una fuente secundaria o terciaria. Esto no parece muy útil. ¿Podría al menos proporcionar la referencia completa para Bandalos y Boehm-Kaufman, 2009?
Gala