Tengo 21 variables socioeconómicas y de nivel macro de actitud (como el porcentaje de madres de 24 a 54 años sin empleo, el porcentaje de niños de 3 a 5 años en guarderías, etc.). También tengo datos sobre las proporciones de abuelos que proporcionaron cuidado intensivo de niños. La mayoría de las variables socioeconómicas que seleccioné están altamente correlacionadas con la provisión de cuidado infantil (por ejemplo, existe una correlación negativa entre la proporción de madres empleadas a tiempo parcial y la provisión de cuidado infantil para abuelos).
Idealmente, me gustaría crear una tipología de diferentes tipos de países. Espero utilizar algún tipo de técnica de reducción de dimensiones cuyos componentes o factores tengan un sentido intuitivo (por ejemplo, actitudes hacia la familia y el género, la estructura del mercado laboral, las políticas familiares). O, alternativamente, evalúe cuál de los 21 indicadores a nivel macro explica mejor la variabilidad en la provisión de cuidado infantil entre países.
Mi principal problema es que solo tengo 12 países europeos. Creo que la PCA y los análisis factoriales no son técnicas apropiadas con tan pocos casos. ¿Estoy en lo correcto? Me dijeron que intentara usar análisis comparativo cualitativo o análisis de correspondencia múltiple, aunque a mi entender las últimas técnicas son más apropiadas para indicadores binarios (o categóricos) de nivel macro (mientras que los míos son porcentajes o variables continuas).
Respuestas:
Como el comentario / respuesta de Peter Ellis sugiere que está hablando de reducción de dimensionalidad y no de reducción de datos. Ha cambiado el número de puntos de datos solo el tamaño del espacio de covariables. Ahora Peter Flom tiene razón en que los métodos PCA y FA pueden probarse con tamaños de muestra pequeños, pero no solo las correlaciones son probablemente poco estimadas, sino también que podría ser engañado para caer en dimensiones demasiado bajas porque las características pueden aparecer más altamente correlacionados de lo que habrían resultado con una muestra más grande. Yo no lo recomendaría.
fuente
cor( rnorm(3), rnorm(3) )
R
Yo iría por el análisis de co-inercia, que es una variante tácita del análisis canónico . Esto le daría una combinación lineal de las 21 variables que tiene la mayor inercia con una combinación lineal de datos de cuidado infantil (o con cuidado infantil si es una variable cuantitativa única). El truco de trabajar con co-inercia en lugar de correlación es que aún puede realizar los cálculos cuando hay más variables que observaciones.
Desafortunadamente, la CIA no está muy extendida. Fue desarrollado para la ecología, donde generalmente hay más variables que los sitios de observación. Puede encontrar información técnica en Dray, Chessel y Thioulouse, Ecology 84 (11), 3078-89, 2003 .
Dicho esto, los otros comentarios / respuestas son correctos: 12 es un número relativamente pequeño y tendrá que vivir con eso ...
fuente
El análisis factorial exploratorio regularizado se diseñó teniendo en cuenta este problema. Los autores tienen disponible el código Matlab.
fuente