Técnicas de reducción de dimensiones para muestras muy pequeñas.

8

Tengo 21 variables socioeconómicas y de nivel macro de actitud (como el porcentaje de madres de 24 a 54 años sin empleo, el porcentaje de niños de 3 a 5 años en guarderías, etc.). También tengo datos sobre las proporciones de abuelos que proporcionaron cuidado intensivo de niños. La mayoría de las variables socioeconómicas que seleccioné están altamente correlacionadas con la provisión de cuidado infantil (por ejemplo, existe una correlación negativa entre la proporción de madres empleadas a tiempo parcial y la provisión de cuidado infantil para abuelos).

Idealmente, me gustaría crear una tipología de diferentes tipos de países. Espero utilizar algún tipo de técnica de reducción de dimensiones cuyos componentes o factores tengan un sentido intuitivo (por ejemplo, actitudes hacia la familia y el género, la estructura del mercado laboral, las políticas familiares). O, alternativamente, evalúe cuál de los 21 indicadores a nivel macro explica mejor la variabilidad en la provisión de cuidado infantil entre países.

Mi principal problema es que solo tengo 12 países europeos. Creo que la PCA y los análisis factoriales no son técnicas apropiadas con tan pocos casos. ¿Estoy en lo correcto? Me dijeron que intentara usar análisis comparativo cualitativo o análisis de correspondencia múltiple, aunque a mi entender las últimas técnicas son más apropiadas para indicadores binarios (o categóricos) de nivel macro (mientras que los míos son porcentajes o variables continuas).

Giorgio
fuente
2
Como desea una tipología, esto suena como un problema de análisis de conglomerados en lugar de una reducción de dimensiones. Con sus datos limitados, podría usar eso y algunas tramas básicas para contar la historia, pero aquí está casi interesado en métodos de investigación cualitativos en lugar de cuantificar.
Peter Ellis
Gracias. También pensé en el análisis de conglomerados, aunque persiste el problema de tener tantas variables y tan pocos casos. Supongo que me atendré a tramas básicas y convenceré a mi jefe de que no hay nada más emocionante que hacer (como siempre sospeché en secreto).
Giorgio
1
Creo que @PeterEllis tiene razón sobre qué tipo de cosas quieres hacer. Sin embargo, puede hacer PCA y FA en pequeños conjuntos de datos. Ambos métodos dependen de correlaciones y una correlación es válida, incluso con 12 observaciones. Sin embargo, las correlaciones pueden no estimarse muy bien.
Peter Flom

Respuestas:

5

Como el comentario / respuesta de Peter Ellis sugiere que está hablando de reducción de dimensionalidad y no de reducción de datos. Ha cambiado el número de puntos de datos solo el tamaño del espacio de covariables. Ahora Peter Flom tiene razón en que los métodos PCA y FA pueden probarse con tamaños de muestra pequeños, pero no solo las correlaciones son probablemente poco estimadas, sino también que podría ser engañado para caer en dimensiones demasiado bajas porque las características pueden aparecer más altamente correlacionados de lo que habrían resultado con una muestra más grande. Yo no lo recomendaría.

Michael R. Chernick
fuente
1
Gracias. Lo siento, quise decir reducción de dimensión! Además, estoy de acuerdo en que es mejor evitar PCA y FA con solo 12 casos.
Giorgio
1
+1 para señalar que, con tamaños de muestra muy pequeños, las correlaciones de muestra suelen ser bastante altas. Como ejemplo extremo, si , tiene una muy buena posibilidad de obtener una correlación casi perfecta. Escribir repetidamente revelará eso. Además, noté que revisaste una edición hoy, ¡gracias por participar! n=3cor( rnorm(3), rnorm(3) )R
Macro
@Macro y con n = 2 se garantiza una correlación de +1 o -1.
Michael R. Chernick
5

Yo iría por el análisis de co-inercia, que es una variante tácita del análisis canónico . Esto le daría una combinación lineal de las 21 variables que tiene la mayor inercia con una combinación lineal de datos de cuidado infantil (o con cuidado infantil si es una variable cuantitativa única). El truco de trabajar con co-inercia en lugar de correlación es que aún puede realizar los cálculos cuando hay más variables que observaciones.

Desafortunadamente, la CIA no está muy extendida. Fue desarrollado para la ecología, donde generalmente hay más variables que los sitios de observación. Puede encontrar información técnica en Dray, Chessel y Thioulouse, Ecology 84 (11), 3078-89, 2003 .

Dicho esto, los otros comentarios / respuestas son correctos: 12 es un número relativamente pequeño y tendrá que vivir con eso ...

gui11aume
fuente