Enseño un curso introductorio de geografía económica. Para ayudar a mis estudiantes a desarrollar una mejor comprensión de los tipos de países que se encuentran en la economía mundial contemporánea y una apreciación de las técnicas de reducción de datos, quiero construir una tarea que cree una tipología de diferentes tipos de países (p. Ej. valor agregado mfg esperanza de vida larga; exportador de recursos naturales de altos ingresos esperanza de vida media-alta; Alemania es un elemento del primer tipo y Yemen un ejemplo del segundo tipo). Esto usaría datos del PNUD disponibles al público (que si recuerdo correctamente contiene datos socioeconómicos en un poco menos de 200 países; lo siento, no hay datos regionales disponibles).
Antes de esta asignación sería otra que les pide (usando los mismos datos --- en gran medida intervalo o nivel de razón ---) examinar las correlaciones entre estas mismas variables.
Espero que primero desarrollen una intuición para los tipos de relaciones entre diferentes variables (por ejemplo, una relación positiva entre la esperanza de vida y [varios indicadores de] riqueza; una relación positiva entre riqueza y diversidad de exportaciones). Luego, cuando se usa la técnica de reducción de datos, los componentes o factores tendrían un sentido intuitivo (por ejemplo, el factor / componente 1 captura la importancia de la riqueza; el factor / componente 2 captura la importancia de la educación).
Dado que estos son estudiantes de segundo a cuarto año, a menudo con una exposición limitada al pensamiento analítico en general, ¿qué técnica de reducción de datos única sugeriría como la más adecuada para la segunda tarea? Estos son datos de población, por lo que las estadísticas inferenciales (p-vlaues, etc.) no son realmente necesarias.
fuente
Una nota rápida agregada: cualquiera de las técnicas anteriores que use, primero querrá verificar las distribuciones de sus variables, ya que muchas de ellas "requerirán" que primero las transforme utilizando un logaritmo. Hacerlo revelará algunas de las relaciones mucho mejor que usar las variables originales.
fuente
Puede usar la descomposición de CUR como alternativa a PCA. Para la descomposición de CUR, puede consultar [1] o [2]. En la descomposición de CUR, C representa las columnas seleccionadas, R representa las filas seleccionadas y U es la matriz de enlace. Permítanme parafrasear la intuición detrás de la descompsosis CUR como se da en [1];
Lo bueno de CUR es que las columnas base son columnas (o filas) reales y mejor interpretarlas que PCA (que usa SVD transferido).
El algoritmo proporcionado en [1] es fácil de implementar y puede jugar con él cambiando el umbral de error y obteniendo un número diferente de bases.
[1] MW Mahoney y P. Drineas, "descomposiciones de matriz CUR para un mejor análisis de datos", Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, vol. 106, enero de 2009, págs. 697-702.
[2] J. Sun, Y. Xie, H. Zhang y C. Faloutsos, "Menos es más: descomposición matricial compacta para grandes gráficos dispersos", Actas de la Séptima Conferencia Internacional SIAM sobre Minería de Datos, Citeseer, 2007, p . 366.
fuente
Dependiendo de sus objetivos, la clasificación de registros en grupos podría lograrse mejor mediante algún método de agrupamiento. Para un número relativamente pequeño de casos, la agrupación jerárquica suele ser la más adecuada, al menos en la fase exploratoria, mientras que para una solución más pulida puede considerar algún proceso iterativo como K-means. Según el software que esté utilizando, también es posible usar un proceso, que se encuentra en SPSS, pero no sé dónde más, denominado agrupación en dos pasos, que es rápido, aunque opaco, y parece dar buenos resultados.
El análisis de conglomerados produce una solución de clasificación que maximiza la varianza entre grupos mientras minimiza la varianza dentro de dichos grupos. También es probable que produzca resultados que sean más fáciles de interpretar.
fuente
Sugiero agrupar en variables y en observaciones (por separado) para arrojar luz sobre el conjunto de datos. La agrupación de variables (por ejemplo, usando Spearmean como una medida de similitud como en la función del paquete R ) ayudará a ver qué variables "se ejecutan juntas".ρ2
Hmisc
varclus
fuente
Otra opción sería utilizar mapas autoorganizados (SOM). ¿Alguna idea de qué software utilizarán los estudiantes? Sé que R, por ejemplo, tiene un par de implementaciones de SOM. Sin embargo, los SOM pueden fallar en su prueba de "factores componentes con sentido intuitivo". (No necesariamente es cierto con PCA, tampoco ...)
fuente