Técnica de reducción de datos para identificar tipos de países.

11

Enseño un curso introductorio de geografía económica. Para ayudar a mis estudiantes a desarrollar una mejor comprensión de los tipos de países que se encuentran en la economía mundial contemporánea y una apreciación de las técnicas de reducción de datos, quiero construir una tarea que cree una tipología de diferentes tipos de países (p. Ej. valor agregado mfg esperanza de vida larga; exportador de recursos naturales de altos ingresos esperanza de vida media-alta; Alemania es un elemento del primer tipo y Yemen un ejemplo del segundo tipo). Esto usaría datos del PNUD disponibles al público (que si recuerdo correctamente contiene datos socioeconómicos en un poco menos de 200 países; lo siento, no hay datos regionales disponibles).

Antes de esta asignación sería otra que les pide (usando los mismos datos --- en gran medida intervalo o nivel de razón ---) examinar las correlaciones entre estas mismas variables.

Espero que primero desarrollen una intuición para los tipos de relaciones entre diferentes variables (por ejemplo, una relación positiva entre la esperanza de vida y [varios indicadores de] riqueza; una relación positiva entre riqueza y diversidad de exportaciones). Luego, cuando se usa la técnica de reducción de datos, los componentes o factores tendrían un sentido intuitivo (por ejemplo, el factor / componente 1 captura la importancia de la riqueza; el factor / componente 2 captura la importancia de la educación).

Dado que estos son estudiantes de segundo a cuarto año, a menudo con una exposición limitada al pensamiento analítico en general, ¿qué técnica de reducción de datos única sugeriría como la más adecuada para la segunda tarea? Estos son datos de población, por lo que las estadísticas inferenciales (p-vlaues, etc.) no son realmente necesarias.

rabidotter
fuente

Respuestas:

10

Como método exploratorio, PCA es una buena primera opción para una tarea como esta IMO. También sería bueno para ellos exponerse a él; Parece que muchos de ellos no habrán visto componentes principales antes.

En términos de datos, también le señalaría los Indicadores del Banco Mundial, que están notablemente completos: http://data.worldbank.org/indicator .

JMS
fuente
5

Estoy de acuerdo con JMS, y PCA parece una buena idea después de examinar las correlaciones iniciales y los diagramas de dispersión entre las variables para cada condado. Este hilo tiene algunas sugerencias útiles para introducir PCA en términos no matemáticos.

También sugeriría utilizar pequeños mapas múltiples para visualizar las distribuciones espaciales de cada una de las variables (y hay algunos buenos ejemplos en esta pregunta en el sitio gis.se). Creo que esto funciona particularmente bien si tiene un número limitado de unidades de área para comparar y utiliza un buen esquema de color (como este ejemplo en el blog de Andrew Gelman).

Desafortunadamente, la naturaleza de cualquier conjunto de datos de "países del mundo" sospecho que con frecuencia daría como resultado datos escasos (es decir, muchos países faltantes), lo que dificulta la visualización geográfica. Pero tales técnicas de visualización también deberían ser útiles en otras situaciones para su curso.

Andy W
fuente
+1, buenas referencias. Comparar mapas de las variables con mapas de las puntuaciones de PCA también podría ser interesante.
JMS
El enlace a la introducción de PCA en términos no matemáticos fue útil, ya que me ayudó a tener una idea de la sutil diferencia entre PCA y el análisis factorial. Las sugerencias de SIG / mapeo también son bastante útiles, ya que no había pensado en visualizar la distribución espacial de las variables. Para esta población de estudiantes, les ayudaría a comprender las estructuras subyacentes de la economía mundial de una manera en que todo mi bla bla bla no lo haría.
rabidotter
1
Las parcelas agradables a menudo superan a bla, bla, bla :)
JMS
4

Una nota rápida agregada: cualquiera de las técnicas anteriores que use, primero querrá verificar las distribuciones de sus variables, ya que muchas de ellas "requerirán" que primero las transforme utilizando un logaritmo. Hacerlo revelará algunas de las relaciones mucho mejor que usar las variables originales.

rolando2
fuente
3
+1 Normalmente, una respuesta como esta debería publicarse como un comentario, pero el consejo es tan importante aquí que se beneficia de todos los énfasis posibles. Los resultados de PCA en particular probablemente no serán informativos hasta que las variables se vuelvan a expresar adecuadamente.
whuber
2

Puede usar la descomposición de CUR como alternativa a PCA. Para la descomposición de CUR, puede consultar [1] o [2]. En la descomposición de CUR, C representa las columnas seleccionadas, R representa las filas seleccionadas y U es la matriz de enlace. Permítanme parafrasear la intuición detrás de la descompsosis CUR como se da en [1];

Aunque la SVD truncada se usa ampliamente, los vectores y pueden carecer de significado en términos del campo del que se extraen los datos. Por ejemplo, el vector propiov iuivi

[(1/2)age − (1/ √2)height + (1/2)income]

ser uno de los "factores" o "características" no correlacionados significativos de un conjunto de datos de las características de las personas, no es particularmente informativo o significativo.

Lo bueno de CUR es que las columnas base son columnas (o filas) reales y mejor interpretarlas que PCA (que usa SVD transferido).

El algoritmo proporcionado en [1] es fácil de implementar y puede jugar con él cambiando el umbral de error y obteniendo un número diferente de bases.

[1] MW Mahoney y P. Drineas, "descomposiciones de matriz CUR para un mejor análisis de datos", Actas de la Academia Nacional de Ciencias de los Estados Unidos de América, vol. 106, enero de 2009, págs. 697-702.

[2] J. Sun, Y. Xie, H. Zhang y C. Faloutsos, "Menos es más: descomposición matricial compacta para grandes gráficos dispersos", Actas de la Séptima Conferencia Internacional SIAM sobre Minería de Datos, Citeseer, 2007, p . 366.

petrichor
fuente
2

Dependiendo de sus objetivos, la clasificación de registros en grupos podría lograrse mejor mediante algún método de agrupamiento. Para un número relativamente pequeño de casos, la agrupación jerárquica suele ser la más adecuada, al menos en la fase exploratoria, mientras que para una solución más pulida puede considerar algún proceso iterativo como K-means. Según el software que esté utilizando, también es posible usar un proceso, que se encuentra en SPSS, pero no sé dónde más, denominado agrupación en dos pasos, que es rápido, aunque opaco, y parece dar buenos resultados.

El análisis de conglomerados produce una solución de clasificación que maximiza la varianza entre grupos mientras minimiza la varianza dentro de dichos grupos. También es probable que produzca resultados que sean más fáciles de interpretar.

Tomás Boncompte
fuente
2

Sugiero agrupar en variables y en observaciones (por separado) para arrojar luz sobre el conjunto de datos. La agrupación de variables (por ejemplo, usando Spearmean como una medida de similitud como en la función del paquete R ) ayudará a ver qué variables "se ejecutan juntas".ρ2Hmiscvarclus

Frank Harrell
fuente
1

Otra opción sería utilizar mapas autoorganizados (SOM). ¿Alguna idea de qué software utilizarán los estudiantes? Sé que R, por ejemplo, tiene un par de implementaciones de SOM. Sin embargo, los SOM pueden fallar en su prueba de "factores componentes con sentido intuitivo". (No necesariamente es cierto con PCA, tampoco ...)

Wayne
fuente
Disculpe la demora en responder. Los estudiantes estarían usando Minitab 16, que tiene algunas de las técnicas de reducción de datos más tradicionales mencionadas anteriormente. Buscaré mapas autoorganizados, pero dudo si sería apropiado para el tipo de estudiantes que obtengo en un curso de pregrado de segundo año.
rabidotter