¿Evaluar rápidamente (visualmente) correlaciones entre datos categóricos ordenados en R?

11

Estoy buscando correlaciones entre las respuestas a diferentes preguntas en una encuesta ("mmm, veamos si las respuestas a la pregunta 11 se correlacionan con las de la pregunta 78"). Todas las respuestas son categóricas (la mayoría van de "muy infeliz" a "muy feliz"), pero algunas tienen un conjunto diferente de respuestas. La mayoría de ellos se pueden considerar ordinales, así que consideremos este caso aquí.

Como no tengo acceso a un programa de estadísticas comerciales, debo usar R.

Probé Rattle (un paquete de minería de datos gratuito para R, muy ingenioso) pero desafortunadamente no admite datos categóricos. Un truco que podría usar es importar en R la versión codificada de la encuesta que tiene números (1..5) en lugar de "muy infeliz" ... "feliz" y dejar que Rattle crea que son datos numéricos.

Estaba pensando en hacer un diagrama de dispersión y tener el tamaño del punto proporcional al número de números para cada par. Después de buscar en Google, encontré http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/ pero parece muy complicado (para mí).

No soy un estadístico (sino un programador), pero he leído algo sobre el asunto y, si lo entiendo correctamente, el rho de Spearman sería apropiado aquí.

Entonces, la versión corta de la pregunta para quienes tienen prisa: ¿hay alguna manera de trazar rápidamente el rho de Spearman en R ? Una gráfica es preferible a una matriz de números porque es más fácil de mirar y también se puede incluir en los materiales.

Gracias de antemano.

PD: Pensé por un momento si publicar esto en el sitio principal de SO o aquí. Después de buscar en ambos sitios la correlación R, sentí que este sitio es más adecuado para la pregunta.

wishihadabettername
fuente
2
Parece que R es inferior al software de propiedad. :)
Roman Luštrik
Para mí, parece totalmente razonable utilizar la correlación de momento-producto de pearson (suponiendo datos continuos) en su caso (suponiendo suficientes puntos en su escala y no un punto medio no conocido). Los campos enteros dentro de la psicología (p. Ej., Psicología de la personalidad o social) se basan (con éxito) en el supuesto de que se puede responder a un solo elemento en una escala de cinco puntos (o siete puntos), por ejemplo, desde muy poco X a muy X tratado como continuo. Vea también este hilo: stats.stackexchange.com/questions/539/…
Henrik
@romunov: No estoy seguro de cómo tuvo la impresión de que creo que R es inferior a otros s / w. Pero no es el caso en absoluto.
wishihadabettername
Solo estaba siendo un asno inteligente. Espero que no haya resentimientos. :)
Roman Luštrik

Respuestas:

19

El paquete corrplot ofrece otra buena visualización de la correlación, que le ofrece cosas como esta: texto alternativo

Es un gran paquete.

También eche un vistazo a la respuesta aquí , podría ser bueno que lo sepa.

Por último, si tiene sugerencias sobre cómo el código en la publicación a la que se refirió podría ser más simple, hágamelo saber.

Tal Galili
fuente
1
Gracias Tal, intentaré corrplot ahora. También desearía saber cómo simplificar su solución (a la que me vinculé en la pregunta), pero soy un novato en R para que sepa más que yo. Voy a actualizar la cuestión de aclarar las miradas de soluciones complicadas para mí
wishihadabettername
La corrplot se ve bien. Ofrece una gran instantánea visual del tamaño y la dirección de las correlaciones. En el caso de las variables categóricas ordenadas de 5 puntos, podría ser útil proporcionar alguna otra medida de asociación además de la correlación de Pearson: por ejemplo, correlaciones policóricas. El tamaño de las correlaciones estándar de Pearson de las variables categóricas ordenadas está influenciado de alguna manera por la media de las dos variables.
Jeromy Anglim
3

Un par de ideas de trazado adicionales son:

Jeromy Anglim
fuente
El girasol es una solución divertida. Usando una fluctuación es lo que he intentado la primera vez que miré el tema, pero he encontrado que haga no ser suficiente efectivo para el trazado de correlación matrixs ...
Tal Galili
Sí, el jitter podría ser bastante complicado con una matriz de dispersión con muchas variables. Supongo que el beneficio del jitter y el girasol es que puedes ver los datos sin procesar (aunque perturbados en el caso de jitter).
Jeromy Anglim
De acuerdo (me encanta la inquietud, simplemente no por esto :))
Tal Galili