Correlaciones entre variables continuas y categóricas (nominales)

42

Me gustaría encontrar la correlación entre una variable continua (variable dependiente) y una variable categórica (nominal: género, variable independiente). Los datos continuos no se distribuyen normalmente. Antes, lo había calculado usando el de Spearman . Sin embargo, me han dicho que no está bien.ρ

Mientras buscaba en Internet, descubrí que el diagrama de caja puede proporcionar una idea sobre cuánto están asociados; sin embargo, estaba buscando un valor cuantificado como el coeficiente de momento del producto de Pearson o el de Spearman . ¿Me pueden ayudar a hacer esto? ¿O informar sobre qué método sería apropiado?ρ

¿El coeficiente biserial de puntos sería la opción correcta?

MD Ferdous Wahid
fuente
¡Normalmente, uno no puede aconsejar solo sobre la base del formato de los datos! ¿Qué representan los datos y qué desea lograr con su análisis?
kjetil b halvorsen
1
Gracias kjetil, me gustaría comparar la asociación entre el género y otras variables continuas. Simplemente para saber qué variables continuas están moderadamente / fuertemente correlacionadas y cuáles no.
Md. Ferdous Wahid
1
Parece un duplicado de stats.stackexchange.com/questions/25229/… ¿Puede decirnos si las respuestas a esa pregunta le ayudan?
kjetil b halvorsen
Sí, mi pregunta es similar a eso. Sin embargo, recibí un comentario en el que el revisor indicó que de Spearman no es apropiado. El tamaño de mi muestra es 31. Según la respuesta (el enlace proporcionado), no normal no sería un problema y se puede utilizar cualquier método de correlación (Spearman / Pearson / Point-Biserial) para el gran conjunto de datos. ¿Sería cierto también para el pequeño conjunto de datos? Por cierto, el género no es una escala nominal dicotómica creada artificialmente. El enlace anterior debe usar el coeficiente de correlación biserial. ρ
Md. Ferdous Wahid
3
Correlación entre las variables nominales y de intervalo u ordinales stats.stackexchange.com/q/73065/3277
ttnphns

Respuestas:

25

El revisor debería haberle dicho por qué Spearman no es apropiado. Aquí hay una versión de eso: deje que los datos sean ( Z i , I i ) donde Z es la variable medida e I es el indicador de género, digamos que es 0 (hombre), 1 (mujer). Entonces ρ de Spearman se calcula en base a los rangos de Z , I respectivamente. Como solo hay dos valores posibles para el indicador I , habrá muchos vínculos, por lo que esta fórmula no es apropiada. Si reemplaza el rango con el rango medio, obtendrá solo dos valores diferentes, uno para hombres y otro para mujeres. Entonces ρρ(Zi,Ii)ZIρZ,IIρse convertirá básicamente en una versión reescalada de los rangos medios entre los dos grupos. ¡Sería más simple (más interpretable) simplemente comparar los medios! Otro enfoque es el siguiente.

Sean las observaciones de la variable continua entre hombres, Y 1 , ... , Y m igual entre mujeres. Ahora, si la distribución de X y de Y es la misma, entonces P ( X > Y ) será 0.5 (supongamos que la distribución es puramente continua, por lo que no hay vínculos). En el caso general, defina θ = P ( X > Y ) donde X es un sorteo aleatorio entre hombres, YX1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYentre mujeres ¿Podemos estimar partir de nuestra muestra? Forme todos los pares ( X i , Y j ) (suponga que no hay vínculos) y cuente cuántos tenemos "hombre es más grande" ( X i > Y j ) ( M ) y cuántos "mujer es más grande" ( X i < Y j ) ( W ). Entonces una estimación muestral de θ es Mθ(Xi,Yj)Xi>YjMXi<YjWθ Esa es una medida razonable de correlación! (Si solo hay algunos lazos, simplemente ignórelos). Pero no estoy seguro de cómo se llama, si tiene un nombre. Este puede estar cerca: https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gamma
MM+W
kjetil b halvorsen
fuente
55
La correlación de rango de Spearman es solo la correlación de Pearson aplicada a los rangos de la variable numérica y los valores de la variable binaria original (la clasificación no tiene efecto aquí). Entonces, el rho de Spearman es el análogo de rango de la correlación punto-biserial. No veo ningún problema en usar el rho de Spearman de manera descriptiva en esta situación.
Michael M
Michael Mayer: Sí, podría funcionar, tal vez, pero ¿hay algún punto en eso? ¡No proporciona información que no esté contenida en alguna diferencia de medios! y eso es más directamente interpretable.
kjetil b halvorsen
1
¿Es la diferencia en los rangos mucho más simple de interpretar como el rho de Spearman? Incluso si es así, ¿llamarías equivocado a rho de Spearman? Es triste que no veamos el razonamiento de los críticos.
Michael M
1
Lo que sugieres es bueno. Parece estar relacionado con el estadístico de prueba de la prueba de dos muestras de Wilcoxon, que en sí es similar a la correlación de rango de Kendall entre el resultado numérico y la variable de grupo binario.
Michael M
1
@ tao.hong ¿En qué sentido crees que es asimétrico? Si cambia las etiquetas (hombres / mujeres), entonces yθ interruptores de la misma manera, a1-θ. θ^1θ
kjetil b halvorsen
8

Estoy teniendo el mismo problema ahora. Todavía no vi a nadie hacer referencia a esto, pero estoy investigando la Correlación Punto-Biserial que se basa en el coeficiente de correlación de Pearson. Es la media para una variable continua y una variable dicotómica.

Lectura rápida: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Uso R, pero creo que SPSS tiene una excelente documentación.

Jon
fuente
1
¡Gran referencia para encontrar una correlación entre una variable continua y una variable dicotómica! Sin embargo, los supuestos enumerados son un poco fuertes.
DOMINGO
1

Parece que la comparación más apropiada sería comparar las medianas (como no es normal) y la distribución entre las categorías binarias. Sugeriría la prueba no paramétrica de Mann-Whitney ...

brca1
fuente
66
Mientras que Mann-Whitney sería una forma de identificar el cambio de ubicación en una variable (o incluso formas más generales de dominio estocástico) a través de una variable categórica binaria, Mann-Whitney no compara medianas, al menos no sin suposiciones adicionales.
Glen_b -Reinstate Monica
1

Para el problema especificado, puede ser útil medir el área bajo la curva de la curva característica de un operador receptor.

No soy un experto en esto, así que trato de mantenerlo simple. Comente cualquier error o interpretación incorrecta para que pueda cambiarlo.

xyxxx = 7 son todas masculinas (0). Compare esto con las etiquetas reales y obtenga el número de verdaderos positivos y falsos positivos de su predicción.

xx ) generará las tasas de verdadero positivo y falso positivo y luego puede trazarlos como en la figura a continuación y puede calcular el Área bajo la curva.

xx

La declaración anterior se calculó con el Área bajo la curva.

Example of good correlation (right) and fair anti-correlation (left) Ejemplo de buena correlación (derecha) y anti-correlación justa (izquierda).

aerijman
fuente
1
Bienvenido a CV! Su respuesta es demasiado breve y no parece ayudar a encontrar: "la correlación entre una variable continua (variable dependiente) y una variable categórica (nominal: género, variable independiente)" . ¿Podría editar su respuesta para incluir cómo se supone que AUROC logra esto?
Frans Rodenburg
-3

debe usar una tendencia lineal alternativa a la independencia. Si no lo sabe, puede estudiar una introducción al análisis de datos categóricos en la página 41.

Mehdi Loohs
fuente
44
Ya hay una respuesta aceptada. Y no está claro a qué contribuye su respuesta. ¿Podrías explicar más? Supongo que hace referencia a la introducción de Agresti al análisis de datos categóricos. Por favor proporcione la cita completa.
TEG - Restablece a Monica