Me gustaría encontrar la correlación entre una variable continua (variable dependiente) y una variable categórica (nominal: género, variable independiente). Los datos continuos no se distribuyen normalmente. Antes, lo había calculado usando el de Spearman . Sin embargo, me han dicho que no está bien.
Mientras buscaba en Internet, descubrí que el diagrama de caja puede proporcionar una idea sobre cuánto están asociados; sin embargo, estaba buscando un valor cuantificado como el coeficiente de momento del producto de Pearson o el de Spearman . ¿Me pueden ayudar a hacer esto? ¿O informar sobre qué método sería apropiado?
¿El coeficiente biserial de puntos sería la opción correcta?
correlation
categorical-data
descriptive-statistics
biostatistics
spearman-rho
MD Ferdous Wahid
fuente
fuente
Respuestas:
El revisor debería haberle dicho por qué Spearman no es apropiado. Aquí hay una versión de eso: deje que los datos sean ( Z i , I i ) donde Z es la variable medida e I es el indicador de género, digamos que es 0 (hombre), 1 (mujer). Entonces ρ de Spearman se calcula en base a los rangos de Z , I respectivamente. Como solo hay dos valores posibles para el indicador I , habrá muchos vínculos, por lo que esta fórmula no es apropiada. Si reemplaza el rango con el rango medio, obtendrá solo dos valores diferentes, uno para hombres y otro para mujeres. Entonces ρρ (Zi,Ii) Z I ρ Z,I I ρ se convertirá básicamente en una versión reescalada de los rangos medios entre los dos grupos. ¡Sería más simple (más interpretable) simplemente comparar los medios! Otro enfoque es el siguiente.
Sean las observaciones de la variable continua entre hombres, Y 1 , ... , Y m igual entre mujeres. Ahora, si la distribución de X y de Y es la misma, entonces P ( X > Y ) será 0.5 (supongamos que la distribución es puramente continua, por lo que no hay vínculos). En el caso general, defina θ = P ( X > Y ) donde X es un sorteo aleatorio entre hombres, YX1,…,Xn Y1,…,Ym X Y P(X>Y)
fuente
Estoy teniendo el mismo problema ahora. Todavía no vi a nadie hacer referencia a esto, pero estoy investigando la Correlación Punto-Biserial que se basa en el coeficiente de correlación de Pearson. Es la media para una variable continua y una variable dicotómica.
Lectura rápida: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php
Uso R, pero creo que SPSS tiene una excelente documentación.
fuente
Parece que la comparación más apropiada sería comparar las medianas (como no es normal) y la distribución entre las categorías binarias. Sugeriría la prueba no paramétrica de Mann-Whitney ...
fuente
Para el problema especificado, puede ser útil medir el área bajo la curva de la curva característica de un operador receptor.
No soy un experto en esto, así que trato de mantenerlo simple. Comente cualquier error o interpretación incorrecta para que pueda cambiarlo.
La declaración anterior se calculó con el Área bajo la curva.
Ejemplo de buena correlación (derecha) y anti-correlación justa (izquierda).
fuente
debe usar una tendencia lineal alternativa a la independencia. Si no lo sabe, puede estudiar una introducción al análisis de datos categóricos en la página 41.
fuente