Coeficiente de correlación para variable nominal no dicotómica y variable ordinal o numérica

12

Ya he leído todas las páginas de este sitio tratando de encontrar la respuesta a mi problema, pero nadie parece ser el correcto ...

Primero te explico el tipo de datos con los que estoy trabajando ...

Digamos que tengo un vector de matriz con varios nombres de ciudad, uno para cada uno de los 300 usuarios. También tengo otro vector de matriz con respuesta de puntajes a una encuesta de cada usuario o un valor continuo para cada usuario.

Me gustaría saber si existe un coeficiente de correlación que calcule la correlación entre estas dos variables, entonces, las variables nominales y numéricas / ordinales

He buscado en Internet y en algunas páginas sugieren usar el coeficiente de contingencia o el coeficiente de Cramer V o Lambda o Eta. Para cada una de estas medidas, simplemente digamos que se podrían aplicar para los datos en los que tenemos una variable nominal e intervalo o variable numérica. La cuestión es que buscar y buscar, tratando de comprender cada uno de ellos, en algún momento está escrito o observando los ejemplos de que son razonables para usarlos si tiene una variable nominal dicotómica, a excepción de Cramer's V, en otro momento no se escribe ningún requisito para El tipo de datos. Muchas otras páginas dicen que es correcto aplicar la regresión, eso es correcto, pero simplemente me gustaría saber si hay un coeficiente como pearson / spearman para este tipo de datos.

También creo que no es tan apropiado usar el coeff de correlación de Spearman ya que las ciudades no son ordenables.

También he construido la función de Cramer'sV y Eta por mí mismo (estoy trabajando con Matlab) pero para Eta no hablan de ningún valor p para ver si el coeficiente es estadísticamente significativo ...

En el sitio de matlabWorks también hay una buena caja de herramientas que dice calcular eta ^ 2, pero el tipo de entrada que necesita no es comprensible.

¿Hay alguien que haya hecho una prueba como la mía? Si necesita más detalles para comprender el tipo de datos que estoy usando, pregúnteme y trataré de explicarle mejor.

cristis
fuente
1
Cramérs V es para dos nominales. ¿Qué tiene de malo la regresión? Toma la variable numérica como respuesta y regresa a la nominal (usando dummies). Mire el y la prueba F global asociada. R2
Michael M
No hay nada de malo en la regresión, pero como ya tenemos esa medida, nos gustaría verificarla de otra manera, como una verificación doble con un coeficiente de correlación ... gracias por la respuesta
cristis
No ha dicho nada específico sobre su variable "numérica / ordinal". ¿Qué te hace posarlo ordinal? ¿numérico?
ttnphns
ordinal porque tengo una variable proveniente de una prueba de encuesta, por lo que su rango es -4,4, también se puede considerar como intervalo, pero este tipo de variable de encuesta se considera principalmente como ordinal y las otras son numéricas, en específico continuo como son características extraídas.
cristis
1
VEA TAMBIÉN la pregunta relacionada stats.stackexchange.com/questions/23938/…
ttnphns

Respuestas:

17

Nominal vs intervalo

La medida de "correlación" más clásica entre una variable nominal y una variable de intervalo ("numérica") es Eta , también llamada razón de correlación, e igual a la raíz R-cuadrado del ANOVA unidireccional (con valor p = el del ANOVA). Eta puede verse como una medida de asociación simétrica, como la correlación, porque Eta de ANOVA (con el nominal como independiente, numérico como dependiente) es igual al rastro de regresión multivariada de Pillai (con el conjunto numérico como independiente, de variables ficticias correspondientes a la nominal como dependiente).

Una medida más sutil es el coeficiente de correlación intraclase ( ICC ). Mientras que Eta solo comprende la diferencia entre los grupos (definidos por la variable nominal) con respecto a la variable numérica, ICC simultáneamente también mide la coordinación o acuerdo entre los valores numéricos dentro de los grupos; en otras palabras, ICC (particularmente la versión ICC original de "emparejamiento" imparcial) permanece en el nivel de valores mientras Eta opera en el nivel de estadísticas (grupo significa vs varianzas de grupo).

Nominal vs ordinal

La pregunta sobre la medida de "correlación" entre una variable nominal y una ordinal es menos evidente. La razón de la dificultad es que la escala ordinal es, por su naturaleza, más "mística" o "retorcida" que las escalas nominales o de intervalo. No es de extrañar que los análisis estadísticos especialmente para datos ordinales estén relativamente mal formulados hasta ahora.

Una forma podría ser convertir sus datos ordinales en rangos y luego calcular Eta como si los rangos fueran datos de intervalo. El valor p de tal Eta = el del análisis de Kruskal-Wallis. Este enfoque parece justificado debido al mismo razonamiento que Spearman rho se utiliza para correlacionar dos variables ordinales. Esa lógica es "cuando no conoces los anchos de intervalo en la escala, corta el nudo gordiano linealizando cualquier posible monotonicidad: clasifica los datos".

Otro enfoque (posiblemente más riguroso y flexible) sería utilizar la regresión logística ordinal con la variable ordinal como DV y la nominal como IV. La raíz cuadrada del pseudo R cuadrado de Nagelkerke (con el valor p de la regresión) es otra medida de correlación para usted. Tenga en cuenta que puede experimentar con varias funciones de enlace en regresión ordinal. Sin embargo, esta asociación no es simétrica: el nominal se supone independiente.

Otro enfoque podría ser encontrar una transformación tan monotónica de los datos ordinales en intervalos, en lugar de clasificar el penúltimo párrafo, que maximice R (es decir, Eta ) para usted. Esta es una regresión categórica (= regresión lineal con escalamiento óptimo).

Otro enfoque más es realizar un árbol de clasificación , como CHAID, con la variable ordinal como predictor. Este procedimiento bin juntos (por lo tanto es el enfoque opuesto al anterior) categorías ordenadas adyacentes que no distinguen entre las categorías de la predictando nominal. Entonces podría confiar en las medidas de asociación basadas en Chi-cuadrado (como la V de Cramer) como si correlacionara las variables nominales con las nominales.

Y @Michael en su comentario sugiere una forma más: un coeficiente especial llamado Theta de Freeman .

Entonces, hemos llegado hasta ahora a estas oportunidades: (1) Clasificar, luego calcular Eta; (2) Usar regresión ordinal; (3) Usar regresión categórica ("óptimamente" transformando la variable ordinal en intervalo); (4) Usar el árbol de clasificación ("óptimamente" reduciendo el número de categorías ordenadas); (5) Usa Theta de Freeman.

ttnphns
fuente
3
PD: En el blog de Jeromy Anglim, jeromyanglim.blogspot.ru/2009/10/…
ttnphns, del
2
θ
2
@Michael gracias, aquí encontré un documento "Una nota adicional sobre la medida de asociación de Freeman
ttnphns
1
Para obtener más información sobre el theta de Freeman y un paquete R que incluye la estadística, consulte esta pregunta de validación cruzada .
Sal Mangiafico
@ttnphns Lo siento, ¿podría responder esta pregunta? stats.stackexchange.com/questions/363543/… Muchas gracias.
ebrahimi
0

FpFpSSbetweencities/SStotalR2R

Ray Koopman
fuente