Estoy construyendo un modelo de regresión y necesito calcular lo siguiente para verificar las correlaciones
- Correlación entre 2 variables categóricas multinivel
- Correlación entre una variable categórica de niveles múltiples y una variable continua
- VIF (factor de inflación de varianza) para variables categóricas de niveles múltiples
Creo que es incorrecto usar el coeficiente de correlación de Pearson para los escenarios anteriores porque Pearson solo funciona para 2 variables continuas.
Por favor conteste las siguientes preguntas
- ¿Qué coeficiente de correlación funciona mejor para los casos anteriores?
- El cálculo de VIF solo funciona para datos continuos, ¿cuál es la alternativa?
- ¿Cuáles son los supuestos que debo verificar antes de usar el coeficiente de correlación que sugiere?
- ¿Cómo implementarlos en SAS & R?
r
statistics
correlation
GeorgeOfTheRF
fuente
fuente
Respuestas:
Dos variables categóricas
Se puede verificar si dos variables categóricas son independientes con la prueba de independencia Chi-Squared.
Esta es una prueba típica de Chi-cuadrado : si suponemos que dos variables son independientes, entonces los valores de la tabla de contingencia para estas variables deben distribuirse uniformemente. Y luego verificamos qué tan lejos del uniforme están los valores reales.
También existe una V de Crammer que es una medida de correlación que se desprende de esta prueba
Ejemplo
Supongamos que tenemos dos variables
Observamos los siguientes datos:
¿Son independientes el género y la ciudad? Realicemos una prueba Chi-Squred. Hipótesis nula: son independientes, la hipótesis alternativa es que están correlacionados de alguna manera.
Bajo la hipótesis nula, asumimos una distribución uniforme. Entonces nuestros valores esperados son los siguientes
Entonces ejecutamos la prueba de chi-cuadrado y el valor p resultante aquí puede verse como una medida de correlación entre estas dos variables.
Para calcular la V de Crammer, primero encontramos el factor de normalización chi-cuadrado-máximo, que generalmente es el tamaño de la muestra, dividimos el chi-cuadrado por él y sacamos una raíz cuadrada
R
Aquí el valor p es 0.08, bastante pequeño, pero aún no es suficiente para rechazar la hipótesis de independencia. Entonces podemos decir que la "correlación" aquí es 0.08
También calculamos V:
Y obtenga 0.14 (cuanto menor sea v, menor será la correlación)
Considere otro conjunto de datos
Para esto, daría lo siguiente
El valor p es 0.72, que está mucho más cerca de 1, y v es 0.03, muy cerca de 0
Variables categóricas vs numéricas
Para este tipo, generalmente realizamos la prueba ANOVA unidireccional : calculamos la varianza en el grupo y la varianza dentro del grupo y luego las comparamos.
Ejemplo
Queremos estudiar la relación entre la grasa absorbida de las donas frente al tipo de grasa utilizada para producir donas (el ejemplo se toma de aquí )
¿Hay alguna dependencia entre las variables? Para eso llevamos a cabo la prueba ANOVA y vemos que el valor p es solo 0.007, no hay correlación entre estas variables.
R
La salida es
Entonces, también podemos tomar el valor p como la medida de correlación aquí.
Referencias
fuente
kruskal-wallic
usarse en lugar deone-way anova
? Gracias por adelantado.