Correlación entre categorías entre variables nominales categóricas

9

Tengo un conjunto de datos con dos variables nominales categóricas (ambas con 5 categorías). Me gustaría saber si (y cómo) puedo identificar posibles correlaciones entre las categorías de estas dos variables.

En otras palabras, si, por ejemplo, los resultados de la categoría en la variable 1 muestran una fuerte correlación con una categoría específica en la variable 2. Como tengo dos variables con 5 categorías, el análisis de correlación total para todas las categorías se reduciría a 25 resultados (al menos si funciona de la manera que espero / espero que funcione). $i$ $j$

He tratado de formular el problema en preguntas concretas:

Pregunta 1: Digamos que transfiero la variable categórica a 5 variables ficticias diferentes por valor (categoría). Este mismo procedimiento también lo ejecuto para la segunda variable. Entonces quiero determinar la correlación entre el ficticio 1.i y 2.i (por ejemplo). ¿Es estadísticamente correcto para mí ejecutar este procedimiento mediante un procedimiento de coeficiente de correlación ordinario? ¿El coeficiente de correlación resultante de este procedimiento proporciona una visión adecuada de una correlación entre las dos variables ficticias?

Pregunta 2: Si el procedimiento descrito en la pregunta uno es válido, ¿hay alguna forma de ejecutar este análisis para todas las categorías de 2 (o quizás más) variables nominales categóricas de una vez?

El programa que estoy usando es SPSS (20).

correlation residuals contingency-tables categorical-data usuario32378
fuente

Los puntos hechos por @Michael Mayer se aplican a la pregunta revisada.

Nick Cox

1

Si dos variables no están correlacionadas, entonces tendría 1/25 en cada celda de matriz de frecuencias de 5x5. Por lo tanto, estadísticas , donde y - frecuencia observada para cualquiera de 5 valores de dos variables, deben ser adecuados.

χ^{2}

$\chi^2$

\sum_{x y} \frac{(O - E)^{2}}{E}

$\sum_{xy}\frac{(O-E)^2}{E}$

E = \sum_{x y} O_{x y} / 25

$E=\sum_{xy}O_{xy}/25$

O_{x y}

$O_{xy}$

Aksakal

3

@Aksakal "No correlacionado" es el término incorrecto aquí; las variables son nominales, por lo que las correlaciones no están definidas. Creo que te refieres a independiente, pero la independencia tampoco implica frecuencias iguales. Las frecuencias celulares bajo independencia dependen de las frecuencias marginales.

Nick Cox

6

La asociación "focal" entre la categoría de una variable nominal y la categoría de la otra se expresa por la frecuencia residual en la celda , como sabemos. Si el residual es 0, significa que la frecuencia es la esperada cuando las dos variables nominales no están asociadas. Cuanto mayor es el residual, mayor es la asociación debido a la combinación sobrerrepresentada en la muestra. El gran residuo negativo dice de manera equivalente de la combinación subrepresentada. Entonces, la frecuencia residual es lo que quieres. $i$ $j$ $ij$ $ij$

Sin embargo, los residuos brutos no son adecuados porque dependen de los totales marginales y del total general y del tamaño de la tabla: el valor no está estandarizado de ninguna manera. Pero SPSS puede mostrarle residuos estandarizados también llamados residuos de Pearson. St. residual es el residual dividido por una estimación de su desviación estándar (igual a la raíz cuadrada del valor esperado). Los residuales de una tabla tienen una media de 0 y st. dev. 1; por lo tanto, st. residual sirve un valor z, como el valor z en una distribución de una variable cuantitativa (en realidad, es z en la distribución de Poisson). Los residuales de St. son comparables entre diferentes tablas del mismo tamaño y el mismo total . La estadística de chi-cuadrado de una tabla de contingencia es la suma del st cuadrado. derechos residuales de autor $N$ en eso. Comparando st. los residuos en una tabla y en tablas del mismo volumen ayudan a identificar las celdas particulares que más contribuyen a la estadística de chi-cuadrado.

SPSS también muestra los residuos ajustados (= residuos estandarizados ajustados). Adj. residual es el residual dividido por una estimación de su error estándar. Interesante que adj. residual es igual a , donde es el gran total y es la correlación de Pearson (alias de correlación Phi) entre variables ficticias correspondientes a las categorías y de las dos variables nominales . Este es exactamente lo que dice que desea calcular. Adj. residual está directamente relacionado con él. $\sqrt{N}r_{ij}$ $N$ $r_{ij}$ $i$ $j$ $r$

A diferencia de st. residual, adj. residual también está estandarizado wrt a la forma de las distribuciones marginales en la tabla (toma en consideración la frecuencia esperada no solo en esa celda sino también en las celdas fuera de su fila y su columna) y así puede ver directamente la fuerza de la empate entre las categorías y , sin preocuparse de si sus totales marginales son grandes o pequeños en relación con las otras categorías '. Adj. residual también es como un puntaje z, pero ahora es como z de distribución normal (no de Poisson). Si adj. residual es superior a 2 o inferior a -2, puede concluir que es significativo en el nivel . Adj. los residuos todavía se ven afectados por ; $i$ $j$ p<0.05 $^1$ $N$ $r$ 's no lo son, pero puede obtener todas las s de adj. residuales, siguiendo la fórmula anterior, sin perder tiempo para producir variables ficticias. $r$ $^2$

Con respecto a su segunda pregunta, sobre los lazos de categoría de 3 vías: esto es posible como parte del análisis loglineal general que también muestra los residuos. Sin embargo, el uso práctico de los residuos de células de 3 vías es modesto: las medidas de asociación de 3 (+) vías no se estandarizan fácilmente y no son fácilmente interpretables.

$^1$ en st. La curva normal es el punto de corte de la cola del 2.5%, por lo tanto, el 5% si considera ambas colas como con la hipótesis alternativa de 2 lados. $1.96 \approx 2$

$^2$ Se deduce que la importancia del residual ajustado en la celda es igual a la importancia de . Además, si solo hay 2 columnas en la tabla y está realizando una prueba z de proporciones entre y , proporciones de columna para la fila , el El valor p de esa prueba es igual a la importancia de ambos (cualquiera) adj. residuales en la fila de la tabla de 2 columnas. $ij$ $r_{ij}$ $\text {Pr}(i,1)$ $\text {Pr}(i,2)$ $i$ $i$

ttnphns
fuente

1

Tomado directamente de un documento sobre estadísticas bivariadas con SPSS que vive aquí :

Chi-cuadrado es una técnica útil porque puede usarla para ver si hay una relación entre dos variables ordinales, dos variables nominales o entre una variable ordinal y una variable nominal. Miras el culo. Sig y si es inferior a 0,05, la relación entre las dos variables es estadísticamente significativa.

Zhubarb
fuente

44

OK, pero tres gruñidos, uno mayor, dos muy menores. Chi-cuadrado en dos variables ordinales ignora el orden. Este no es el documento de SPSS, sino una introducción elemental de otra persona, y se simplifica demasiado, como se acaba de mencionar. No copiaron "Asymp". correctamente (ejemplo en la página anterior). El mayor problema para el OP es que la correlación es la palabra incorrecta aquí: "asociación" es la palabra clave, en términos de medición, prueba y (lo mejor de todo) modelar la asociación.

Nick Cox

1

Gracias, edité un the SPSS documentpoco, no era mi intención atribuirle ninguna autenticidad indebida.

Zhubarb

Correlación entre categorías entre variables nominales categóricas

Respuestas: