Tengo un conjunto de datos con dos variables nominales categóricas (ambas con 5 categorías). Me gustaría saber si (y cómo) puedo identificar posibles correlaciones entre las categorías de estas dos variables.
En otras palabras, si, por ejemplo, los resultados de la categoría en la variable 1 muestran una fuerte correlación con una categoría específica en la variable 2. Como tengo dos variables con 5 categorías, el análisis de correlación total para todas las categorías se reduciría a 25 resultados (al menos si funciona de la manera que espero / espero que funcione).j
He tratado de formular el problema en preguntas concretas:
Pregunta 1: Digamos que transfiero la variable categórica a 5 variables ficticias diferentes por valor (categoría). Este mismo procedimiento también lo ejecuto para la segunda variable. Entonces quiero determinar la correlación entre el ficticio 1.i y 2.i (por ejemplo). ¿Es estadísticamente correcto para mí ejecutar este procedimiento mediante un procedimiento de coeficiente de correlación ordinario? ¿El coeficiente de correlación resultante de este procedimiento proporciona una visión adecuada de una correlación entre las dos variables ficticias?
Pregunta 2: Si el procedimiento descrito en la pregunta uno es válido, ¿hay alguna forma de ejecutar este análisis para todas las categorías de 2 (o quizás más) variables nominales categóricas de una vez?
El programa que estoy usando es SPSS (20).
fuente
Respuestas:
La asociación "focal" entre la categoría de una variable nominal y la categoría de la otra se expresa por la frecuencia residual en la celda , como sabemos. Si el residual es 0, significa que la frecuencia es la esperada cuando las dos variables nominales no están asociadas. Cuanto mayor es el residual, mayor es la asociación debido a la combinación sobrerrepresentada en la muestra. El gran residuo negativo dice de manera equivalente de la combinación subrepresentada. Entonces, la frecuencia residual es lo que quieres.i j ij ij
Sin embargo, los residuos brutos no son adecuados porque dependen de los totales marginales y del total general y del tamaño de la tabla: el valor no está estandarizado de ninguna manera. Pero SPSS puede mostrarle residuos estandarizados también llamados residuos de Pearson. St. residual es el residual dividido por una estimación de su desviación estándar (igual a la raíz cuadrada del valor esperado). Los residuales de una tabla tienen una media de 0 y st. dev. 1; por lo tanto, st. residual sirve un valor z, como el valor z en una distribución de una variable cuantitativa (en realidad, es z en la distribución de Poisson). Los residuales de St. son comparables entre diferentes tablas del mismo tamaño y el mismo total . La estadística de chi-cuadrado de una tabla de contingencia es la suma del st cuadrado. derechos residuales de autorN en eso. Comparando st. los residuos en una tabla y en tablas del mismo volumen ayudan a identificar las celdas particulares que más contribuyen a la estadística de chi-cuadrado.
SPSS también muestra los residuos ajustados (= residuos estandarizados ajustados). Adj. residual es el residual dividido por una estimación de su error estándar. Interesante que adj. residual es igual a , donde es el gran total y es la correlación de Pearson (alias de correlación Phi) entre variables ficticias correspondientes a las categorías y de las dos variables nominales . Este es exactamente lo que dice que desea calcular. Adj. residual está directamente relacionado con él.N−−√rij N rij i j r
A diferencia de st. residual, adj. residual también está estandarizado wrt a la forma de las distribuciones marginales en la tabla (toma en consideración la frecuencia esperada no solo en esa celda sino también en las celdas fuera de su fila y su columna) y así puede ver directamente la fuerza de la empate entre las categorías y , sin preocuparse de si sus totales marginales son grandes o pequeños en relación con las otras categorías '. Adj. residual también es como un puntaje z, pero ahora es como z de distribución normal (no de Poisson). Si adj. residual es superior a 2 o inferior a -2, puede concluir que es significativo en el nivel . Adj. los residuos todavía se ven afectados por ;i j 1 N r 's no lo son, pero puede obtener todas las s de adj. residuales, siguiendo la fórmula anterior, sin perder tiempo para producir variables ficticias. r 2
p<0.05
Con respecto a su segunda pregunta, sobre los lazos de categoría de 3 vías: esto es posible como parte del análisis loglineal general que también muestra los residuos. Sin embargo, el uso práctico de los residuos de células de 3 vías es modesto: las medidas de asociación de 3 (+) vías no se estandarizan fácilmente y no son fácilmente interpretables.
i j r i j Pr ( i , 1 ) Pr ( i , 2 ) i i2 Se deduce que la importancia del residual ajustado en la celda es igual a la importancia de . Además, si solo hay 2 columnas en la tabla y está realizando una prueba z de proporciones entre y , proporciones de columna para la fila , el El valor p de esa prueba es igual a la importancia de ambos (cualquiera) adj. residuales en la fila de la tabla de 2 columnas.ij rij Pr(i,1) Pr(i,2) i i
fuente
Tomado directamente de un documento sobre estadísticas bivariadas con SPSS que vive aquí :
fuente
the SPSS document
poco, no era mi intención atribuirle ninguna autenticidad indebida.