Análisis bayesiano de tablas de contingencia: cómo describir el tamaño del efecto

9

Estoy trabajando a través de los ejemplos en el análisis de datos bayesianos de Kruschke , específicamente el ANOVA exponencial de Poisson en el cap. 22, que presenta como una alternativa a las pruebas de independencia chi-cuadrado de independencia para tablas de contingencia.

Puedo ver cómo obtenemos información sobre las interacciones que ocurren con más o menos frecuencia de lo que se esperaría si las variables fueran independientes (es decir, cuando el IDH excluye cero).

Mi pregunta es ¿cómo puedo calcular o interpretar un tamaño de efecto en este marco? Por ejemplo, Kruschke escribe "la combinación de ojos azules con cabello negro ocurre con menos frecuencia de lo que se esperaría si el color de los ojos y el color del cabello fueran independientes", pero ¿cómo podemos describir la fuerza de esa asociación? ¿Cómo puedo saber qué interacciones son más extremas que otras? Si hiciéramos una prueba de chi-cuadrado de estos datos, podríamos calcular la V de Cramér como una medida del tamaño del efecto general. ¿Cómo expreso el tamaño del efecto en este contexto bayesiano?

Aquí está el ejemplo autónomo del libro (codificado R), en caso de que la respuesta se me oculte a simple vista ...

df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 
10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", 
"Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel")))

df

         Blue Brown Green Hazel
Black      20    68     5    15
Blond      94     7    16    10
Brunette   84   119    29    54
Red        17    26    14    14

Aquí está la salida frecuentista, con medidas de tamaño del efecto (no en el libro):

vcd::assocstats(df)
                    X^2 df P(> X^2)
Likelihood Ratio 146.44  9        0
Pearson          138.29  9        0

Phi-Coefficient   : 0.483 
Contingency Coeff.: 0.435 
Cramer's V        : 0.279

Aquí está la salida bayesiana, con IDH y probabilidades de celda (directamente del libro):

# prepare to get Krushkes' R codes from his web site
Krushkes_codes <- c(
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/openGraphSaveGraph.R", 
  "http://www.indiana.edu/~kruschke/DoingBayesianDataAnalysis/Programs/PoissonExponentialJagsSTZ.R")

# download Krushkes' scripts to working directory
lapply(Krushkes_codes, function(i) download.file(i, destfile = basename(i)))

# run the code to analyse the data and generate output
lapply(Krushkes_codes, function(i) source(basename(i)))

Y aquí hay gráficos del modelo exponencial posterior de Poisson aplicado a los datos:

ingrese la descripción de la imagen aquí

Y gráficas de la distribución posterior en las probabilidades de células estimadas:

ingrese la descripción de la imagen aquí

Ben
fuente

Respuestas:

1

Según el índice, Kruschke solo menciona el tamaño del efecto dos veces, y ambas veces están en el contexto de una variable métrica predicha. Pero hay esta parte en la p. 601:

Si el investigador está interesado en violaciones de la independencia, entonces el interés está en las magnitudes de . El modelo es especialmente conveniente para este propósito, porque se pueden investigar contrastes de interacción arbitrarios para determinar dónde está surgiendo la no independencia.βrc

Entonces, que es el parámetro a interpretar. Sea igual a la suma de productos de todos los coeficientes y sus elementos x correspondientes, excluyendo y . Desde y . Cuando = 1, entonces crece o se reduce por un factor de , ¿no?β1,2Sβ1,2x1,2yiPois(λi)λi=eβ1,2x1,2+S=eβ1,2x1,2eSx1,2λieβ1,2

Sean Easter
fuente
1

Una forma de estudiar el tamaño del efecto en el modelo ANOVA es observar las desviaciones estándar de "superpoblación" y "población finita". Tiene una tabla de dos vías, por lo que se trata de 3 componentes de varianza (2 efectos principales y 1 interacción). Esto se basa en el análisis mcmc. Se calcula la desviación estándar para cada efecto para cada muestra de mcmc.

sk=1dk1j=1dk(βk,jβ¯k)2

Donde indexa la "fila" de la tabla ANOVA. Las gráficas de simples de las muestras mcmc de vs son bastante instructivas sobre los tamaños de los efectos.kskk

Andrew Gelman abogó por este enfoque. Vea su artículo de 2005 "análisis de varianza: por qué es más importante que nunca"

probabilidadislogica
fuente
Ese documento está disponible aquí .
Sean Easter
Ambas respuestas parecen muy prometedoras, gracias. ¿Alguno de ustedes está lo suficientemente familiarizado Rpara mostrar cómo se puede programar?
Ben
@seaneaster: gracias por agregar el enlace. @ben, estos cálculos son simples en R. Sin embargo, no estoy seguro de qué forma tienen sus muestras. Debería poder usarlas sd ()combinadas con una de las funciones "aplicar". En cuanto a los diagramas de caja, estos son simples para obtener los básicos boxplot ().
probabilidadislogica
Gracias, ¿puede demostrar utilizando los datos y el código de ejemplo en mi pregunta?
Ben
En resumen, no porque no entiendo el código que ha publicado, no puedo ver cómo se organizan los datos. Y como dije, este no es un análisis difícil de hacer usted mismo. Este enfoque es calcular una medida simple (desviación estándar). Además, la codificación R no es parte de su pregunta: usted preguntó cómo resumir el análisis de la tabla de contingencia.
probabilityislogic