¿Cuál es la diferencia usando una prueba exacta de Fisher versus una regresión logística para

10

Para una tabla , dos formas de hacer inferencia en la tabla es a través de la prueba exacta de Fisher y también una regresión logística.2×2

Me dijeron que usando una prueba exacta de Fisher, solo estamos interesados ​​en la presencia de asociación. Pero eso con una regresión logística, estamos interesados ​​en la magnitud de la asociación.

Sin embargo, no entiendo por qué. Por ejemplo, en una prueba exacta de Fisher realizada en R, devuelve el Odds Ratio con un intervalo de confianza, mientras que con la regresión logística, regresamos con la intersección y la pendiente, las cuales corresponden a las probabilidades de registro y las probabilidades de registro proporción.

Mi pregunta es , ¿dónde nos da la regresión logística la magnitud de la asociación? Supongo que está en el coeficiente , pero esa es solo la relación de probabilidades de registro, que también arroja la prueba exacta de Fisher . ¿Cuáles son las diferencias?β1

usuario321627
fuente

Respuestas:

2

No estoy seguro de lo que la persona a la que se ha referido con "Regresión logística nos da la magnitud de la asociación" ya que, como usted dice, la prueba exacta del pescador hace algo bastante similar. Pero aún así, hay algunas diferencias en las que puedo pensar.

1. Los odds ratios (OR) pueden diferir

El OR que se informa no tiene que ser el mismo. Al menos esto es cierto para las funciones R fisher.test () y exacta2x2 () versus regresión logística a través de la función glm (). Aquí un ejemplo:

# generating data
set.seed(1)
n <- 200
x <- rbinom(n, 1, .5)
y <- rbinom(n, 1, .4)
df <- data.frame(x, y)

# OR from logistic regression
exp(coef(glm(y ~ x,family=binomial(link='logit'),data= df)))[2]
1.423077

# OR from fisher's exact test
tab <- table(x, y)
fisher.test(tab)$estimate
1.420543 # the methods "minlike", "central" and "blaker" in the exact2x2 function result in the same OR

# calculating OR by hand
(tab[1,1]/ tab[2,1])/ (tab[1,2]/ tab[2,2])
1.423077

El OR de la prueba exacta del pescador difiere de los calculados a mano o informados en la regresión logística porque se calculan por la Estimación de probabilidad máxima condicional y no por el MLE incondicional (OR de muestra). Puede haber situaciones en las que los valores OR difieran más que en mi ejemplo. Y nuevamente, el OR difiere para las funciones mencionadas, pero puede haber otras variantes de las pruebas si son las mismas.

2. los valores de p difieren

Por supuesto, los valores de p difieren ya que en caso de regresión logística se determinan con la estadística de Wald y el valor az, mientras que hay diferentes tipos de prueba exacta de Fisher que incluso difieren en los valores de p entre sí (el último enlace abre pdf). Vea aquí los datos utilizados antes:

# p value from logistic regression
summary(glm(y ~ x,family=binomial(link='logit'),data= df))$coefficients["x", "Pr(>|z|)"]
0.2457947

# p value from fisher's exact test
library(exact2x2) # package covers different exact fisher's tests, see here https://cran.r-project.org/web/packages/exact2x2/index.html

exact2x2(tab,tsmethod="central")$p.value
0.3116818
exact2x2(tab,tsmethod="minlike")$p.value
0.290994 # which is same as fisher.test(tab)$p.value and exact2x2(tab,tsmethod="blaker")$p.value

Aquí, en todos los casos, se concluiría que no hay un efecto significativo. Pero aún así, como puede ver, las diferencias no son triviales (.246 para regresión logística versus .291 o incluso .312 para la prueba exacta de Fisher). Por lo tanto, dependiendo de si está utilizando la regresión logística o la prueba exacta de Fisher, puede llegar a otra conclusión si hay un efecto significativo o no.

3. Hacer una predicción

Para hacer una analogía: la correlación de Pearson y la regresión lineal son bastante similares en casos bivariados y el coeficiente de regresión estandarizado es incluso el mismo que la correlación de Pearson r. Pero no puede hacer predicciones con una correlación ya que le falta una intercepción. Del mismo modo, incluso si las razones de probabilidad de regresión logística y la prueba exacta de Fisher fueran las mismas (lo que no es el caso como se discutió en el punto 1), no podría hacer predicciones con los resultados de la prueba exacta de Fisher. Por otro lado, la regresión logística le proporciona la intercepción y los coeficientes necesarios para hacer predicciones.

4. Rendimiento

Las diferencias mencionadas anteriormente pueden llevar a suponer que debería haber diferencias en el desempeño de ambas pruebas en términos de potencia y error tipo I. Hay algunas fuentes que afirman que la prueba exacta del pescador es demasiado conservadora. Por otro lado, uno debe tener en cuenta que los análisis de regresión logística estándar son asintóticos, por lo que con pocas observaciones probablemente preferirá la prueba exacta de Fisher .

En resumen , aunque ambas pruebas pueden usarse para los mismos datos, existen algunas diferencias que pueden conducir a resultados diferentes y, por lo tanto, a conclusiones diferentes. Por lo tanto, depende de la situación cuál de las dos pruebas desea utilizar: en caso de predicción, sería la regresión logística, en caso de tamaños de muestra pequeños, la prueba exacta del pescador, etc. Probablemente hay incluso más diferencias que omití, pero tal vez alguien pueda editarlas y agregarlas.


fuente