¿Por qué difieren los odds ratios de la fórmula y la prueba de pescador de R.? ¿Cuál debería uno elegir?

13

En el siguiente ejemplo

> m = matrix(c(3, 6, 5, 6), nrow=2)
> m
     [,1] [,2]
[1,]    3    5
[2,]    6    6
> (OR = (3/6)/(5/6))    #1
[1] 0.6
> fisher.test(m)        #2

    Fisher's Exact Test for Count Data

data:  m 
p-value = 0.6699
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 0.06390055 5.07793271 
sample estimates:
odds ratio 
 0.6155891 

Calculé el odds ratio (# 1) "manualmente", 0.600; luego (# 2) como uno de los resultados de la prueba exacta de Fisher, 0.616.

¿Por qué no obtuve el mismo valor?

¿Por qué existen varias formas de calcular la odds ratio y cómo elegir la más adecuada?

Winerd
fuente

Respuestas:

10

Desde la página de ayuda para fisher.test():

Tenga en cuenta que se utiliza la estimación condicional de máxima verosimilitud (MLE) en lugar de la MLE incondicional (la razón de probabilidades de la muestra).

zx8754
fuente
3

Para agregar a la discusión aquí, es útil preguntar qué está exactamente condicionado en esta probabilidad "condicional". La prueba de Fisher difiere de otros análisis categóricos en que considera que todos los márgenes de la tabla son fijos, mientras que el modelo de regresión logística (y la prueba de chi-cuadrado de Pearson correspondiente, que es la prueba de puntaje del modelo logístico) solo considera que un margen es fijo .

La prueba de Fisher luego considera la distribución hipergeométrica como un modelo de probabilidad para los recuentos observados en cada una de las 4 celdas. La distribución hipergeométrica tiene la peculiaridad de que, dado que la distribución del odds ratio de origen no es continua, a menudo se obtiene un OR diferente como una estimación de probabilidad máxima.

AdamO
fuente
2
No creo que su respuesta deje en claro cómo podría surgir esta probabilidad particular. Si modela el proceso de generación de datos con un binomio de producto, por ejemplo, obtiene una probabilidad diferente (& MLE) condicional en los totales marginales, de lo que obtiene si lo modela con la distribución hipergeométrica no central de Wallenius: el marginal los totales se "consideran fijos" en ambos casos.
Scortchi - Restablece a Monica
1

Para responder a su segunda pregunta, los biostatos no son mi fuerte, pero creo que la razón de las estadísticas de odds ratio múltiple es tener en cuenta el diseño de muestreo y el diseño de experimentos.

He encontrado tres referencias aquí que le darán un poco de comprensión de por qué hay una diferencia entre MLE condicional versus incondicional para odds ratio, así como otros tipos.

  1. Estimación de puntos e intervalos de la razón de probabilidades común en la combinación de tablas 2 × 2 con márgenes fijos

  2. El efecto del sesgo en los estimadores de riesgo relativo para muestras emparejadas y estratificadas

  3. Un estudio comparativo de la estimación condicional de máxima verosimilitud de una razón de probabilidades común

Jon
fuente
3
Sería útil resumir al menos un poco lo que esas referencias tienen que decir.
Scortchi - Restablece a Monica
@Scortchi, de acuerdo. He estado ocupado con el trabajo y solo tuve la oportunidad de leer la primera página o dos de cada una. Agregaré un resumen de cada uno este fin de semana.
Jon
@ Jon Si pudiera, sería útil añadir que resumen breve
Glen_b -Reinstate Mónica
@ Jon, solo hice una pregunta. Fue bli quien agregó una segunda pregunta 4 años después de que publiqué mi pregunta original. No estoy invirtiendo la molesta edición de bli mientras hace referencia a la segunda pregunta, pero ya no estoy seguro de cómo aceptar una respuesta.
winerd