Cómo resumir intervalos creíbles para una audiencia médica

21

Con Stan y los paquetes frontend rstanarmo brmspuedo analizar fácilmente los datos al estilo bayesiano como lo hice antes con modelos mixtos como lme. Si bien tengo la mayor parte del libro y los artículos de Kruschke-Gelman-Wagenmakers-etc en mi escritorio, estos no me dicen cómo resumir los resultados para una audiencia médica, divididos entre la ira de Skylla de Bayesian y el Caribdis de los revisores médicos ( "Queremos significados, no esas cosas difusas").

Un ejemplo: la frecuencia gástrica (1 / min) se mide en tres grupos; Los controles saludables son la referencia. Hay varias medidas para cada participante, por lo que, a la frecuencia, utilicé el siguiente modelo mixto lme:

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

Resultados ligeramente editados:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

Para simplificar, usaré el error estándar 2 * como IC del 95%.

En contexto frecuentista, habría resumido esto como:

  • En el grupo de control, la frecuencia estimada fue de 2.7 / min (quizás agregue IC aquí, pero a veces evito esto debido a la confusión creada por el IC absoluto y el diferencial).
  • En el grupo sin síntomas, la frecuencia fue mayor en 0.4 / min, IC (0.11 a 0.59) / min, p = 0.006 que el control.
  • En el grupo with_symptoms, la frecuencia fue mayor en 0.2 / min, IC (-0.04 a 0.4) / min, p = 0.11 que el control.

Se trata de la complejidad máxima aceptable para una publicación médica, el revisor probablemente me pedirá que agregue "no significativo" en el segundo caso.

Aquí es lo mismo con los anteriores stan_lmery los predeterminados.

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

donde CredI tiene intervalos creíbles del 90% (vea la viñeta rstanarm por qué el 90% se usa por defecto).

Preguntas:

  • ¿Cómo traducir el resumen anterior al mundo bayesiano?
  • ¿En qué medida se requiere una discusión previa? Estoy bastante seguro de que el documento volverá con la "suposición subjetiva" habitual cuando menciono los anteriores; o al menos con "sin discusión técnica, por favor". Pero todas las autoridades bayesianas solicitan que la interpretación solo sea válida en el contexto de los antecedentes.
  • ¿Cómo puedo entregar algún sustituto de "importancia" en la formulación, sin traicionar los conceptos bayesianos? Algo como "creíblemente diferente" (uuuh ...) o casi creíblemente diferente (buoha ..., suena como "al borde de la significación).

Jonah Gabry y Ben Goodrich (2016). rstanarm: modelado de regresión aplicada bayesiano a través de Stan. Paquete R versión 2.9.0-3. https://CRAN.R-project.org/package=rstanarm

Equipo de desarrollo de Stan (2015). Stan: una biblioteca de C ++ para probabilidad y muestreo, versión 2.8.0. URL http://mc-stan.org/ .

Paul-Christian Buerkner (2016). brms: modelos de regresión bayesiana con Stan. Paquete R versión 0.8.0. https://CRAN.R-project.org/package=brms

Pinheiro J, Bates D, DebRoy S, Sarkar D y R Core Team (2016). nlme: Modelos de efectos mixtos lineales y no lineales . Paquete R versión 3.1-124, http://CRAN.R-project.org/package=nlme>.

Dieter Menne
fuente
1
No tengo experiencia con revisores / editores de revistas médicas, pero tal vez podría intentar decir que existe una probabilidad cero de que la intercepción sea negativa, probabilidad cero de que el coeficiente de la variable ficticia "sin síntomas" sea negativo y una probabilidad de alrededor del 5% que el coeficiente de la variable ficticia "con síntomas" es negativo. Puede cuantificar aproximadamente un 5% más precisamente haciendo mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0).
Ben Goodrich
Pensamos en eso, y el 5% sonaba bien; los investigadores lo traducirán a "significancia", pero como normalmente malinterpretan la significación, estarán en lo correcto por doble negación. "Cero probabilidad", por otro lado, es un asesino: ¿aceptarías eso? ¿Quizás <1 / Reff (p <0.001) sería una aproximación? Pero de nuevo: cuando escribo p <xxx, estoy en el mundo de la significación.
Dieter Menne
Corregir Reff a n_eff arriba.
Dieter Menne
1
Personalmente, no me referiría a una probabilidad de cola como si tuviera "menos de 1 en n_eff chance" porque n_eff se refiere a la precisión con la que se estima la media. Tal vez podría ejecutar sus cadenas el tiempo suficiente para obtener 1 extracción negativa para el coeficiente group_nosymptomsy luego decir que la probabilidad de que sea negativa es 1 / draws. Pero para la intercepción, la cadena nunca va a vagar en territorio negativo para estos datos, por lo que supongo que se podría decir que la probabilidad es menor que 1 / draws.
Ben Goodrich
Obtuve algunos buenos consejos sobre la inclusión de valores p para un experto en dominios pero no para un experto en estadística aquí: stats.stackexchange.com/questions/148649/… . Utilizamos p <mínimo (n_eff de todos los parámetros) como un límite superior conservador cuando p = 0.
stijn

Respuestas:

16

Pensamientos rápidos:

1) La cuestión clave es qué pregunta aplicada está tratando de responder para su audiencia, porque eso determina qué información desea de su análisis estadístico. En este caso, me parece que desea estimar la magnitud de las diferencias entre los grupos (o tal vez la magnitud de las proporciones de los grupos si esa es la medida más familiar para su audiencia). La magnitud de las diferencias no es proporcionada directamente por los análisis que presentó en la pregunta. Pero es sencillo obtener lo que desea del análisis bayesiano: desea la distribución posterior de las diferencias (o proporciones). Luego, desde la distribución posterior de las diferencias (o razones), puede hacer una declaración de probabilidad directa como esta:

"Las diferencias más creíbles del 95% caen entre [límite bajo del 95% de HDI] y [límite alto del 95% de HDI]" (aquí estoy usando el intervalo de densidad más alta del 95% [HDI] como el intervalo creíble, y porque esos son por definición de los valores de los parámetros de densidad más alta que se pasan por alto como "más creíbles"

Una audiencia de una revista médica entendería esa afirmación de manera intuitiva y correcta, porque es lo que la audiencia generalmente piensa que es el significado de un intervalo de confianza frecuente (aunque eso no sea el significado de un intervalo de confianza frecuente).

¿Cómo se obtienen las diferencias (o proporciones) de Stan o JAGS? Simplemente por procesamiento posterior de la cadena MCMC completa. En cada paso de la cadena, calcule las diferencias (o proporciones) relevantes, luego examine la distribución posterior de las diferencias (o proporciones). Se dan ejemplos en DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ para MCMC generalmente en la Figura 7.9 (p. 177), para JAGS en la Figura 8.6 (p. 211), y para Stan en la Sección 16.3 (p 468), etc.

2) Si la tradición le obliga a hacer una declaración sobre si se rechaza o no una diferencia de cero, tiene dos opciones bayesianas.

2A) Una opción es hacer declaraciones de probabilidad con respecto a intervalos cercanos a cero y su relación con el IDH. Para esto, configura una región de equivalencia práctica (ROPE) alrededor de cero, que es simplemente un umbral de decisión apropiado para su dominio aplicado. ¿Qué tan grande es la diferencia trivialmente pequeña? Establecer tales límites se realiza de manera rutinaria en las pruebas clínicas de no inferioridad, por ejemplo. Si tiene una medida de 'tamaño de efecto' en su campo, puede haber convenciones para el tamaño de efecto 'pequeño', y los límites de la CUERDA podrían ser, digamos, la mitad de un efecto pequeño. Entonces puede hacer declaraciones de probabilidad directa como estas:

"Solo el 1.2% de la distribución posterior de las diferencias es prácticamente equivalente a cero"

y

"Las diferencias más creíbles del 95% no son prácticamente equivalentes a cero (es decir, el 95% del IDH y la CUERDA no se superponen) y, por lo tanto, rechazamos el cero". (observe la distinción entre la declaración de probabilidad de la distribución posterior, versus la decisión posterior basada en esa declaración)

También puede aceptar una diferencia de cero, a efectos prácticos, si los valores más creíbles del 95% son prácticamente equivalentes a cero.

2B) Una segunda opción bayesiana es la prueba de hipótesis nula bayesiana. (Tenga en cuenta que el método anterior no era¡llamado "prueba de hipótesis"!) La prueba de hipótesis nula bayesiana hace una comparación del modelo bayesiano de una distribución anterior que supone que la diferencia solo puede ser cero frente a una distribución previa alternativa que supone que la diferencia podría ser un rango difuso de posibilidades. El resultado de tal comparación de modelos (por lo general) depende en gran medida de la elección particular de la distribución alternativa, por lo que debe hacerse una justificación cuidadosa para la elección de la alternativa previa. Es mejor utilizar antecedentes al menos moderadamente informados tanto para el nulo como para el alternativo, de modo que la comparación del modelo sea realmente significativa. Tenga en cuenta que la comparación del modelo proporciona información diferente a la estimación de las diferencias entre los grupos porque la comparación del modelo aborda una pregunta diferente. Por lo tanto, incluso con una comparación de modelos,

Puede haber formas de hacer una prueba de hipótesis nula bayesiana a partir de la salida Stan / JAGS / MCMC, pero no lo sé en este caso. Por ejemplo, uno podría intentar una aproximación Savage-Dickey a un factor de Bayes, pero eso dependería de conocer la densidad previa de las diferencias, lo que requeriría un análisis matemático o alguna aproximación MCMC adicional de la anterior.

Los dos métodos para decidir sobre valores nulos se analizan en el cap. 12 de DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ . Pero realmente no quiero que esta discusión se desvíe por un debate sobre la forma "adecuada" de evaluar los valores nulos; son simplemente diferentes y proporcionan información diferente. El punto principal de mi respuesta es el punto 1, arriba: Mire la distribución posterior de las diferencias entre los grupos.

John K. Kruschke
fuente
3
¡Bienvenido a nuestro sitio! ¡Es genial que formes parte de nuestra comunidad!
Tim
Si desea fusionar su cuenta con esta estadística.stackexchange.com / users / 16592 (que también parece ser suya), puede hacerlo automáticamente a través de stats.stackexchange.com/contact .
ameba dice Reinstate Monica
Puede hacer la prueba de hipótesis descrita aquí usando brms. Ver: github.com/paul-buerkner/brms
bjw
3

Siguiendo la etiqueta SO, esto debería haberse escrito como un comentario a @ John K. Kruschke, pero los comentarios más largos son difíciles de estructurar. Lo siento.

  • @ John K. Kruschke escribe: Simplemente mediante el procesamiento posterior de la cadena MCMC completa ...

lower_CredIy upper_CredIen la publicación original se calcularon como mencionó de las cadenas MCMC completas y solo se formatearon ligeramente para una mejor comparación con la lmesalida. Si bien está a favor de HDI, estos son cuantiles simples; con el simétrico posterior en este ejemplo no hace una gran diferencia.

  • CUERDA y tamaño del efecto

He visto solicitudes para los comités de ética donde se calculó el poder estadístico sin indicar la suposición sobre el tamaño del efecto. Incluso para el caso en que no hay forma de definir un "efecto clínicamente relevante", es difícil explicar el concepto a los investigadores médicos. Es un poco más fácil para los ensayos de no inferioridad, pero estos no suelen ser objeto de un estudio.

Por lo tanto, estoy bastante seguro de que introducir ROPES no será aceptable: otro supuesto, la gente no puede tener en cuenta más de un número. Los factores de Bayes podrían funcionar, porque solo hay un número para llevar a casa como los valores p antes.

  • Priors

Me sorprende que ni John K. Kruschke ni Ben Goodrich del equipo de Stan mencionen a los anteriores; La mayoría de los trabajos sobre el tema solicitan una discusión detallada de la sensibilidad previa al presentar los resultados.

Sería bueno si en la próxima edición de su libro, con suerte con Stan, pudiera agregar cuadros "Cómo publicar esto (en un documento no estadístico) con 100 palabras" para ejemplos seleccionados. Cuando tomaría su capítulo 23.1 por palabra, un artículo de investigación médica típico tendría 100 páginas y cifras de largo ...

Dieter Menne
fuente
* El punto principal era observar la distribución posterior de las diferencias (entre grupos, entre combinaciones de grupos). Eso es lo que necesita el procesamiento posterior de la cadena MCMC.
John K. Kruschke
* CUERDA: Usted "está bastante seguro de que las CUERDAS no serán aceptables" y "es difícil explicar el concepto a los investigadores médicos". ¡Entonces no veo cómo los factores de Bayes serán más fáciles de explicar o aceptar, ya que un factor de Bayes requiere una explicación y justificación aún más elaborada de algún umbral de BF particular para la decisión! Me parece que has asumido que tu audiencia está permanentemente osificada en un marco frecuentista; si ese es el caso, solo use estadísticas de frecuencia o envíe su trabajo a un diario más ilustrado.
John K. Kruschke
* Exageras severamente sobre las recomendaciones del Capítulo 23.1, que de hecho pueden abordarse de manera concisa en una pequeña cantidad de texto, especialmente para modelos simples como los que usas aquí. Continúa en el siguiente comentario ...
John K. Kruschke
1
(i) Motive el uso de bayesiano: le brinda distribuciones posteriores muy informativas. (ii) Explique el modelo y sus parámetros, lo cual es fácil en este caso. (iii) Justifique lo anterior - nuevamente trivial en este caso solo para decir que utilizó antecedentes difusos que esencialmente no tienen impacto en el posterior. (Pero NO si usa factores de Bayes, para los cuales lo anterior es crucial.) (Iv) Informe la suavidad de la cadena MCMC, trivial para decir que ESS fue de aproximadamente 10,000 para todos los parámetros y diferencias. Continúa en el siguiente comentario ...
John K. Kruschke
1
(v) Interprete la parte posterior: simplemente indique la tendencia central (por ejemplo, el modo) de la parte posterior y su IDH del 95%, para cada diferencia de interés. No es tan corto como un tweet, pero es solo un par de párrafos.
John K. Kruschke