Con Stan y los paquetes frontend rstanarm
o brms
puedo analizar fácilmente los datos al estilo bayesiano como lo hice antes con modelos mixtos como lme
. Si bien tengo la mayor parte del libro y los artículos de Kruschke-Gelman-Wagenmakers-etc en mi escritorio, estos no me dicen cómo resumir los resultados para una audiencia médica, divididos entre la ira de Skylla de Bayesian y el Caribdis de los revisores médicos ( "Queremos significados, no esas cosas difusas").
Un ejemplo: la frecuencia gástrica (1 / min) se mide en tres grupos; Los controles saludables son la referencia. Hay varias medidas para cada participante, por lo que, a la frecuencia, utilicé el siguiente modelo mixto lme
:
summary(lme(freq_min~ group, random = ~1|study_id, data = mo))
Resultados ligeramente editados:
Fixed effects: freq_min ~ group
Value Std.Error DF t-value p-value
(Intercept) 2.712 0.0804 70 33.7 0.0000
groupno_symptoms 0.353 0.1180 27 3.0 0.0058
groupwith_symptoms 0.195 0.1174 27 1.7 0.1086
Para simplificar, usaré el error estándar 2 * como IC del 95%.
En contexto frecuentista, habría resumido esto como:
- En el grupo de control, la frecuencia estimada fue de 2.7 / min (quizás agregue IC aquí, pero a veces evito esto debido a la confusión creada por el IC absoluto y el diferencial).
- En el grupo sin síntomas, la frecuencia fue mayor en 0.4 / min, IC (0.11 a 0.59) / min, p = 0.006 que el control.
- En el grupo with_symptoms, la frecuencia fue mayor en 0.2 / min, IC (-0.04 a 0.4) / min, p = 0.11 que el control.
Se trata de la complejidad máxima aceptable para una publicación médica, el revisor probablemente me pedirá que agregue "no significativo" en el segundo caso.
Aquí es lo mismo con los anteriores stan_lmer
y los predeterminados.
freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)
contrast lower_CredI frequency upper_CredI
(Intercept) 2.58322 2.714 2.846
groupno_symptoms 0.15579 0.346 0.535
groupwith_symptoms -0.00382 0.188 0.384
donde CredI tiene intervalos creíbles del 90% (vea la viñeta rstanarm por qué el 90% se usa por defecto).
Preguntas:
- ¿Cómo traducir el resumen anterior al mundo bayesiano?
- ¿En qué medida se requiere una discusión previa? Estoy bastante seguro de que el documento volverá con la "suposición subjetiva" habitual cuando menciono los anteriores; o al menos con "sin discusión técnica, por favor". Pero todas las autoridades bayesianas solicitan que la interpretación solo sea válida en el contexto de los antecedentes.
- ¿Cómo puedo entregar algún sustituto de "importancia" en la formulación, sin traicionar los conceptos bayesianos? Algo como "creíblemente diferente" (uuuh ...) o casi creíblemente diferente (buoha ..., suena como "al borde de la significación).
Jonah Gabry y Ben Goodrich (2016). rstanarm: modelado de regresión aplicada bayesiano a través de Stan. Paquete R versión 2.9.0-3. https://CRAN.R-project.org/package=rstanarm
Equipo de desarrollo de Stan (2015). Stan: una biblioteca de C ++ para probabilidad y muestreo, versión 2.8.0. URL http://mc-stan.org/ .
Paul-Christian Buerkner (2016). brms: modelos de regresión bayesiana con Stan. Paquete R versión 0.8.0. https://CRAN.R-project.org/package=brms
Pinheiro J, Bates D, DebRoy S, Sarkar D y R Core Team (2016). nlme: Modelos de efectos mixtos lineales y no lineales . Paquete R versión 3.1-124, http://CRAN.R-project.org/package=nlme>.
fuente
mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0)
.group_nosymptoms
y luego decir que la probabilidad de que sea negativa es1 / draws
. Pero para la intercepción, la cadena nunca va a vagar en territorio negativo para estos datos, por lo que supongo que se podría decir que la probabilidad es menor que1 / draws
.Respuestas:
Pensamientos rápidos:
1) La cuestión clave es qué pregunta aplicada está tratando de responder para su audiencia, porque eso determina qué información desea de su análisis estadístico. En este caso, me parece que desea estimar la magnitud de las diferencias entre los grupos (o tal vez la magnitud de las proporciones de los grupos si esa es la medida más familiar para su audiencia). La magnitud de las diferencias no es proporcionada directamente por los análisis que presentó en la pregunta. Pero es sencillo obtener lo que desea del análisis bayesiano: desea la distribución posterior de las diferencias (o proporciones). Luego, desde la distribución posterior de las diferencias (o razones), puede hacer una declaración de probabilidad directa como esta:
"Las diferencias más creíbles del 95% caen entre [límite bajo del 95% de HDI] y [límite alto del 95% de HDI]" (aquí estoy usando el intervalo de densidad más alta del 95% [HDI] como el intervalo creíble, y porque esos son por definición de los valores de los parámetros de densidad más alta que se pasan por alto como "más creíbles"
Una audiencia de una revista médica entendería esa afirmación de manera intuitiva y correcta, porque es lo que la audiencia generalmente piensa que es el significado de un intervalo de confianza frecuente (aunque eso no sea el significado de un intervalo de confianza frecuente).
¿Cómo se obtienen las diferencias (o proporciones) de Stan o JAGS? Simplemente por procesamiento posterior de la cadena MCMC completa. En cada paso de la cadena, calcule las diferencias (o proporciones) relevantes, luego examine la distribución posterior de las diferencias (o proporciones). Se dan ejemplos en DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ para MCMC generalmente en la Figura 7.9 (p. 177), para JAGS en la Figura 8.6 (p. 211), y para Stan en la Sección 16.3 (p 468), etc.
2) Si la tradición le obliga a hacer una declaración sobre si se rechaza o no una diferencia de cero, tiene dos opciones bayesianas.
2A) Una opción es hacer declaraciones de probabilidad con respecto a intervalos cercanos a cero y su relación con el IDH. Para esto, configura una región de equivalencia práctica (ROPE) alrededor de cero, que es simplemente un umbral de decisión apropiado para su dominio aplicado. ¿Qué tan grande es la diferencia trivialmente pequeña? Establecer tales límites se realiza de manera rutinaria en las pruebas clínicas de no inferioridad, por ejemplo. Si tiene una medida de 'tamaño de efecto' en su campo, puede haber convenciones para el tamaño de efecto 'pequeño', y los límites de la CUERDA podrían ser, digamos, la mitad de un efecto pequeño. Entonces puede hacer declaraciones de probabilidad directa como estas:
"Solo el 1.2% de la distribución posterior de las diferencias es prácticamente equivalente a cero"
y
"Las diferencias más creíbles del 95% no son prácticamente equivalentes a cero (es decir, el 95% del IDH y la CUERDA no se superponen) y, por lo tanto, rechazamos el cero". (observe la distinción entre la declaración de probabilidad de la distribución posterior, versus la decisión posterior basada en esa declaración)
También puede aceptar una diferencia de cero, a efectos prácticos, si los valores más creíbles del 95% son prácticamente equivalentes a cero.
2B) Una segunda opción bayesiana es la prueba de hipótesis nula bayesiana. (Tenga en cuenta que el método anterior no era¡llamado "prueba de hipótesis"!) La prueba de hipótesis nula bayesiana hace una comparación del modelo bayesiano de una distribución anterior que supone que la diferencia solo puede ser cero frente a una distribución previa alternativa que supone que la diferencia podría ser un rango difuso de posibilidades. El resultado de tal comparación de modelos (por lo general) depende en gran medida de la elección particular de la distribución alternativa, por lo que debe hacerse una justificación cuidadosa para la elección de la alternativa previa. Es mejor utilizar antecedentes al menos moderadamente informados tanto para el nulo como para el alternativo, de modo que la comparación del modelo sea realmente significativa. Tenga en cuenta que la comparación del modelo proporciona información diferente a la estimación de las diferencias entre los grupos porque la comparación del modelo aborda una pregunta diferente. Por lo tanto, incluso con una comparación de modelos,
Puede haber formas de hacer una prueba de hipótesis nula bayesiana a partir de la salida Stan / JAGS / MCMC, pero no lo sé en este caso. Por ejemplo, uno podría intentar una aproximación Savage-Dickey a un factor de Bayes, pero eso dependería de conocer la densidad previa de las diferencias, lo que requeriría un análisis matemático o alguna aproximación MCMC adicional de la anterior.
Los dos métodos para decidir sobre valores nulos se analizan en el cap. 12 de DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ . Pero realmente no quiero que esta discusión se desvíe por un debate sobre la forma "adecuada" de evaluar los valores nulos; son simplemente diferentes y proporcionan información diferente. El punto principal de mi respuesta es el punto 1, arriba: Mire la distribución posterior de las diferencias entre los grupos.
fuente
Siguiendo la etiqueta SO, esto debería haberse escrito como un comentario a @ John K. Kruschke, pero los comentarios más largos son difíciles de estructurar. Lo siento.
lower_CredI
yupper_CredI
en la publicación original se calcularon como mencionó de las cadenas MCMC completas y solo se formatearon ligeramente para una mejor comparación con lalme
salida. Si bien está a favor de HDI, estos son cuantiles simples; con el simétrico posterior en este ejemplo no hace una gran diferencia.He visto solicitudes para los comités de ética donde se calculó el poder estadístico sin indicar la suposición sobre el tamaño del efecto. Incluso para el caso en que no hay forma de definir un "efecto clínicamente relevante", es difícil explicar el concepto a los investigadores médicos. Es un poco más fácil para los ensayos de no inferioridad, pero estos no suelen ser objeto de un estudio.
Por lo tanto, estoy bastante seguro de que introducir ROPES no será aceptable: otro supuesto, la gente no puede tener en cuenta más de un número. Los factores de Bayes podrían funcionar, porque solo hay un número para llevar a casa como los valores p antes.
Me sorprende que ni John K. Kruschke ni Ben Goodrich del equipo de Stan mencionen a los anteriores; La mayoría de los trabajos sobre el tema solicitan una discusión detallada de la sensibilidad previa al presentar los resultados.
Sería bueno si en la próxima edición de su libro, con suerte con Stan, pudiera agregar cuadros "Cómo publicar esto (en un documento no estadístico) con 100 palabras" para ejemplos seleccionados. Cuando tomaría su capítulo 23.1 por palabra, un artículo de investigación médica típico tendría 100 páginas y cifras de largo ...
fuente