¿Cuál es la justificación bayesiana para privilegiar los análisis realizados antes que otros análisis?

26

Antecedentes y ejemplo empírico

Tengo dos estudios; Realicé un experimento (Estudio 1) y luego lo reproduje (Estudio 2). En el Estudio 1, encontré una interacción entre dos variables; En el Estudio 2, esta interacción fue en la misma dirección pero no significativa. Aquí está el resumen del modelo del Estudio 1:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 ** 

Y el modelo del Estudio 2:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545  

En lugar de decir: "Supongo que no tengo nada, porque 'no pude replicar'", lo que hice fue combinar los dos conjuntos de datos, crear una variable ficticia para el estudio del que provenían los datos y luego ejecutar la interacción nuevamente después de controlar para estudiar la variable ficticia. Esta interacción fue significativa incluso después de controlarla, y descubrí que esta interacción bidireccional entre condición y disgusto / prej no estaba calificada por una interacción tripartita con la variable ficticia del estudio.

Introducción al análisis bayesiano

Alguien me sugirió que esta es una gran oportunidad para usar el análisis bayesiano: ¡en el Estudio 2, tengo información del Estudio 1 que puedo usar como información previa! De esta manera, el Estudio 2 está haciendo una actualización bayesiana de los resultados de mínimos cuadrados ordinarios frecuentas en el Estudio 1. Entonces, vuelvo y vuelvo a analizar el modelo del Estudio 2, ahora usando anteriores informativos sobre los coeficientes: Todos los coeficientes tenían un normal antes donde la media era la estimación en el Estudio 1 y la desviación estándar era el error estándar en el Estudio 1.

Este es un resumen del resultado:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

Parece que ahora tenemos evidencia bastante sólida de una interacción del análisis del Estudio 2. Esto concuerda con lo que hice cuando simplemente apilé los datos uno encima del otro y ejecuté el modelo con el número de estudio como una variable ficticia.

Contrafactual: ¿Qué sucede si primero ejecuté el Estudio 2?

Eso me hizo pensar: ¿Qué pasaría si primero hubiera ejecutado el Estudio 2 y luego hubiera usado los datos del Estudio 1 para actualizar mis creencias sobre el Estudio 2? Hice lo mismo que antes, pero a la inversa: volví a analizar los datos del Estudio 1 utilizando las estimaciones de coeficientes de mínimos cuadrados ordinarios y frecuentes y las desviaciones estándar del Estudio 2 como medios anteriores y desviaciones estándar para mi análisis de los datos del Estudio 1. Los resultados resumidos fueron:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

Nuevamente, vemos evidencia de una interacción, sin embargo, esto podría no haber sido necesariamente el caso. Tenga en cuenta que la estimación puntual para ambos análisis bayesianos ni siquiera está en los intervalos creíbles del 95% el uno para el otro; Los dos intervalos creíbles de los análisis bayesianos tienen más no superposición que superposición.

¿Cuál es la justificación bayesiana para la precedencia temporal?

Mi pregunta es así: ¿cuáles son las justificaciones que tienen los bayesianos para respetar la cronología de cómo se recopilaron y analizaron los datos? Obtengo resultados del Estudio 1 y los uso como anteriores informativos en el Estudio 2, de modo que uso el Estudio 2 para "actualizar" mis creencias. Pero si suponemos que los resultados que obtengo se toman aleatoriamente de una distribución con un verdadero efecto de población ... ¿entonces por qué privilegio los resultados del Estudio 1? ¿Cuál es la justificación para usar los resultados del Estudio 1 como anteriores para el Estudio 2 en lugar de tomar los resultados del Estudio 2 como anteriores para el Estudio 1? ¿Importa realmente el orden en que recolecté y calculé los análisis? No me parece que deba hacerlo, ¿cuál es la justificación bayesiana para esto? ¿Por qué debería creer que la estimación puntual está más cerca de .34 que de .17 solo porque ejecuté el Estudio 1 primero?


Respondiendo a la respuesta de Kodiologist

Kodiologist comentó:

El segundo de estos puntos es una partida importante que ha hecho de la convención bayesiana. No estableciste un previo primero y luego te quedaste con los dos modelos a la moda bayesiana. Se ajusta a un modelo de una manera no bayesiana y luego se usa para los anteriores para el otro modelo. Si utilizara el enfoque convencional, no vería la dependencia del orden que vio aquí.

norte(0 0,5 5)condprej

Las estimaciones medias y la desviación estándar de esas estimaciones son casi las mismas que en la regresión OLS. Estudio 1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

Y estudio 2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

Dado que estas medias y desviaciones estándar son más o menos las mismas que las estimaciones de MCO, el efecto de orden anterior todavía ocurre. Si conecto las estadísticas de resumen posteriores del Estudio 1 en las anteriores cuando analizo el Estudio 2, observo un final posterior diferente que cuando analizo primero el Estudio 2 y luego uso esas estadísticas de resumen posteriores como anteriores para analizar el Estudio 1.

Incluso cuando uso las medias bayesianas y las desviaciones estándar para los coeficientes de regresión como anteriores en lugar de las estimaciones frecuentistas, todavía observaría el mismo efecto de orden. Entonces queda la pregunta: ¿cuál es la justificación bayesiana para privilegiar el estudio que vino primero?

Mark White
fuente
2
"Todavía estaría en la misma situación. Entonces la pregunta sigue siendo: ¿Cuál es la justificación bayesiana para privilegiar el estudio que vino primero?" - ¿eh? ¿En qué sentido sigues privilegiando el Estudio 1? Puede ajustar los dos modelos como lo describió aquí o en el orden opuesto y su estimación final de, por ejemplo, el coeficiente de población real para prejdebe ser el mismo de cualquier manera, a menos que esté malinterpretando su procedimiento.
Kodiólogo
@Kodiologist que edité para mayor claridad, incluyendo más sobre el procedimiento.
Mark White
1
¿Qué pasa con la matriz de covarianza y el error? Tienes que usar toda la articulación posterior como tu nuevo prior.
Scortchi - Restablece a Monica
@Scortchi bingo: esa es la respuesta correcta, creo, y fue lo que la respuesta de unutbu me hizo creer. Lo que hice fue una versión realmente cruda de la actualización: tomé estadísticas resumidas, no toda la articulación posterior. Eso implica la pregunta: ¿hay alguna manera de incluir toda la articulación posterior como un previo en rstanarmStan? Parece que esa pregunta ya se ha hecho aquí antes: stats.stackexchange.com/questions/241690/…
Mark White
1
Si está comenzando con anteriores gaussianos (¿e independencia?) Para los coeficientes y un gamma inverso para la varianza, entonces tiene un previo gamma inverso normal y es conjugado. Busque las ecuaciones de actualización.
Scortchi - Restablece a Monica

Respuestas:

22

El teorema de Bayes dice que posteriores igual a prior * likelihooddespués de reescalar (por lo que la probabilidad es 1). Cada observación tiene una likelihoodque se puede utilizar para actualizar priory crear una nueva posterior:

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

Así que eso

posterior_n = prior * likelihood_1 * ... * likelihood_n

La conmutatividad de la multiplicación implica que las actualizaciones se pueden realizar en cualquier orden . Entonces, si comienza con un solo previo, puede mezclar las observaciones del Estudio 1 y el Estudio 2 en cualquier orden, aplicar la fórmula de Bayes y llegar a la misma final posterior.

unutbu
fuente
1
Tiene mucho sentido. Entonces, esto apunta a una posible razón de la discrepancia: la forma en que hice mis análisis (conecte estadísticas de resumen posteriores a los argumentos anteriores para el próximo estudio) no es cómo funciona la actualización. Es decir: necesito considerar la totalidad de la parte posterior, no solo conectar las estadísticas de resumen a las anteriores de los análisis posteriores. ¿Correcto?
Mark White
44
@MarkWhite Correcto. Las distribuciones posteriores de su primer análisis deben ser sus antecedentes para el segundo.
Kodiólogo
44
@Kodiologist y resumen de estadísticas sobre el posterior! = El posterior
Mark White
@MarkWhite Derecha.
Kodiólogo
22

Primero debo señalar que:

  1. pags
  2. Estás poniendo mucha fe en los resultados del Estudio 1 al traducir tus hallazgos de esa muestra directamente a los anteriores. Recuerde, un prior no es solo un reflejo de hallazgos pasados. Necesita codificar la totalidad de sus creencias preexistentes, incluidas sus creencias antes de los hallazgos anteriores. Si admite que el Estudio 1 involucró un error de muestreo, así como otros tipos de incertidumbre menos tratable, como la incertidumbre del modelo, debería utilizar un método previo más conservador.

El segundo de estos puntos es una partida importante que ha hecho de la convención bayesiana. No estableciste un previo primero y luego te quedaste con los dos modelos a la moda bayesiana. Se ajusta a un modelo de una manera no bayesiana y luego se usa para los anteriores para el otro modelo. Si utilizara el enfoque convencional, no vería la dependencia del orden que vio aquí.

Kodiologist
fuente
1. ¿Cómo seguí un resultado negativo con un modelo diferente? ¿Qué quieres decir con "resultado negativo"? En cuanto a la tasa de error Tipo I en todo el estudio, estos son dos estudios separados realizados con semanas de diferencia entre sí. De cualquier manera, creo en hacer análisis de datos exploratorios, por lo que nunca creo que los valores p en la práctica sean "correctos" o que debamos esperar que sean "totalmente correctos". Si las personas solo hicieran las pruebas que pensaban de antemano, nos perderíamos muchos hallazgos excelentes que ocurrieron por accidente, y estaríamos desperdiciando toneladas de datos.
Mark White el
2
pags
1
2. Sí, pero terminarías con diferentes antecedentes para el Estudio 2, lo que no terminó con tanta credibilidad en la idea de que el Estudio 1 era exacto.
Kodiólogo
1
1. El problema no es que haya recopilado más datos y los haya analizado, sino que haya vuelto a analizar los datos de ambos estudios (con un modelo unificado con un nuevo predictor) porque obtuvo resultados negativos la primera vez que analizó el segundo conjunto de datos. Nunca he visto razones para creer que la prueba de significación sea realmente útil, pero la mayoría de los que creen que parece creer que todos los teoremas sobre la prueba de significación son los que respaldan su utilidad, y los teoremas, como todos los teoremas, requieren ciertas premisas para sacar sus conclusiones.
Kodiólogo
1
@Kodiologist: si no cree que las pruebas de significación sean útiles, ¿sobre qué base sospecha (por ejemplo) del investigador que concluye que la mayoría de las personas probablemente tienen ojos azules porque todos en su muestra de dos lo hicieron?
Obie 2.0
4

Pensé que podría hacer una serie de gráficos con un problema diferente, pero estilizado, para mostrarle por qué puede ser peligroso pasar de los métodos Frecuentistas a Bayesianos y por qué el uso de estadísticas resumidas puede crear problemas.

En lugar de usar su ejemplo, que es multidimensional, voy a reducirlo a una dimensión con dos estudios cuyo tamaño es de tres observaciones y tres observaciones.

1π11+(X-θ)2.
Esta es la distribución de Cauchy con mediana desconocida, pero con un parámetro de escala de uno. En forma truncada, es visto como el caso más común en el mercado de valores, y aparece en problemas de física con objetos rotativos como rocas rodando cuesta abajo o en el famoso "Problema del faro de la gaviota".

Lo estoy usando porque el teorema del límite central no se aplica, carece de estadísticas suficientes, las observaciones extremas son comunes, la desigualdad de Chebychev no se cumple y una gran cantidad de soluciones normalmente viables se desmorona. Lo estoy usando porque es un gran ejemplo sin tener que poner demasiado trabajo en el problema.

{-5 5,-1,4 4}{-1,5,-1,-.5}±669σ±3σ

Las densidades posteriores de los dos estudios separados son Traseras Bayesianas Separadas

Como es visualmente obvio, tomar estadísticas resumidas de la muestra uno podría ser increíblemente engañoso. Si está acostumbrado a ver densidades agradables, unimodales, bien definidas y con nombre, entonces eso puede salir rápidamente con las herramientas bayesianas. No hay una distribución con nombre como esta, pero ciertamente podría describirla con estadísticas de resumen si no la hubiera mirado visualmente. El uso de una estadística de resumen podría ser un problema si luego lo va a usar para construir un nuevo previo.

La distribución de confianza frecuente para ambas muestras es la misma. Como se conoce la escala, el único parámetro desconocido es la mediana. Para un tamaño de muestra de tres, la mediana es la MVUE. Mientras que la distribución de Cauchy no tiene media ni varianza, la distribución muestral de la mediana sí. Es menos eficiente que el estimador de máxima verosimilitud, pero no me cuesta ningún esfuerzo calcularlo. Para tamaños de muestra grandes, el método de Rothenberg es el MVUE y también hay soluciones de tamaño de muestra mediano.

Para la distribución Frequentist, obtienes Distribución de confianza frecuente.

Pr(XEl |θ)Pr(θEl |X)

X

La articulación posterior es el producto de ambas posteriores y, por asociatividad de multiplicación, no importa el orden que utilice. Visualmente, la articulación posterior es Juntas y posteriores separadas.

Es obvio que si impusiera una distribución simplificada en las posteriores y utilizara sus estadísticas de resumen, probablemente obtendría una respuesta diferente. De hecho, podría haber sido una respuesta muy diferente. Si se hubiera utilizado una región creíble al 70% para el estudio uno, habría resultado en una región creíble desconectada. La existencia de intervalos desconectados ocurre a veces en métodos bayesianos. El gráfico del intervalo de densidad más alto y el intervalo de densidad más bajo para el estudio uno esHDR versus LDR

Notará que el HDR está roto por una franja de una región que está fuera del conjunto creíble.

Si bien muchos de estos problemas comúnmente desaparecen en conjuntos grandes con regresión, permítanme darles un ejemplo de una diferencia natural en cómo los métodos Bayesiano y Frequentista manejarán las variables faltantes de manera diferente en la regresión.

Considere una regresión bien construida con una variable faltante, el clima. Supongamos que los clientes se comportan de manera diferente en días lluviosos y soleados. Si esa diferencia es suficiente, puede haber fácilmente dos modos bayesianos posteriores. Un modo refleja el comportamiento soleado, el otro la lluvia. No sabes por qué tienes dos modos. Podría ser una ejecución estadística o un punto de datos faltante, pero su muestra es inusual o su modelo tiene una variable omitida.

La solución Frequentist promediaría los dos estados y puede colocar la línea de regresión en una región donde no ocurre realmente el comportamiento del cliente, pero que promedia los dos tipos de comportamiento. También estará sesgado hacia abajo. Los problemas pueden quedar atrapados en el análisis de los residuos, particularmente si hay una gran diferencia en las variaciones verdaderas, pero puede que no. Puede ser una de esas imágenes extrañas de residuos que aparecerán en validación cruzada de vez en cuando.

El hecho de que tenga dos posteriores diferentes a partir de los mismos datos implica que no multiplicó los dos directamente. O creaste un posterior a partir de una solución Frequentista que no se mapeó uno a uno con el posterior Bayesiano, o creaste un previo a partir de las estadísticas de resumen y la función de probabilidad no era perfectamente simétrica, lo cual es común.

Dave Harris
fuente