¿Las razones de probabilidad y la comparación del modelo bayesiano proporcionan alternativas superiores y suficientes para las pruebas de hipótesis nulas?

En respuesta a un creciente cuerpo de estadísticos e investigadores que critican la utilidad de las pruebas de hipótesis nulas (NHT) para la ciencia como un esfuerzo acumulativo, la Fuerza de Tarea de la Asociación Americana de Psicología sobre Inferencia Estadística evitó una prohibición total de NHT, pero en cambio sugirió que los investigadores informa los tamaños del efecto además de los valores p derivados de NHT.

Sin embargo, los tamaños del efecto no se acumulan fácilmente entre los estudios. Los enfoques metaanalíticos pueden acumular distribuciones de los tamaños de los efectos, pero los tamaños de los efectos se calculan típicamente como una relación entre la magnitud del efecto bruto y el "ruido" inexplicable en los datos de un experimento dado, lo que significa que la distribución de los tamaños de los efectos no solo se ve afectada por variabilidad en la magnitud bruta del efecto entre los estudios, pero también variabilidad en la manifestación del ruido entre los estudios.

Por el contrario, una medida alternativa de la fuerza del efecto, las razones de probabilidad, permiten la interpretación intuitiva estudio por estudio y se pueden agregar fácilmente entre los estudios para el metanálisis. Dentro de cada estudio, la probabilidad representa el peso de la evidencia para un modelo que contiene un efecto dado en relación con un modelo que no contiene el efecto y, por lo general, podría informarse como, por ejemplo, "Cálculo de una razón de probabilidad para el efecto de X reveló 8 veces más evidencia del efecto que su nulo respectivo ". Además, la razón de probabilidad también permite una representación intuitiva de la fuerza de los hallazgos nulos en la medida en que las razones de probabilidad por debajo de 1 representan escenarios en los que se favorece el nulo y tomar el recíproco de este valor representa el peso de la evidencia del nulo sobre el efecto. Notablemente, la razón de verosimilitud se representa matemáticamente como la razón de las variaciones inexplicables de los dos modelos, que difieren solo en la variación explicada por el efecto y, por lo tanto, no es una gran desviación conceptual del tamaño del efecto. Por otro lado, el cálculo de una razón de probabilidad metaanalítica, que representa el peso de la evidencia de un efecto entre los estudios, es simplemente una cuestión de tomar el producto de las razones de probabilidad entre los estudios.

Por lo tanto, sostengo que para la ciencia que busca establecer el grado de evidencia bruta a favor de un efecto / modelo, las razones de probabilidad son el camino a seguir.

Hay casos más matizados en los que los modelos son diferenciables solo en el tamaño específico de un efecto, en cuyo caso podría preferirse algún tipo de representación del intervalo sobre el cual creemos que los datos son consistentes con los valores de los parámetros del efecto. De hecho, el grupo de trabajo de la APA también recomienda informar los intervalos de confianza, que pueden usarse para este fin, pero sospecho que este también es un enfoque mal considerado.

Lamentablemente, los intervalos de confianza a menudo se malinterpretan (tanto por estudiantes como por investigadores ). También temo que su capacidad de uso en NHT (mediante la evaluación de la inclusión de cero dentro del IC) solo sirva para retrasar aún más la extinción de NHT como una práctica inferencial.

En cambio, cuando las teorías son diferenciables solo por el tamaño de los efectos, sugiero que el enfoque bayesiano sería más apropiado, donde la distribución previa de cada efecto se define por cada modelo por separado, y se comparan las distribuciones posteriores resultantes.

¿Parece suficiente este enfoque, que reemplaza los valores p, los tamaños del efecto y los intervalos de confianza con razones de probabilidad y, si es necesario, la comparación del modelo bayesiano? ¿Se pierde alguna característica inferencial necesaria que proporcionan las alternativas difamadas aquí?

bayesian confidence-interval effect-size inference Mike Lawrence
fuente

¿Podría ser una pregunta más centrada? ¿Quizás uno sobre enfoques orientados a la probabilidad de un problema de inferencia específico?

conjugateprior

Pero mientras estamos aquí: en exposición: ¿ha confundido las medidas del tamaño del efecto, generalmente identificado con un parámetro, para las medidas de evidencia comparativa para un modelo completo? Los LR solo parecen candidatos para este último. Además, si desea que las funciones de verosimilitud solo o en combinación le digan todo lo que los datos intentan decirle sobre un modelo, entonces es básicamente un Bayesiano. Porque ese es el principio de probabilidad. (Entra, el agua es encantadora :-)

conjugateprior

Su título y su párrafo final parecen estar en desacuerdo sobre si está sugiriendo usar intervalos de confianza o reemplazarlos.

parada el

@onestop: de hecho, me acabo de dar cuenta de que olvidé cambiar el título; Cambié de opinión con respecto a los intervalos de confianza al escribir la pregunta. He editado el título ahora. Disculpas por la confusión.

Mike Lawrence

@Conjugate Prior: completamente de acuerdo con tus dos primeras oraciones. Pero puede aceptar el principio de probabilidad sin ser bayesiano si no le gusta la idea de los antecedentes y la inferencia de base solo en las probabilidades: vea los libros de Edwards books.google.com/books?id=2a_XZ-gvct4C y Royall books.google. .com / books? id = oysWLTFaI_gC . Aunque alguien (y desearía recordar quién y dónde) alguna vez comparó esto con romper huevos pero no comer la tortilla.

parada el

Las principales ventajas de un enfoque bayesiano, al menos para mí como investigador en psicología son:

1) le permite acumular evidencia a favor de la nula

2) evita los problemas teóricos y prácticos de las pruebas secuenciales

3) no es vulnerable a rechazar un valor nulo solo por una gran N (ver punto anterior)

4) es más adecuado cuando se trabaja con efectos pequeños (con efectos grandes, tanto los métodos Bayesianos como los Frecuentes tienden a coincidir casi todo el tiempo)

5) permite hacer modelos jerárquicos de manera factible. Por ejemplo, la introducción de efectos de elementos y participantes en algunas clases de modelos, como los modelos de árbol de procesamiento multinomial, debería realizarse en un marco bayesiano; de lo contrario, el tiempo de cálculo sería increíblemente largo.

6) te da intervalos de confianza "reales"

7) Requiere 3 cosas: la probabilidad, los antecedentes y la probabilidad de los datos. el primero que obtiene de sus datos, el segundo que inventa y el tercero que no necesita en absoluto la proporcionalidad dada. Ok, tal vez exagero un poco ;-)

En general, uno puede invertir su pregunta: ¿significa todo esto que las estadísticas clásicas frecuentistas no son suficientes? Creo que decir "no" es un veredicto demasiado duro. La mayoría de los problemas se pueden evitar de alguna manera si se va más allá de los valores p y se analizan cosas como el tamaño de los efectos, la posibilidad de efectos de ítems y se repiten los hallazgos de manera consistente (¡se publican demasiados trabajos de un solo experimento!

Pero no todo es tan fácil con Bayes. Tomemos, por ejemplo, la selección de modelos con modelos no anidados. En estos casos, los antecedentes son extremadamente importantes, ya que afectan en gran medida los resultados, y a veces no tienes tanto conocimiento sobre la mayoría de los modelos con los que quieres trabajar para que tus antecedentes sean correctos. Además, toma mucho tiempo ...

Dejo dos referencias para cualquiera que esté interesado en sumergirse en Bayes.

"Un curso de modelado gráfico bayesiano para la ciencia cognitiva" por Lee y Wagenmakers

"Modelado bayesiano usando WinBUGS" por Ntzoufras

Dave Kellen
fuente

¿Las razones de probabilidad y la comparación del modelo bayesiano proporcionan alternativas superiores y suficientes para las pruebas de hipótesis nulas?

Respuestas: