Estaba leyendo este artículo sobre el factor Bayes para un problema completamente no relacionado cuando me topé con este pasaje.
La prueba de hipótesis con factores de Bayes es más sólida que la prueba de hipótesis frecuentista, ya que la forma bayesiana evita el sesgo de selección del modelo, evalúa la evidencia a favor de la hipótesis nula, incluye la incertidumbre del modelo y permite la comparación de modelos no anidados (aunque, por supuesto, el modelo debe tener la misma variable dependiente). Además, las pruebas de significación frecuentista se sesgan a favor de rechazar la hipótesis nula con un tamaño de muestra suficientemente grande. [énfasis añadido]
He visto esta afirmación antes en el artículo de 2012 de Karl Friston en NeuroImage , donde lo llama la falacia de la inferencia clásica .
He tenido algunos problemas para encontrar una explicación verdaderamente pedagógica de por qué esto debería ser cierto. Específicamente, me pregunto:
- por qué ocurre esto
- cómo protegerse contra eso
- en su defecto, cómo detectarlo
Respuestas:
Respuesta a la pregunta 2: dentro de un marco de prueba de hipótesis frecuentista, uno puede protegerse contra esto al no hacer inferencia únicamente sobre la detección de la diferencia . Por ejemplo, uno puede combinar inferencias sobre la diferencia y la equivalencia para no favorecer (¡o combinar!) La carga de la prueba sobre la evidencia del efecto versus la evidencia de la ausencia de efecto . La evidencia de ausencia de un efecto proviene, por ejemplo, de:
Lo que todos estos enfoques comparten es una decisión a priori sobre qué tamaño del efecto constituye una diferencia relevante y una hipótesis nula enmarcada en términos de una diferencia al menos tan grande como lo que se considera relevante.
Observe el cuadrante superior izquierdo: una prueba sobrecargada es aquella en la que sí rechaza la hipótesis nula de no diferencia, pero también rechaza la hipótesis nula de diferencia relevante, así que sí, hay una diferencia, pero a priori ha decidido que no le importa porque es muy pequeño
Respuesta a la pregunta 3: Ver la respuesta a 2.
fuente
Las pruebas frecuentes con muestras grandes NO exhiben un sesgo hacia el rechazo de la hipótesis nula si la hipótesis nula es verdadera. Si los supuestos de la prueba son válidos y la hipótesis nula es verdadera, entonces no hay más riesgo de que una muestra grande conduzca al rechazo de la hipótesis nula que una muestra pequeña. Si el nulo no es verdadero, seguramente nos complacería rechazarlo, por lo que el hecho de que una muestra grande rechace con mayor frecuencia un nulo falso que una muestra pequeña no es 'sesgo' sino un comportamiento apropiado.
El miedo a los "experimentos sobrepoblados" se basa en asumir que no es bueno rechazar la hipótesis nula cuando es casi cierto. Pero si solo es casi cierto, ¡en realidad es falso! Rechace, pero no deje de notar (e informe claramente) el tamaño del efecto observado. Puede ser trivialmente pequeño y, por lo tanto, no merece ser considerado seriamente, pero se debe tomar una decisión sobre ese tema después de considerar la información externa a la prueba de hipótesis.
fuente