¿Por qué la prueba de hipótesis frecuentista se sesga hacia el rechazo de la hipótesis nula con muestras suficientemente grandes?

46

Estaba leyendo este artículo sobre el factor Bayes para un problema completamente no relacionado cuando me topé con este pasaje.

La prueba de hipótesis con factores de Bayes es más sólida que la prueba de hipótesis frecuentista, ya que la forma bayesiana evita el sesgo de selección del modelo, evalúa la evidencia a favor de la hipótesis nula, incluye la incertidumbre del modelo y permite la comparación de modelos no anidados (aunque, por supuesto, el modelo debe tener la misma variable dependiente). Además, las pruebas de significación frecuentista se sesgan a favor de rechazar la hipótesis nula con un tamaño de muestra suficientemente grande. [énfasis añadido]

He visto esta afirmación antes en el artículo de 2012 de Karl Friston en NeuroImage , donde lo llama la falacia de la inferencia clásica .

He tenido algunos problemas para encontrar una explicación verdaderamente pedagógica de por qué esto debería ser cierto. Específicamente, me pregunto:

  1. por qué ocurre esto
  2. cómo protegerse contra eso
  3. en su defecto, cómo detectarlo
blz
fuente
77
Es algo discutible porque no es cierto cuando el nulo es literalmente, exactamente cierto, pero dado que rara vez es así (debido a todo tipo de complejidades como correlaciones espurias), probablemente sea cierto en la mayoría de las aplicaciones prácticas. Hipotéticamente hablando, uno podría detectar las correlaciones espurias más débiles (p. Ej., R = .001) debido a una cadena de mediadores de cientos de variables a pesar de un número similar de moderadores no controlados si la muestra fuera lo suficientemente colosal. Podría decirse que esa relación realmente existe, así que si eso es realmente "sesgo" todavía es algo discutible IMO ...
Nick Stauner
@NickStauner, ¡Ah, eso tiene mucho sentido! Gracias por la explicación intuitiva!
blz
3
Tal Yarkoni escribió una crítica muy esclarecedora del artículo de Friston: talyarkoni.org/blog/2012/04/25/…
jona
@jona, parece que me estoy encontrando con toda la multitud de Cogsci por aquí =) ¡Gracias por la referencia, esto realmente parece una buena lectura!
blz
8
Dadas las suposiciones, esa afirmación parece ser estrictamente falsa en su forma actual, pero está llegando a un problema real (que con muestras suficientemente grandes, un NHST se volverá casi seguro de rechazar un falso nulo, sin importar cuán pequeño sea el efecto) . Cuando las personas encuentran que un problema, generalmente indica que la prueba de hipótesis no es lo que necesitan. El mismo tema básico (aunque enmarcado en términos de IC en lugar de pruebas de hipótesis) se discute en esta respuesta
Glen_b

Respuestas:

44

pp

Respuesta a la pregunta 2: dentro de un marco de prueba de hipótesis frecuentista, uno puede protegerse contra esto al no hacer inferencia únicamente sobre la detección de la diferencia . Por ejemplo, uno puede combinar inferencias sobre la diferencia y la equivalencia para no favorecer (¡o combinar!) La carga de la prueba sobre la evidencia del efecto versus la evidencia de la ausencia de efecto . La evidencia de ausencia de un efecto proviene, por ejemplo, de:

  1. dos pruebas de equivalencia unilateral (TOST),
  2. pruebas uniformemente más potentes de equivalencia , y
  3. 12αα

Lo que todos estos enfoques comparten es una decisión a priori sobre qué tamaño del efecto constituye una diferencia relevante y una hipótesis nula enmarcada en términos de una diferencia al menos tan grande como lo que se considera relevante.

0+0

Cuatro posibilidades de pruebas combinadas de diferencia y pruebas de equivalencia

Observe el cuadrante superior izquierdo: una prueba sobrecargada es aquella en la que rechaza la hipótesis nula de no diferencia, pero también rechaza la hipótesis nula de diferencia relevante, así que sí, hay una diferencia, pero a priori ha decidido que no le importa porque es muy pequeño

Respuesta a la pregunta 3: Ver la respuesta a 2.

Alexis
fuente
2
Respuestas como esta son por qué sigo viniendo aquí. ¡Gracias!
blz
2
1αα2α
Para complementar la respuesta a la Pregunta 1, una publicación de blog relevante de Cosma Shalizi
2
Estoy un poco sorprendido de que todos encuentren esta pregunta tan útil, aunque la "Respuesta a la pregunta 1" en realidad es mucho más apropiada por Michael Lew - Alexis, ya que parece casi claro que esto seguirá así, tal vez podría corregir su respuesta para decir que, matemáticamente hablando, las pruebas de hipótesis de hecho NO ESTÁN SUJETADAS por un gran tamaño de muestra, de acuerdo con la definición normal de sesgo (al revés en realidad, ¡un pequeño tamaño de muestra puede ser un problema)!
Florian Hartig
3
Entiendo el problema y estoy de acuerdo con la evaluación: es poco informativo o engañoso hacer una prueba de hipótesis cuando! H0 es infinitamente probable en primer lugar, y tienes un poder cercano a 1. Pero eso no hace que la prueba sea sesgada, a menos que su definición de sesgo sea que un método da el resultado correcto a una pregunta que cree que no debería formularse.
Florian Hartig el
21

Las pruebas frecuentes con muestras grandes NO exhiben un sesgo hacia el rechazo de la hipótesis nula si la hipótesis nula es verdadera. Si los supuestos de la prueba son válidos y la hipótesis nula es verdadera, entonces no hay más riesgo de que una muestra grande conduzca al rechazo de la hipótesis nula que una muestra pequeña. Si el nulo no es verdadero, seguramente nos complacería rechazarlo, por lo que el hecho de que una muestra grande rechace con mayor frecuencia un nulo falso que una muestra pequeña no es 'sesgo' sino un comportamiento apropiado.

El miedo a los "experimentos sobrepoblados" se basa en asumir que no es bueno rechazar la hipótesis nula cuando es casi cierto. Pero si solo es casi cierto, ¡en realidad es falso! Rechace, pero no deje de notar (e informe claramente) el tamaño del efecto observado. Puede ser trivialmente pequeño y, por lo tanto, no merece ser considerado seriamente, pero se debe tomar una decisión sobre ese tema después de considerar la información externa a la prueba de hipótesis.

Michael Lew
fuente
2
00+really frickin' tiny
66
@Alexis Lea el segundo párrafo nuevamente. Estoy totalmente de acuerdo en que realmente pequeño no es sustancialmente importante, pero tampoco es lógicamente cero.
Michael Lew
66
Perdón por un comentario que no tiene valor para el público, pero @MichaelLew, me gustó mucho tu respuesta. La primera oración es bastante importante y no creo que se haya aclarado eficientemente en la respuesta de Alexis (que también es agradable, por supuesto).
Richard Hardy