¿Qué pasó con la significación estadística en la regresión cuando el tamaño de los datos es gigantesco?

13

Estaba leyendo esta pregunta sobre la regresión a gran escala ( enlace ) donde Whuber señaló un punto interesante de la siguiente manera:

"Casi cualquier prueba estadística que ejecute será tan poderosa que es casi seguro identificar un efecto" significativo ". Debe centrarse mucho más en la importancia estadística, como el tamaño del efecto, en lugar de la importancia".

--- whuber

Me preguntaba si esto es algo que se puede probar o simplemente algunos fenómenos comunes en la práctica.

Cualquier puntero a una prueba / discusión / simulación sería realmente útil.

regression statistical-significance Bayesric
fuente

1

El tamaño del efecto importa. (+1 a la respuesta de Glen_b). Para dar un ejemplo rápido: si fuéramos obesos, no cambiaríamos nuestra dieta actual a una nueva dieta más costosa si resultara en una pérdida de peso de 0.05 kg después de un mes, incluso si tuviera un valor

. Seguiríamos siendo obesos, más pobres. Por lo que sabemos, una disminución de peso tan pequeña podría deberse solo a la clínica de salud que las grabaciones se tomaron desde el suelo de un edificio sin ascensor hasta el cuarto piso del mismo edificio. (Buena pregunta + 1)

p

$p$

\leq 0.0000000001

$\leq 0.0000000001$

usεr11852 dice Reinstate Monic el

10

Es bastante general.

Imagine que hay un efecto pequeño, pero no nulo (es decir, alguna desviación del valor nulo que la prueba puede detectar).

En tamaños de muestra pequeños, la posibilidad de rechazo será muy cercana a la tasa de error tipo I (el ruido domina el efecto pequeño).

A medida que crecen los tamaños de muestra, el efecto estimado debería converger a ese efecto de población, mientras que al mismo tiempo la incertidumbre del efecto estimado se reduce (normalmente como ), hasta que la posibilidad de que la situación nula se acerque lo suficiente al efecto estimado de que todavía es plausible en una muestra seleccionada al azar de la población se reduce a cero efectivamente. $\sqrt{n}$

Es decir, con puntos nulos, eventualmente el rechazo se vuelve seguro, porque en casi todas las situaciones reales siempre habrá una cierta desviación del valor nulo.

Glen_b -Reinstate a Monica
fuente

"... porque en casi todas las situaciones reales siempre habrá alguna desviación del valor nulo". Entonces está ahí y uno puede incluso verlo. Esa sería una propiedad bastante agradable o no?

Trilarion

¿"Nulo" aquí se refiere a la hipótesis nula de que el coeficiente es igual a cero?

Arash Howaida

Creo que la respuesta de Glen_b es general y aplicable a cualquier prueba de hipótesis con un punto nulo. En el contexto de regresión, sí, lo nulo es que el coeficiente es igual a cero. Aunque mi propio entendimiento ...

Bayesric

4

Esto no es una prueba, pero no es difícil mostrar la influencia del tamaño de la muestra en la práctica. Me gustaría usar un ejemplo simple de Wilcox (2009) con pequeños cambios:

Imagine que, para una medida general de ansiedad, un investigador afirma que la población de estudiantes universitarios tiene una media de al menos 50. Como comprobación de esta afirmación, suponga que se muestrea aleatoriamente a diez estudiantes universitarios con el objetivo de evaluar con $H_0: \mu \geq 50$ . (Wilcox, 2009: 143) $\alpha = .05$

Podemos usar la prueba t para este análisis:

T = \frac{\bar{X} - μ_{o}}{s / \sqrt{n}}

$T = \frac{\bar X - \mu_o}{s/\sqrt{n}}$

Suponiendo que la media muestral ( ) es 45 y la desviación estándar muestral ( $\bar X$ $s$ ) es 11,

T = \frac{45 - 50}{11 / \sqrt{10}} = - 1.44.

$T = \frac{45-50}{11/\sqrt{10}}=-1.44.$

Si observa una tabla que contiene valores críticos de la distribución de Student con grados de libertad $t$ $ν$ , verá que for , . Entonces, con , no podemos rechazar la hipótesis nula. Ahora, supongamos que tenemos la misma media muestral y desviación estándar, pero 100 observaciones en su lugar: $v = 10 -1$ $P(T \leq - 1.83)= .05$ $T=-1.44$

T = \frac{45 - 50}{11 / \sqrt{100}} = - 4.55

$T = \frac{45-50}{11/\sqrt{100}}= -4.55$

$v = 100 - 1$ $P(T \leq -1.66) = .05$ $s/\sqrt{n}$ $T = \frac{\hat\beta_j-\beta_j^{(0)}}{se(\hat\beta_j)}$ .

Wilcox, RR, 2009. Estadísticas básicas: comprender los métodos convencionales y las ideas modernas . Oxford University Press, Oxford.

TEG - Restablecer a Monica
fuente

1

Gracias por la respuesta. Su respuesta proporciona una demostración concreta de la respuesta de Glen_b: cuando el tamaño de la muestra es muy grande, se capturará una pequeña desviación del valor nulo (siempre hay una pequeña desviación en la práctica) como un efecto significativo.

Bayesric

2

En regresión, para el modelo general, la prueba está en F. Aquí

F = \frac{\frac{R S S_{1} - R S S_{2}}{p_{2} - p_{1}}}{\frac{R S S_{2}}{n - p_{2}}}

$F = \frac{\frac{RSS_1-RSS_2}{p_2 - p_1}}{\frac{RSS_2}{n-p_2}}$

R S S_{1}

$RSS_1$

R S S_{2}

$RSS_2$

Peter Flom - Restablece a Monica
fuente

1

Gracias por la respuesta. Sin embargo, soy escéptico sobre "cuando N se hace más grande, F se hace más grande"; cuando N aumenta, RSS2 también aumenta, no me queda claro por qué F crecerá.

Bayesric

@Peter Flom esto es irreal, pero ¿puedes echar un vistazo aquí stats.stackexchange.com/questions/343518/…

user3022875

¿Qué pasó con la significación estadística en la regresión cuando el tamaño de los datos es gigantesco?

Respuestas: