Cuadro grande:
Estoy tratando de entender cómo aumentar el tamaño de la muestra aumenta la potencia de un experimento. Las diapositivas de mi profesor explican esto con una imagen de 2 distribuciones normales, una para la hipótesis nula y otra para la hipótesis alternativa y un umbral de decisión c entre ellas. Argumentan que aumentar el tamaño de la muestra reducirá la varianza y, por lo tanto, causará una curtosis más alta, reduciendo el área compartida debajo de las curvas y, por lo tanto, la probabilidad de un error de tipo II.
Pequeña imagen:
No entiendo cómo un tamaño de muestra más grande reducirá la varianza.
Supongo que solo calcula la varianza de la muestra y la usa como parámetro en una distribución normal.
Lo intenté:
- busca en Google , pero las respuestas más aceptadas tienen 0 votos a favor o son simplemente ejemplos
- pensamiento : según la ley de los números grandes, cada valor eventualmente debería estabilizarse alrededor de su valor probable de acuerdo con la distribución normal que asumimos. Y, por lo tanto, la varianza debería converger a la varianza de nuestra distribución normal supuesta. Pero, ¿cuál es la varianza de esa distribución normal y es un valor mínimo, es decir, podemos estar seguros de que nuestra varianza muestra disminuye a ese valor?
Respuestas:
Las desviaciones estándar de los promedios son más pequeñas que las desviaciones estándar de las observaciones individuales. [Aquí supondré observaciones independientes idénticamente distribuidas con varianza de población finita; se puede decir algo similar si relaja las dos primeras condiciones.]
Es una consecuencia del simple hecho de que la desviación estándar de la suma de dos variables aleatorias es menor que la suma de las desviaciones estándar (solo puede ser igual cuando las dos variables están perfectamente correlacionadas).
De hecho, cuando se trata de variables aleatorias no correlacionadas, podemos decir algo más específico: la varianza de una suma de variables es la suma de sus varianzas.
Esto significa que con variaciones independientes (o incluso no correlacionadas) con la misma distribución, la varianza de la media es la varianza de un individuo dividida por el tamaño de la muestra .n
En correspondencia con variaciones independientes (o incluso no correlacionadas) con la misma distribución, la desviación estándar de su media es la desviación estándar de un individuo dividida por la raíz cuadrada del tamaño de la muestra:n
Entonces, a medida que agrega más datos, obtiene estimaciones cada vez más precisas de las medias grupales. Un efecto similar se aplica en problemas de regresión.
Dado que podemos obtener estimaciones más precisas de los promedios al aumentar el tamaño de la muestra, podemos distinguir más fácilmente los medios que están muy juntos, a pesar de que las distribuciones se superponen bastante, al tomar un gran tamaño de muestra aún podemos estimar su población significa con la suficiente precisión como para decir que no son lo mismo.
fuente
La variabilidad que se reduce cuando N aumenta es la variabilidad de la media muestral, a menudo expresada como error estándar. O, en otros términos, la certeza de la veracidad de la media muestral está aumentando.
Imagina que ejecutas un experimento donde recolectas 3 hombres y 3 mujeres y mides sus alturas. ¿Qué tan seguro está de que las alturas medias de cada grupo son la verdadera media de las poblaciones separadas de hombres y mujeres? Debería pensar que no estarías muy seguro en absoluto. Podría recolectar fácilmente nuevas muestras de 3 y encontrar nuevas medias a varias pulgadas de las primeras. Muchos de los experimentos repetidos como este podrían incluso resultar en que las mujeres sean declaradas más altas que los hombres porque los medios variarían mucho. Con un N bajo, no tiene mucha certeza en la media de la muestra y varía mucho de una muestra a otra.
Ahora imagine 10,000 observaciones en cada grupo. Va a ser bastante difícil encontrar nuevas muestras de 10,000 que tengan medios que difieran mucho entre sí. Serán mucho menos variables y estarás más seguro de su precisión.
Si puede aceptar esta línea de pensamiento, entonces podemos insertarla en los cálculos de sus estadísticas como error estándar. Como puede ver en su ecuación, es una estimación de un parámetro, (que debería ser más preciso a medida que n aumenta) dividido por un valor que siempre aumenta con n, . Ese error estándar representa la variabilidad de las medias o efectos en sus cálculos. Cuanto más pequeño es, más potente es su prueba estadística.√σ n−−√
Aquí hay una pequeña simulación en R para demostrar la relación entre un error estándar y la desviación estándar de las medias de muchas muchas repeticiones del experimento inicial. En este caso, comenzaremos con una media poblacional de 100 y una desviación estándar de 15.
Observe cómo la desviación estándar final está cerca del error estándar teórico. Al jugar con la variable n aquí, puede ver que la medida de variabilidad se reducirá a medida que n aumente.
[Como comentario aparte, la curtosis en los gráficos no está cambiando realmente (suponiendo que sean distribuciones normales). Bajar la varianza no cambia la curtosis, pero la distribución se verá más estrecha. La única forma de examinar visualmente los cambios de curtosis es colocar las distribuciones en la misma escala.]
fuente
Si quisiera saber cuál es el peso promedio de los ciudadanos estadounidenses, en el caso ideal le pediría de inmediato a cada ciudadano que se suba a la báscula y recopile los datos. Tendría una respuesta exacta . Esto es muy difícil, por lo que tal vez podría lograr que algunos ciudadanos suban de escala, calculen el promedio y tengan una idea de cuál es el promedio de la población. ¿Esperaría que el promedio de la muestra sea exactamente igual al promedio de la población? Espero que no.
Ahora, ¿estaría de acuerdo en que si tuviera más y más personas, en algún momento estaríamos más cerca de la población? Deberíamos, ¿verdad? Al final, la mayoría de las personas que podemos obtener es toda la población, y su significado es lo que estamos buscando. Esta es la intuición.
Este fue un experimento de pensamiento idealizado. En realidad, hay complicaciones. Te daré dos.
fuente
Creo que la Ley de Números Grandes explica por qué la varianza (error estándar) disminuye cuando aumenta el tamaño de la muestra. El artículo de Wikipedia sobre esto dice:
En términos del Teorema del límite central:
Cuando se extrae una muestra aleatoria única, cuanto más grande es la muestra, más se acerca la media de la muestra a la media de la población (en la cita anterior, piense en "número de ensayos" como "tamaño de muestra", por lo que cada "ensayo" es una observación ) Por lo tanto, al dibujar un número infinito de muestras aleatorias, la varianza de la distribución de muestreo será menor cuanto mayor sea el tamaño de cada muestra.
En otras palabras, la forma de la campana será más estrecha cuando cada muestra sea grande en lugar de pequeña, porque de esa manera cada media de la muestra estará más cerca del centro de la campana.
fuente
A medida que aumenta el tamaño de la muestra, aumenta la varianza de la muestra (variación entre observaciones) pero la varianza de la media de la muestra (error estándar) disminuye y, por lo tanto, aumenta la precisión.
fuente