¿En qué entornos los intervalos de confianza no mejorarían a medida que aumenta el tamaño de la muestra?

11

En una publicación de blog , he encontrado la afirmación de que

"¡Creo que WG Cochrane es el primer punto (aproximadamente de los años 70) que con intervalos de confianza en un entorno de observación, los tamaños de muestra pequeños dan como resultado una mejor cobertura con muestras suficientemente grandes que proporcionan una cobertura casi nula!"

Ahora supongo que el ancho de CI debería acercarse a 0 al aumentar el tamaño de la muestra, pero la idea de que la cobertura empeoraría simultáneamente no me convence. ¿Es cierto este reclamo y bajo qué circunstancias? ¿O lo estoy leyendo mal?

Realicé una simulación utilizando datos aleatorios normalmente distribuidos con tamaños de muestra de 10000 a 1000000 (prueba t de una muestra, IC 95%), 1000 ejecuciones en cada tamaño de muestra, y la cobertura no empeoró para los tamaños de muestra más altos (en cambio, encontré la tasa de error esperada casi constante ~ 5%).

jona
fuente
2
Para el registro, el famoso estadístico mencionado aquí fue William G. Cochran (no Cochrane).
Nick Cox
2
Debido a que causó cierta confusión en una de las respuestas, tenga en cuenta que la afirmación de que el "ancho de CI debe acercarse a 1" no tiene sentido (¿1 qué? ¿Cuáles son las unidades de medida?) O simplemente está equivocada.
Whuber

Respuestas:

17

Tenga en cuenta la calificación "en un entorno de observación".

Al verificar el contexto del que tomó la cita (el subproceso de comentarios en el que se encuentra), parece que la intención es "en el mundo real" en lugar de en simulaciones, y probablemente no incluye un experimento controlado. . y en ese caso, la intención probable es una consecuencia del hecho de que los supuestos bajo los cuales se derivan los intervalos en realidad no se cumplen. Existen numerosas cosas que pueden afectar el sesgo, que tienen un efecto pequeño en comparación con la variabilidad en muestras pequeñas, pero que generalmente no se reducen en tamaño a medida que aumenta el tamaño de la muestra, mientras que los errores estándar lo hacen.

Como nuestros cálculos no incorporan el sesgo, los intervalos se reducen (como 1/n), cualquier sesgo inmutable, incluso si es bastante pequeño, se hace más grande, lo que hace que nuestros intervalos sean cada vez menos propensos a incluir el valor verdadero.

Aquí hay una ilustración, una que tal vez exagera el sesgo, para indicar lo que creo que significa que la probabilidad de cobertura de CI se reduce a medida que aumenta el tamaño de la muestra:

El diagrama de probabilidad de cobertura de CI se reduce a medida que aumenta el tamaño de la muestra cuando hay sesgo

Por supuesto, en cualquier muestra en particular, el intervalo será aleatorio: será más ancho o más estrecho y se desplazará hacia la izquierda o hacia la derecha en relación con el diagrama, de modo que en cualquier tamaño de muestra tenga alguna probabilidad de cobertura entre 0 y 1, pero cualquier sesgo hará que se encoja hacia cero como naumenta Aquí hay un ejemplo con 100 intervalos de confianza en cada tamaño de muestra utilizando datos simulados (trazados con transparencia, por lo que el color es más sólido cuando más intervalos lo cubren):

Gráfico similar al anterior con 10 IC de muestra en cada n

Glen_b -Reinstate a Monica
fuente
0

Dulce ironía. Antes de ese párrafo, la misma persona dice "No es de extrañar que haya tanta confusión generalizada". "Intervalos de confianza en un entorno de observación": ¿qué significa eso?

Me parece que esto es una vez más una confusión entre la estimación y la prueba de hipótesis .

Ahora sé que el ancho de CI debería acercarse a 1 con el aumento del tamaño de la muestra.

No, depende del contexto. En principio, el ancho debería converger a0. La cobertura debe estar cerca del valor nominal para una gran cantidad de simulaciones de Monte Carlo. La cobertura no depende del tamaño de la muestra, a menos que algunos de los supuestos bajo los cuales se construyó el IC sean defectuosos (lo que tal vez sea lo que el OP quiso decir. "Todos los modelos están equivocados", sí).

La referencia es un comentario en una publicación de un blog personal . No me preocuparía demasiado por la validez de este tipo de referencia. El blog, propiedad de Larry Wasserman, tiende a estar muy bien escrito por otro lado. Esto me recordó al cómic xkcd:

http://xkcd.com/386/

Toto
fuente