Error de aproximación del intervalo de confianza para la media cuando

15

Sea {Xi}i=1n una familia de variables aleatorias iid que toman valores en [0,1] , que tienen una media μ y una varianza σ2 . P ( | ˉ X - μ | > ε ) σ 2 proporciona un intervalo de confianza simple para la media, usando σ siempre que se conoce.

P(|X¯μ|>ε)σ2nε21nε2(1).

Además, porque X¯μσ/n se distribuye asintóticamente como una variable aleatoria normal estándar, la distribución normal a veces se usa para "construir" un intervalo de confianza aproximado.


En los exámenes de estadísticas de respuesta de opción múltiple, tuve que usar esta aproximación en lugar de (1) cada vez que n30 . Siempre me he sentido muy incómodo con esto (más de lo que puedes imaginar), ya que el error de aproximación no está cuantificado.


  • ¿Por qué usar la aproximación normal en lugar de (1) ?

  • No quiero, nunca más, aplicar ciegamente la regla n30 . ¿Existen buenas referencias que me puedan apoyar en una negativa a hacerlo y proporcionar alternativas apropiadas? ( (1) es un ejemplo de lo que considero una alternativa apropiada).

Aquí, mientras σ y E[|X|3] son desconocidos, se limitan fácilmente.

Tenga en cuenta que mi pregunta es una solicitud de referencia, particularmente sobre los intervalos de confianza y, por lo tanto, es diferente de las preguntas sugeridas aquí como duplicados parciales. y aquí . No se responde allí.

Olivier
fuente
2
Puede que tenga que mejorar la aproximación que se encuentra en las referencias clásicas y explotar el hecho de que las están en ( 0 , 1 ) que, como notó, proporciona información sobre los momentos. ¡Creo que la herramienta mágica será el teorema Berry-Esseen! Xi(0,1)
Yves
1
con esos límites, la varianza no puede ser mayor que 0.25, mucho mejor que 1, ¿no?
carlo

Respuestas:

3

¿Por qué usar la aproximación normal?

Es tan simple como decir que siempre es mejor usar más información que menos. La ecuación (1) usa el teorema de Chebyshev . Tenga en cuenta que no utiliza ninguna información sobre la forma de su distribución, es decir, funciona para cualquier distribución con una variación dada. Por lo tanto, si usa alguna información sobre la forma de su distribución, debe obtener una mejor aproximación. Si sabía que su distribución es gaussiana, al utilizar este conocimiento obtendrá una mejor estimación.

Como ya está aplicando el teorema del límite central, ¿por qué no usar la aproximación gaussiana de los límites? Serán mejores, en realidad, más ajustados (o más nítidos) porque estas estimaciones se basan en el conocimiento de la forma, que es una información adicional.

La regla general 30 es un mito, que se beneficia del sesgo de confirmación . Simplemente se sigue copiando de un libro a otro. Una vez encontré una referencia que sugería esta regla en un artículo en la década de 1950. No recuerdo ningún tipo de prueba sólida, según recuerdo. Fue una especie de estudio empírico. Básicamente, la única razón por la que se usa es porque funciona. No lo ves violado muy a menudo.

ACTUALIZACIÓN Busque el documento de Zachary R. Smith y Craig S. Wells " Teorema del límite central y tamaño de la muestra ". Presentan un estudio empírico de la convergencia a CLT para diferentes tipos de distribuciones. El número mágico 30 no funciona en muchos casos, por supuesto.

Aksakal
fuente
+1 Para una explicación sensata. Pero, ¿no existe el riesgo de utilizar información que no es del todo correcta? El CLT no dice nada sobre la distribución de para un n fijo . X¯n
Olivier
bien, CLT no dice nada sobre la distribución de la muestra finita, pero tampoco las ecuaciones asintóticas. Sin embargo, sin lugar a dudas tienen información útil, por eso las relaciones limitantes se utilizan en todas partes. El problema con Chebyshev es que es tan amplio que rara vez se usa fuera del aula. Por ejemplo, para una desviación estándar, la probabilidad que da es - información poco práctica<1/k2=1
Aksakal
Sin embargo, para que tome los valores 0 o 1 con igual probabilidad, su aplicación de Chebyshev es aguda. ;) El problema es que Chebyshev, aplicado a una media muestral, nunca se mantendrá agudo a medida que n crece. Xn
Olivier
No sé sobre el artículo de Smith y Wells, intenté reproducirlo en R y no pude recuperar sus conclusiones ...
Alex Nelson
9

El problema con el uso de la desigualdad de Chebyshev para obtener un intervalo para el valor verdadero, es que solo le da un límite inferior para la probabilidad, que además a veces es trivial o, para no ser trivial, puede dar un margen muy amplio. intervalo de confianza. Tenemos

P(|X¯μ|>ε)=1P(X¯εμX¯+ε)

P(X¯εμX¯+ε)11nε2

Vemos que, dependiendo también del tamaño de la muestra, si disminuimos "demasiado" obtendremos la respuesta trivial "la probabilidad es mayor que cero".ε

Aparte de eso, lo que obtenemos de este enfoque es una conclusión de la forma "" la probabilidad de que caiga en [ ˉ X ± ε ] es igual o mayor que ... "μ[X¯±ε]

Pero supongamos que somos buenos con esto, y denotamos la probabilidad mínima con la que nos sentimos cómodos. Entonces queremospmin

11nε2=pminε=1(1pmin)n

Con tamaños de muestra pequeños y alta probabilidad mínima deseada, esto puede dar un intervalo de confianza insatisfactorio. Por ejemplo, para y n = 100 obtendremos ε .316 , que, por ejemplo, para la variable tratada por el OP que está limitada en [ 0 , 1 ]pmin=0.9n=100ε.316[0,1] parece ser demasiado grande para ser útil.

Pero el enfoque es válido y no tiene distribución, por lo que puede haber casos en los que puede ser útil.

Es posible que desee verificar también la desigualdad Vysochanskij – Petunin mencionada en otra respuesta, que se aplica a las distribuciones unimodales continuas y refina la desigualdad de Chebyshev.

Alecos Papadopoulos
fuente
No estoy de acuerdo con que un problema con Chebychev sea que solo da un límite inferior para la probabilidad. En un entorno sin distribución, un límite inferior es lo mejor que podemos esperar. Las preguntas importantes son: ¿Chebychev es fuerte? ¿Se sobreestima sistemáticamente la longitud del CI de Chebychev para un nivel fijo ? Respondí esto en mi publicación, desde un punto de vista particular. Sin embargo, todavía estoy tratando de entender si Chebychev para una muestra media siempre fallará en ser fuerte, en un sentido más fuerte. α
Olivier
La longitud del IC no está bajo estimación, ya que no existe una longitud única desconocida, por lo que no estoy seguro de lo que quiere decir con la palabra "sobreestimación" aquí. Los diferentes métodos proporcionan diferentes CI, que luego, por supuesto, podemos intentar evaluar y evaluar.
Alecos Papadopoulos
La sobreestimación fue una mala elección de palabras, gracias por señalarlo. Por "longitud sistemáticamente sobreestimada" quise decir que el método para obtener un IC siempre produce algo más grande de lo necesario.
Olivier
1
@Olivier En términos generales, se sabe que la desigualdad de Chebyshev es una desigualdad flexible, por lo que se usa más como herramienta en derivaciones teóricas y pruebas que en el trabajo aplicado.
Alecos Papadopoulos
2
@Olivier "En términos generales" cubre su calificación, yo diría.
Alecos Papadopoulos
7

La respuesta corta es que puede ir bastante mal, pero solo si una o ambas colas de la distribución de muestreo son realmente gordas .

Este código R genera un millón de conjuntos de 30 variables distribuidas en gamma y toma su media; se puede usar para tener una idea de cómo se ve la distribución muestral de la media. Si la aproximación normal funciona según lo previsto, los resultados deben ser aproximadamente normales con media 1 y varianza 1/(30 * shape).

f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}

Cuando shapees 1.0, la distribución gamma se convierte en una distribución exponencial , que es bastante no normal. Sin embargo, las partes no gaussianas generalmente se promedian, por lo que la aproximación gaussiana no es tan mala:

histogram & density plot

Claramente, hay un sesgo, y sería bueno evitar eso cuando sea posible. Pero, sinceramente, ese nivel de sesgo probablemente no será el mayor problema que enfrenta un estudio típico.

Dicho esto, las cosas pueden empeorar mucho. Con f(0.01), el histograma se ve así:

histogram

Sin embargo, la transformación logarítmica de los 30 puntos de datos muestreados antes del promedio ayuda mucho:

histogram

En general, las distribuciones con colas largas (en uno o ambos lados de la distribución) requerirán la mayor cantidad de muestras antes de que la aproximación gaussiana comience a ser confiable. Incluso hay casos patológicos en los que, literalmente, nunca habrá suficientes datos para que funcione la aproximación gaussiana, pero probablemente tendrá problemas más serios en ese caso (porque la distribución de muestreo no tiene una media o varianza bien definida para comenzar con).

David J. Harris
fuente
El experimento me parece muy pertinente e interesante. Sin embargo, no tomaré esto como la respuesta, ya que no aborda el quid del problema.
Olivier
1
¿Cuál es el quid?
David J. Harris
Su respuesta no proporciona una base rigurosa para una práctica estadística sólida. Solo da ejemplos. Tenga en cuenta, también, que las variables aleatorias que considero están limitadas, lo que cambia en gran medida el peor de los casos posibles.
Olivier
@Glen_b: esta respuesta no es tan relevante para su versión revisada de la pregunta. ¿Debería dejarlo aquí o recomendaría algo más?
David J. Harris
3

Problema con el intervalo de confianza de Chebyshev

σ214Var(X)μ(1μ)μ

P(|X¯μ|ε)14nε2.
nXi14P(|X¯μ|ε2n)2SF(ε)+8n, where SF is the survival function of the standard normal distribution. In particular, with ε=16, we get SF(16)e58 (according to Scipy), so that essentially
P(|X¯μ|8n)8n+0,()
whereas the Chebyshev inequality implies
P(|X¯μ|8n)1256.
Note that I did not try to optimize the bound given in (), the result here is only of conceptual interest.

Comparing the lengths of the confidence intervals

Consider the (1α)-level confidence interval lengths Z(α,n) and C(α,n) obtained using the normal approximation (σ=12) and the Chebyshev inequality, repectively. It turns out that C(α,n) is a constant times bigger than Z(α,n), independently of n. Precisely, for all n,

C(α,n)=κ(α)Z(α,n),κ(α)=(ISF(α2)α)1,
where ISF is the inverse survival function of the standard normal distribution. I plot below the multiplicative constant.

enter image description here

In particular, the 95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.


Using Hoeffding's bound

Hoeffding's bound gives

P(|X¯μ|ε)2e2nε2.
Thus an (1α)-level confidence interval for μ is
(X¯ε,X¯+ε),ε=lnα22n,
of length H(α,n)=2ε. I plot below the lengths of the different confidence intervals (Chebyshev inequality: C; normal approximation (σ=1/2): Z; Hoeffding's inequality: H) for α=0.05.

enter image description here

Olivier
fuente
Very interesting! I have though some corrections to suggest you toghether with a big puzzlement: first, you should take out absolute value from the Hoeffding's unequality definition, it's P(X¯με)e2nε2 or P(|X¯μ|ε)2e2nε2; the second correction is less important, α is generally taken to be 0.05 or lower, while 0.95 is addressed as 1α, it's a bit confusing to see them switched in your post.
carlo
Last and more important: I found your result incredible, so I tried to replicate it in R and I got a completely opposite result: normal approximation gives smaller confidence intervals to me! this is the code I used: curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
carlo
0

let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!

If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.

carlo
fuente
Could you add a reference for " Vysochanskij–Petunin inequality "? Never heard of it!
kjetil b halvorsen
wikipedia docet
carlo
Can you express the rate of convergence in terms of the skewdness? Why is a sample size of, you'd say 2, enough for unimodality? How is the Vysochanskij–Petunin inequality an improvement over Chebychev if you need to double or triple the sample size for it to apply?
Olivier
I made a fast google search and I found out that binomial distribution is actually often used to explain different sample size need for skewed data, but I didn't find, and I guess there is no accepted "rate of convergence in terms of the skewdness".
carlo
Vysochanskij–Petunin inequality is more efficent than Chebychev's, so it doesn't need a greater sample at all, but it has some use constraints: first, you have to have a continuous distribution, than, it has to be unimodal (no local modes are allowed). It may seem strange to drop normality assumption to adopt another one, but if your data is not discrete, sample mean should eliminate local modes even with very small samples. Fact is that mean has much of a bell distribution and, also if it can be skewed or have fat tails, it quickly comes to only have one mode.
carlo