Sea una familia de variables aleatorias iid que toman valores en , que tienen una media y una varianza . P ( | ˉ X - μ | > ε ) ≤ σ 2 proporciona un intervalo de confianza simple para la media, usando siempre que se conoce.
Además, porque se distribuye asintóticamente como una variable aleatoria normal estándar, la distribución normal a veces se usa para "construir" un intervalo de confianza aproximado.
En los exámenes de estadísticas de respuesta de opción múltiple, tuve que usar esta aproximación en lugar de cada vez que . Siempre me he sentido muy incómodo con esto (más de lo que puedes imaginar), ya que el error de aproximación no está cuantificado.
¿Por qué usar la aproximación normal en lugar de ?
No quiero, nunca más, aplicar ciegamente la regla . ¿Existen buenas referencias que me puedan apoyar en una negativa a hacerlo y proporcionar alternativas apropiadas? ( es un ejemplo de lo que considero una alternativa apropiada).
Aquí, mientras y son desconocidos, se limitan fácilmente.
Tenga en cuenta que mi pregunta es una solicitud de referencia, particularmente sobre los intervalos de confianza y, por lo tanto, es diferente de las preguntas sugeridas aquí como duplicados parciales. y aquí . No se responde allí.
Respuestas:
¿Por qué usar la aproximación normal?
Es tan simple como decir que siempre es mejor usar más información que menos. La ecuación (1) usa el teorema de Chebyshev . Tenga en cuenta que no utiliza ninguna información sobre la forma de su distribución, es decir, funciona para cualquier distribución con una variación dada. Por lo tanto, si usa alguna información sobre la forma de su distribución, debe obtener una mejor aproximación. Si sabía que su distribución es gaussiana, al utilizar este conocimiento obtendrá una mejor estimación.
Como ya está aplicando el teorema del límite central, ¿por qué no usar la aproximación gaussiana de los límites? Serán mejores, en realidad, más ajustados (o más nítidos) porque estas estimaciones se basan en el conocimiento de la forma, que es una información adicional.
La regla general 30 es un mito, que se beneficia del sesgo de confirmación . Simplemente se sigue copiando de un libro a otro. Una vez encontré una referencia que sugería esta regla en un artículo en la década de 1950. No recuerdo ningún tipo de prueba sólida, según recuerdo. Fue una especie de estudio empírico. Básicamente, la única razón por la que se usa es porque funciona. No lo ves violado muy a menudo.
ACTUALIZACIÓN Busque el documento de Zachary R. Smith y Craig S. Wells " Teorema del límite central y tamaño de la muestra ". Presentan un estudio empírico de la convergencia a CLT para diferentes tipos de distribuciones. El número mágico 30 no funciona en muchos casos, por supuesto.
fuente
El problema con el uso de la desigualdad de Chebyshev para obtener un intervalo para el valor verdadero, es que solo le da un límite inferior para la probabilidad, que además a veces es trivial o, para no ser trivial, puede dar un margen muy amplio. intervalo de confianza. Tenemos
Vemos que, dependiendo también del tamaño de la muestra, si disminuimos "demasiado" obtendremos la respuesta trivial "la probabilidad es mayor que cero".ε
Aparte de eso, lo que obtenemos de este enfoque es una conclusión de la forma "" la probabilidad de que caiga en [ ˉ X ± ε ] es igual o mayor que ... "μ [X¯±ε]
Pero supongamos que somos buenos con esto, y denotamos la probabilidad mínima con la que nos sentimos cómodos. Entonces queremospmin
Con tamaños de muestra pequeños y alta probabilidad mínima deseada, esto puede dar un intervalo de confianza insatisfactorio. Por ejemplo, para y n = 100 obtendremos ε ≈ .316 , que, por ejemplo, para la variable tratada por el OP que está limitada en [ 0 , 1 ]pmin=0.9 n=100 ε≈.316 [0,1] parece ser demasiado grande para ser útil.
Pero el enfoque es válido y no tiene distribución, por lo que puede haber casos en los que puede ser útil.
Es posible que desee verificar también la desigualdad Vysochanskij – Petunin mencionada en otra respuesta, que se aplica a las distribuciones unimodales continuas y refina la desigualdad de Chebyshev.
fuente
La respuesta corta es que puede ir bastante mal, pero solo si una o ambas colas de la distribución de muestreo son realmente gordas .
Este código R genera un millón de conjuntos de 30 variables distribuidas en gamma y toma su media; se puede usar para tener una idea de cómo se ve la distribución muestral de la media. Si la aproximación normal funciona según lo previsto, los resultados deben ser aproximadamente normales con media 1 y varianza
1/(30 * shape)
.f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}
Cuando
shape
es 1.0, la distribución gamma se convierte en una distribución exponencial , que es bastante no normal. Sin embargo, las partes no gaussianas generalmente se promedian, por lo que la aproximación gaussiana no es tan mala:Claramente, hay un sesgo, y sería bueno evitar eso cuando sea posible. Pero, sinceramente, ese nivel de sesgo probablemente no será el mayor problema que enfrenta un estudio típico.
Dicho esto, las cosas pueden empeorar mucho. Con
f(0.01)
, el histograma se ve así:Sin embargo, la transformación logarítmica de los 30 puntos de datos muestreados antes del promedio ayuda mucho:
En general, las distribuciones con colas largas (en uno o ambos lados de la distribución) requerirán la mayor cantidad de muestras antes de que la aproximación gaussiana comience a ser confiable. Incluso hay casos patológicos en los que, literalmente, nunca habrá suficientes datos para que funcione la aproximación gaussiana, pero probablemente tendrá problemas más serios en ese caso (porque la distribución de muestreo no tiene una media o varianza bien definida para comenzar con).
fuente
Problema con el intervalo de confianza de Chebyshev
Comparing the lengths of the confidence intervals
Consider the(1−α) -level confidence interval lengths ℓZ(α,n) and ℓC(α,n) obtained using the normal approximation (σ=12 ) and the Chebyshev inequality, repectively. It turns out that ℓC(α,n) is a constant times bigger than ℓZ(α,n) , independently of n . Precisely, for all n ,
In particular, the95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.
Using Hoeffding's bound
Hoeffding's bound gives
fuente
curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!
If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.
fuente