Método general para derivar el error estándar

11

Parece que no puedo encontrar un método general para derivar errores estándar en ningún lado. He buscado en google, este sitio web e incluso en libros de texto, pero todo lo que puedo encontrar es la fórmula de los errores estándar para la media, la varianza, la proporción, la relación de riesgo, etc. y no cómo se llegó a estas fórmulas.

Si algún organismo pudiera explicarlo en términos simples o incluso vincularme a un buen recurso que lo explique, estaría agradecido.

Daniel Gardiner
fuente
2
Proporciono un modelo simple general y lo aplico, con todos los detalles resueltos, en la publicación en stats.stackexchange.com/a/18609/919 . Esta y muchas otras publicaciones sobre errores estándar (casi mil hasta la fecha) se pueden encontrar buscando en nuestro sitio "error estándar"
whuber

Respuestas:

22

Lo que desea encontrar es la desviación estándar de la distribución muestral de la media. Es decir, en inglés simple, la distribución de muestreo es cuando selecciona elementos de su población, los suma y divide la suma por . Encontramos la varianza de esta cantidad y obtenemos la desviación estándar tomando la raíz cuadrada de su varianza.nnn

Entonces, deje que los elementos que elija estén representados por las variables aleatorias , cada una de ellas idénticamente distribuida con varianza . Se muestrean independientemente, por lo que la varianza de la suma es solo la suma de las varianzas. σ 2 Var ( n i = 1 X i ) = n i = 1 Var ( X i ) = n i = 1 σ 2 = n σ 2Xi,1inσ2

Var(i=1nXi)=i=1nVar(Xi)=i=1nσ2=nσ2

Luego dividimos por . Sabemos en general que , por lo que al poner tenemosVar ( k Y ) = k 2 Var ( Y ) k = 1 / nnVar(kY)=k2Var(Y)k=1/n

Var(i=1nXin)=1n2Var(i=1nXi)=1n2nσ2=σ2n

Finalmente, tome la raíz cuadrada para obtener la desviación estándar . Cuando la desviación estándar de la población no está disponible, la desviación estándar de muestra se usa como una estimación, dando .σnssn

Todo lo anterior es cierto independientemente de la distribución de las s, pero plantea la pregunta de qué es lo que realmente quiere hacer con el error estándar. Por lo general, es posible que desee construir intervalos de confianza, y luego es importante asignar una probabilidad a la construcción de un intervalo de confianza que contenga la media.Xi

Si sus s se distribuyen normalmente, esto es fácil, porque entonces la distribución de muestreo también se distribuye normalmente. Puede decir que el 68% de las muestras de la media estará dentro de 1 error estándar de la media verdadera, el 95% estará dentro de 2 errores estándar, etc.Xi

Si tiene una muestra lo suficientemente grande (o una muestra más pequeña y las no son demasiado anormales), puede invocar el teorema del límite central y decir que la distribución de muestreo se distribuye aproximadamente de manera normal, y sus declaraciones de probabilidad también son aproximadas.Xi

Un ejemplo de ello es estimar una proporción , donde se dibujan elementos cada uno de una distribución de Bernouilli. La varianza de cada distribución es y, por lo tanto, el error estándar es (la proporción se estima utilizando los datos). Para luego pasar a decir que aproximadamente un% de las muestras se encuentran dentro de tantas desviaciones estándar de la media, debe comprender cuándo la distribución de muestreo es aproximadamente normal. Repetidamente muestreo de una distribución de Bernouilli es el mismo que el muestreo de una distribución binomial, y una regla común es aproximar sólo cuando y sonpnXip(1p)p(1p)/npnpn(1p)5. (Ver wikipedia para una discusión más profunda sobre la aproximación del binomio con lo normal. Vea aquí un ejemplo trabajado de errores estándar con una proporción).

Si, por otro lado, su distribución de muestreo no puede ser aproximada por una distribución normal, entonces el error estándar es mucho menos útil. Por ejemplo, con una distribución asimétrica muy asimétrica, no puede decir que el mismo% de muestras sería desviación estándar a ambos lados de la media, y es posible que desee encontrar una forma diferente de asociar las probabilidades con las muestras.±1

TooTone
fuente
Gracias, este enfoque tiene sentido y puedo ver cómo se aplica a la media, pero no puedo ver cómo extenderlo a otras estadísticas. Por ejemplo, ¿cómo podría encontrar el error estándar de una tasa? o una relación de tasa?
Daniel Gardiner
He actualizado mi publicación. El punto clave es que se pueden encontrar cantidades como la media, la varianza, etc., y por lo tanto stderr, para cualquier distribución. Pero para hacer declaraciones de probabilidad, necesita saber algo sobre la distribución, ya sea normal, binomial o lo que sea. Por lo tanto, siempre se puede encontrar el stderr, pero lo útil que sea depende de la situación.
TooTone
si n es fijo y representa solo una fracción de toda su población, ¿por qué escribió esa ? y nos 2var(Xi)=σ2s2
Oleg
1
@Oleg es una variable aleatoria y tiene una variación, incluso si no sabes lo que es. Es incorrecto escribir la varianza ( ) = , porque es la estimación de la varianza, que casi con certeza no es la varianza de la población. Es más fácil usar variaciones, aunque normalmente son desconocidas, para obtener la variación de la suma de una muestra, o la media de la muestra, porque estás usando reglas de probabilidad directas. Simplemente usa linealidad, es decir, varianza de suma = suma de varianza. Una vez que haya derivado la varianza, "recuerda" que no conoce la varianza ( ), por lo que usaX i s 2 s 2 X i s 2XiXis2s2Xis2
TooTone
4

El error estándar es la desviación estándar de la estadística (bajo la hipótesis nula, si está probando). Un método general para encontrar el error estándar sería encontrar primero la función de distribución o generación de momento de su estadística, encontrar el segundo momento central y sacar la raíz cuadrada.

Por ejemplo, si está tomando muestras de una distribución normal con media y varianza , la media muestral se distribuye normalmente con media y varianza . Esto puede derivarse de tres propiedades:σ 2 ˉ X = 1μσ2X¯=1ni=1nXiμσ2/n

  1. La suma de variables aleatorias independientes es normal,
  2. E[i=1naiXi]=i=1naiE[Xi] ,
  3. Si y son independientes, .X 2 V a r ( a 1 X 1 + a 2 X 2 ) = a 2 1 V a r ( X 1 ) + a 2 2 V a r ( X 2 )X1X2Var(a1X1+a2X2)=a12Var(X1)+a22Var(X2)

Por lo tanto, el error estándar de la media muestral, que es la raíz cuadrada de su varianza, es .σ/n

Hay atajos, como si no necesariamente necesitaras encontrar la distribución de la estadística, pero creo que conceptualmente es útil tener las distribuciones en el fondo de tu mente si las conoces.

P Schnell
fuente