Parece que no puedo encontrar un método general para derivar errores estándar en ningún lado. He buscado en google, este sitio web e incluso en libros de texto, pero todo lo que puedo encontrar es la fórmula de los errores estándar para la media, la varianza, la proporción, la relación de riesgo, etc. y no cómo se llegó a estas fórmulas.
Si algún organismo pudiera explicarlo en términos simples o incluso vincularme a un buen recurso que lo explique, estaría agradecido.
standard-error
Daniel Gardiner
fuente
fuente
Respuestas:
Lo que desea encontrar es la desviación estándar de la distribución muestral de la media. Es decir, en inglés simple, la distribución de muestreo es cuando selecciona elementos de su población, los suma y divide la suma por . Encontramos la varianza de esta cantidad y obtenemos la desviación estándar tomando la raíz cuadrada de su varianza.nn n
Entonces, deje que los elementos que elija estén representados por las variables aleatorias , cada una de ellas idénticamente distribuida con varianza . Se muestrean independientemente, por lo que la varianza de la suma es solo la suma de las varianzas. σ 2 Var ( n ∑ i = 1 X i ) = n ∑ i = 1 Var ( X i ) = n ∑ i = 1 σ 2 = n σ 2Xi,1≤i≤n σ2
Luego dividimos por . Sabemos en general que , por lo que al poner tenemosVar ( k Y ) = k 2 Var ( Y ) k = 1 / nn Var(kY)=k2Var(Y) k=1/n
Finalmente, tome la raíz cuadrada para obtener la desviación estándar . Cuando la desviación estándar de la población no está disponible, la desviación estándar de muestra se usa como una estimación, dando .σn−−√ s sn−−√
Todo lo anterior es cierto independientemente de la distribución de las s, pero plantea la pregunta de qué es lo que realmente quiere hacer con el error estándar. Por lo general, es posible que desee construir intervalos de confianza, y luego es importante asignar una probabilidad a la construcción de un intervalo de confianza que contenga la media.Xi
Si sus s se distribuyen normalmente, esto es fácil, porque entonces la distribución de muestreo también se distribuye normalmente. Puede decir que el 68% de las muestras de la media estará dentro de 1 error estándar de la media verdadera, el 95% estará dentro de 2 errores estándar, etc.Xi
Si tiene una muestra lo suficientemente grande (o una muestra más pequeña y las no son demasiado anormales), puede invocar el teorema del límite central y decir que la distribución de muestreo se distribuye aproximadamente de manera normal, y sus declaraciones de probabilidad también son aproximadas.Xi
Un ejemplo de ello es estimar una proporción , donde se dibujan elementos cada uno de una distribución de Bernouilli. La varianza de cada distribución es y, por lo tanto, el error estándar es (la proporción se estima utilizando los datos). Para luego pasar a decir que aproximadamente un% de las muestras se encuentran dentro de tantas desviaciones estándar de la media, debe comprender cuándo la distribución de muestreo es aproximadamente normal. Repetidamente muestreo de una distribución de Bernouilli es el mismo que el muestreo de una distribución binomial, y una regla común es aproximar sólo cuando y sonp n Xi p(1−p) p(1−p)/n−−−−−−−−−√ p np n(1−p) ≥5 . (Ver wikipedia para una discusión más profunda sobre la aproximación del binomio con lo normal. Vea aquí un ejemplo trabajado de errores estándar con una proporción).
Si, por otro lado, su distribución de muestreo no puede ser aproximada por una distribución normal, entonces el error estándar es mucho menos útil. Por ejemplo, con una distribución asimétrica muy asimétrica, no puede decir que el mismo% de muestras sería desviación estándar a ambos lados de la media, y es posible que desee encontrar una forma diferente de asociar las probabilidades con las muestras.±1
fuente
El error estándar es la desviación estándar de la estadística (bajo la hipótesis nula, si está probando). Un método general para encontrar el error estándar sería encontrar primero la función de distribución o generación de momento de su estadística, encontrar el segundo momento central y sacar la raíz cuadrada.
Por ejemplo, si está tomando muestras de una distribución normal con media y varianza , la media muestral se distribuye normalmente con media y varianza . Esto puede derivarse de tres propiedades:σ 2 ˉ X = 1μ σ2 X¯=1n∑ni=1Xi μ σ2/n
Por lo tanto, el error estándar de la media muestral, que es la raíz cuadrada de su varianza, es .σ/n−−√
Hay atajos, como si no necesariamente necesitaras encontrar la distribución de la estadística, pero creo que conceptualmente es útil tener las distribuciones en el fondo de tu mente si las conoces.
fuente