Error estándar para la media de una muestra de variables aleatorias binomiales

44

Supongamos que yo estoy corriendo un experimento que puede tener 2 resultados, y estoy suponiendo que el subyacente "verdadera" distribución de los resultados 2 es una distribución binomial con parámetros y : .npBinomial(n,p)

Puedo calcular el error estándar, , a partir de la forma de la varianza de : donde . Entonces, . Para el error estándar obtengo: , pero he visto en algún lugar que . ¿Qué hice mal?SEX=σXnBinomial(n,p)

σX2=npq
q=1pσX=npqSEX=pqSEX=pqn
Franco
fuente
Este artículo es muy útil para comprender el error estándar de los
puntos
Desde mi búsqueda en Google, parece que el tema estrechamente relacionado de obtener intervalos de confianza para una distribución binomial es bastante matizado y complicado. En particular, parece que los intervalos de confianza obtenidos de esta fórmula, que serían "Intervalos de Wald" (ver en.wikipedia.org/wiki/Binomial_proportion_confidence_interval ), se comportan bastante mal y deben evitarse. Consulte jstor.org/stable/2676784?seq=1#metadata_info_tab_contents para obtener más información.
aquirdturtle

Respuestas:

58

Parece que está usando dos veces de dos maneras diferentes, tanto como el tamaño de la muestra como el número de ensayos de Bernoulli que comprenden la variable aleatoria Binomial; Para eliminar cualquier ambigüedad, voy a usar para referirme a este último.knk

Si tiene muestras independientes de una distribución , la varianza de su media muestral esB i n o m i a l ( k , p )nBinomial(k,p)

var(1ni=1nXi)=1n2i=1nvar(Xi)=nvar(Xi)n2=var(Xi)n=kpqn

donde y es la misma media. Esto sigue desde¯ Xq=1pX¯

(1) , para cualquier variable aleatoria, y cualquier constante .var(cX)=c2var(X)cXc

(2) la varianza de una suma de variables aleatorias independientes es igual a la suma de las varianzas .

El error estándar de es la raíz cuadrada de la varianza: . Por lo tanto,X¯kpqn

  • Cuando , obtiene la fórmula que señaló:k=npq

  • Cuando , y las variables binomiales son solo ensayos de Bernoulli , obtienes la fórmula que has visto en otra parte:k=1pqn

Macro
fuente
3
Cuando es una variable aleatoria de bernoulli , entonces . Cuando tiene una variable aleatoria binomial basada en ensayos con probabilidad de éxito , entoncesv a r ( X ) = p q X n p v a r ( X ) = n p qXvar(X)=pqXnpvar(X)=npq
Macro
2
¡Gracias! Levantaste mi confusión. Lamento que fuera tan elemental, todavía estoy aprendiendo :-)
Frank
66
Entonces, ¿está claro para Frank que estamos usando el hecho de que para cualquier constante c Var (cX) = c Var (x)? Dado que la estimación muestral de la proporción es X / n tenemos Var (X / n) = Var (X) / n = npq / n = pq / ny SEx es la raíz cuadrada de eso. Creo que es más claro para todos si detallamos todos los pasos. 2 2222
Michael Chernick
1
@MichaelChernick, he aclarado los detalles que mencionaste. Basado en la descripción del problema, supuse que Frank conocía estos hechos, pero tiene razón en que sería más educativo para futuros lectores incluir los detalles.
Macro
2
Sol Lago - En este caso k = 1. Si lanzas una moneda 50 veces y calculas el número de éxitos y luego repites el experimento 50 veces, entonces k = n = 50. Un lanzamiento de una moneda da como resultado 1 o 0. Es un rv de Bernoulli
B_Miner
9

Es fácil confundir dos distribuciones binomiales:

  • distribución de número de éxitos
  • distribución de la proporción de éxitos

npq es el número de éxitos, mientras que npq / n = pq es la proporción de éxitos. Esto da como resultado diferentes fórmulas de error estándar.

Vlad
fuente
6

Podemos ver esto de la siguiente manera:

Supongamos que estamos haciendo un experimento donde necesitamos lanzar una moneda imparcial veces. El resultado general del experimento es que es la suma de los lanzamientos individuales (por ejemplo, cabeza como 1 y cola como 0). Entonces, para este experimento, , donde son resultados de lanzamientos individuales.Y Y = n i = 1 X i X inYY=i=1nXiXi

Aquí, el resultado de cada lanzamiento, , sigue una distribución de Bernoulli y el resultado general sigue una distribución binomial. YXiY

El experimento completo puede pensarse como una sola muestra. Por lo tanto, si repetimos el experimento, podemos obtener otro valor de , que formará otra muestra. Todos los valores posibles de constituirán la población completa.YYY

Volviendo al lanzamiento de una moneda, que sigue una distribución de Bernoulli, la varianza viene dada por , donde es la probabilidad de cara (éxito) y .ppqpq=1p

Ahora, si miramos la varianza de , . Pero, para todos los experimentos individuales de Bernoulli, . Como hay lanzamientos o pruebas de Bernoulli en el experimento, . Esto implica que tiene varianza .V ( Y ) = V ( X iYV ( X i ) = p q n V ( Y ) = V ( X i ) = n p q Y n p qV(Y)=V(Xi)=V(Xi)V(Xi)=pqnV(Y)=V(Xi)=npqYnpq

Ahora, la proporción de la muestra viene dada por , que da la 'proporción de éxito o cabezas'. Aquí, es una constante ya que planeamos tomar el mismo número de monedas para todos los experimentos en la población. np^=Ynn

Entonces, .V(Yn)=(1n2)V(Y)=(1n2)(npq)=pq/n

Entonces, el error estándar para (una estadística de muestra) esp^pq/n

Tarashankar
fuente
Puede usar la composición tipográfica Latex colocando dólares en sus matemáticas, por ejemplo, $x$da . x
Silverfish
Tenga en cuenta que el paso realmente merece alguna justificación. V(Xi)=V(Xi)
pececillo de plata
Hay un error tipográfico en la última deducción, V (Y / n) = (1 / n ^ 2) * V (Y) = (1 / n ^ 2) * npq = pq / n debería ser la deducción correcta.
Tarashankar
Disculpas, lo presenté al hacer la composición tipográfica. Ojalá resuelto ahora.
Silverfish
1
Eso es cierto si los no están correlacionados: para justificar esto, usamos el hecho de que se supone que los ensayos son independientes. Xi
Silverfish
2

Creo que también hay cierta confusión en la publicación inicial entre error estándar y desviación estándar. La desviación estándar es el sqrt de la varianza de una distribución; El error estándar es la desviación estándar de la media estimada de una muestra de esa distribución, es decir, la extensión de las medias que observaría si hiciera esa muestra infinitas veces. El primero es una propiedad intrínseca de la distribución; este último es una medida de la calidad de su estimación de una propiedad (la media) de la distribución. Cuando realiza un experimento de N ensayos de Bernouilli para estimar la probabilidad desconocida de éxito, la incertidumbre de su p = k / N estimado después de ver k éxitos es un error estándar de la proporción estimada, sqrt (pq / N) donde q = 1 -pags. La distribución verdadera se caracteriza por un parámetro P, la verdadera probabilidad de éxito.

Stan
fuente