La varianza de la proporción de la muestra disminuye con n, pero el recuento aumenta con n, ¿por qué?

9

Tengo un bloqueo intuitivo con esto. Para un problema binomial, la desviación estándar de un conteo es . Por el contrario, la desviación estándar de la proporción muestral disminuye al aumentar es . Puedo hacer la división por pero no sé por qué las desviaciones estándar se mueven en direcciones opuestas.nortepags(1-pags)nortepags(1-pags)nortenorte

usuario39707
fuente
1
Dos cosas: (a) proporción = .count y (b) . Claramente aquí, y . 1norteDakota del Sur(CX)=C.Dakota del Sur(X)C=1norte1nortenorte=1norte
Glen_b -Reinstale a Monica
1
Sí, este es el problema: puedo ver las matemáticas y hacer la división por n, pero es el aspecto intuitivo lo que es extraño. Si me preguntan cómo obtener una estimación más precisa para un parámetro, diría que tome una muestra más grande. Esto me da una mejor estimación de la proporción (OK), pero una extensión más amplia para los recuentos y cuantos más recuentos agrego, más débil es la conclusión que puedo sacar.
user39707
Cuando trabaja con recuentos, ¿para qué cantidad de población está calculando una desviación / intervalo estándar?
Glen_b -Reinstale a Monica
Un ejemplo (Helsinki Heart Study) de un libro (Moore & Mccabe) es donde estoy despegando. Probabilidad (ataque al corazón) = 0.04 & n = 2000. SD para el número esperado de ataques cardíacos funciona como 8.76. Multa. Hubo 84 ataques cardíacos en el grupo placebo y 56 en el grupo tratado. Z = 3.19 y poco probable por casualidad. Si hubiera 10,000 en el ensayo, el SD (conteo) sería ~ 20 y la diferencia en 2 grupos ya no sería significativa. Pero, ¿cómo pueden darme más datos menos discriminación?
user39707
1
¿Son los dos grupos de igual tamaño? ¿El número de ataques cardíacos se mantiene igual cuando aumenta la muestra?
Dimitriy V. Masterov

Respuestas:

7

Muy a grandes rasgos, imagine que estamos lanzando una moneda justa . El éxito se define como cabezas. Si lanzamos la moneda una vez , contará éxito o éxitos. Ambos tienen la misma probabilidad positiva de suceder . Ahora imagine que lanzamos la moneda veces ( ). Ahora aún puede obtener y éxitos (aunque ambos son menos probables), pero también puede obtener a (que son más probables). Si la varianza mide hasta qué punto se extiende un conjunto de números, puede ver que con lanzamientos, la extensión es más amplia que con(norte=1)10 0(1/ /2)10norte=1001210101lanzamiento o juicio. Esto explica por qué la varianza del número de éxitos aumenta con .n

Con la proporción (número de éxitos dividido por número de lanzamientos), está intentando aproximar el valor verdadero de p. A medida que obtiene más información con más ensayos, su incertidumbre acerca depdisminuye, y esa variación se reduce. Con un lanzamiento que sale cara, no sabes mucho (solo esop0). Con10 lanzamientos que resultan ser cabezas, estás bastante seguro de que pags Está cerca de uno.

Dimitriy V. Masterov
fuente
Regresé al libro de texto y parece que todavía no lo entiendo, me temo. El comentario que hice anteriormente sobre el estudio Helsinki Heart resume donde me parece un poco paradójico en este momento
usuario39707
2

Comencemos suponiendo que la desviación estándar de la distribución binomial es correcta (lo es). Esta es la desviación estándar de la distribución del número de éxitos denorte ensayos con probabilidad constante de éxito p. Llama al número de éxitos,X.

Entonces Var(X)=np(1p), que es lo que tienes (desviación estándar al cuadrado).

Dado que una proporción es el número de éxitos sobre el número de ensayos, tenemos:

Var(Xn)=Var(X)n2=np(1p)n2=p(1p)n.

Y por lo tanto, la desviación estándar es, por supuesto, p(1p)norte.

En un caso, está viendo conteos, en el otro está viendo conteos divididos por el tamaño de la muestra.

Intuitivamente, puedes imaginar que los recuentos del número de éxitos son mucho más altos (X=0 0,1,2,...,norte) que una proporción (0 0pags1) Comonorte aumenta, X puede tomar muchos valores enteros diferentes (y más grandes) y tiene más variabilidad; pags, por otro lado, está restringido entre 0 y 1. Entonces X Tiene más variabilidad.

Socavador
fuente
como llegaste Vunar(Xnorte)=Vunar(X)norte2? ¿Por qué es el denominador?norte2?
user490895
Var(X)=E(X2)[E(X)]2 entonces Var(cX)=E(c2X2)[cE(X)]2 =c2E(X2)c2E(X)2 =c2(E(X2)[E(X)]2) =c2Var(X). Aquí,c=1/n. Hice un error tipográfico en la tercera igualdad de la respuesta que arreglaré ahora.
Underminer
0

¡Bueno! Lo haré muy fácil.

Cuando usas el estándar y la varianza USUALMENTE estás mirando hacia atrás, tratando de ver qué está pasando y luego proyectando el futuro. Al mirar hacia atrás, las más pruebas generalmente ayudan a obtener MÁS información. Cada vez más ensayos ayudan a reducir lo que sucedió. y ahora giras mejor alrededor de la media. Std y var simplemente giran alrededor de la media para que te acerques cada vez más a lo que sucederá.

¡Binomial es diferente! Ya sabemos lo que pasa, sabemos la probabilidad. mirar hacia atrás no es tan útil porque, bueno, ya sabemos la probabilidad. Cada vez más pruebas no nos ayudan a comprender mejor y mejor cómo las cosas giran alrededor de la media, solo nos da una distribución cada vez más amplia. aumentar las pruebas realmente solo da más espacio para la variación.

Imagine dos escenarios: uno que quiera saber qué tan alto es cada persona en una habitación. más mediciones = más cerca de la altura promedio real en la habitación, está agradecido por cada nueva medición.

segundo tienes una moneda. ya sabes cuál es el promedio. es 50/50 quiero decir en ese punto ya está hecho. así que vamos a fingir que empiezas a voltear, bueno, cada nueva vuelta solo tiene más margen de error. volteas 10 veces y obtienes las 10 cabezas, le dices a tu amigo, ¡qué diablos! ¿Dónde estaban las probabilidades de eso, eso es tan tonto? bueno, si solo lo volteaste una vez, solo hubieras tenido una oportunidad para algunos valores atípicos. más flips realmente no te dan más información, solo dan más espacio para resultados locos.

0 matemáticas y 0 fórmulas, espero que ayude.

ríos zack
fuente
0

Si está buscando intuición sobre este resultado, pregúntese cuál de las siguientes cosas es más variable:

  • ... la proporción de mujeres en un hogar, o la proporción de mujeres en todo un país?

  • ... el número de mujeres en un hogar, o el número de mujeres en todo un país?

Ben - Restablece a Monica
fuente