¿Es posible encontrar la desviación estándar combinada?

32

Supongamos que tengo 2 juegos:

Conjunto A : número de elementos , μ = 2.4 , σ = 0.8n=10μ=2.4σ=0.8

Conjunto B : número de elementos , μ = 2 , σ = 1.2n=5μ=2σ=1.2

Puedo encontrar la media combinada ( ) fácilmente, pero ¿cómo se supone que debo encontrar la desviación estándar combinada?μ

kype
fuente

Respuestas:

30

Entonces, si solo desea que dos de estas muestras se unan en una, tiene:

s1=1n1Σi=1n1(xiy¯1)2

s2=1n2Σi=1n2(yiy¯2)2

donde y ˉ y 2 son medias de muestra y s 1 y s 2 son desviaciones estándar de muestra.y¯1y¯2s1s2

Para sumarlos tienes:

s=1n1+n2Σi=1n1+n2(ziy¯)2

lo cual no es tan sencillo ya que la nueva media es diferente de ˉ y 1 y ˉ y 2 :y¯y¯1y¯2

y¯=1n1+n2Σi=1n1+n2zi=n1y¯1+n2y¯2n1+n2

La fórmula final es:

s=n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2

Para la versión de desviación estándar de Bessel corregida (" denominador") de uso común, los resultados para las medias son como antes, peron1

s=(n11)s12+(n21)s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n21

Puede leer más información aquí: http://en.wikipedia.org/wiki/Standard_deviation

sashkello
fuente
1
n1
En ese caso, esta sección hace el truco. (edite para vincular a la versión antigua de Wikipedia ya que se eliminó de la nueva)
Glen_b -Reinstale Monica
@Glen_b Buena captura. ¿Puedes editar esto en la respuesta para que sea más útil entonces?
sashkello
Fui a Wikipedia para encontrar la prueba, pero desafortunadamente esta fórmula ya no está allí. ¿Te gustaría elaborar (la prueba) o mejorar Wikipedia? :)
Rauni Lillemets
8

K

s=k=1K(nk1)sk2+nk(y¯ky¯)2(k=1Knk)1
Ravi Varadhan
fuente
77
Esto es un poco breve para nuestros estándares. ¿Podría decir un poco más sobre cómo se deriva esto y por qué esta es la respuesta correcta?
Sycorax dice Reinstate Monica
1

Tuve el mismo problema: teniendo la desviación estándar, las medias y los tamaños de varios subconjuntos con intersección vacía, calcule la desviación estándar de la unión de esos subconjuntos.

Me gusta la respuesta de sashkello y Glen_b ♦ , pero quería encontrar una prueba de ello. Lo hice de esta manera, y lo dejo aquí en caso de que sea de ayuda para alguien.


s=(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2

(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1(xiy1¯)2+i=1n2(yiy2¯)2+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1((xiy1¯)2+(y¯1y¯)2)+i=1n2((yiy2¯)2+(y¯2y¯)2)n1+n2)1/2=(i=1n1(xi2+y¯2+2y1¯22xiy1¯2y1¯y¯)n1+n2+i=1n2(yi2+y¯2+2y2¯22yiy2¯2y2¯y¯)n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯i=1n1xin1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯i=1n2yin1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯n1y1¯n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯n2y2¯n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)n1+n2)1/2

2y¯j=1n1xjn1
n1
i=1n1(xi2+y¯22y¯xi),

=(i=1n1(xiy¯)2n1+n2+i=1n2(yiy¯)2n1+n2)1/2=(i=1n1+n2(ziy¯)2n1+n2)1/2=s

Dicho esto, probablemente haya una manera más simple de hacer esto.

k

iipr
fuente
No veo cómo la pregunta es clara. ¿Se supone que los dos conjuntos de datos provienen de la misma distribución? ¿El OP tiene las observaciones reales disponibles o solo las estimaciones de muestra de la media y la desviación estándar?
Michael R. Chernick
Sí, se supone que provienen de la misma distribución. Las observaciones no están disponibles, solo la media y la desviación estándar de los subconjuntos.
iipr
Entonces, ¿por qué están usando una fórmula que involucra las observaciones individuales?
Michael R. Chernick
Quizás mi respuesta no sea clara. Simplemente estoy publicando una prueba matemática de la fórmula anterior que permite calcular a spartir de las desviaciones estándar, medias y tamaños de dos subconjuntos. En la fórmula no hay referencia a las observaciones individuales. En la prueba hay, pero es solo una prueba, y desde mi punto de vista, correcta.
iipr