Diferencia en medias versus diferencia media

Al estudiar dos medias de muestras independientes, se nos dice que estamos viendo la "diferencia de dos medias". Esto significa que tomamos la media de la población 1 ( ) y le restamos la media de la población 2 ( ). Entonces, nuestra "diferencia de dos medias" es ( - ). $\bar y_1$ $\bar y_2$ $\bar y_1$ $\bar y_2$

Cuando estudiamos medias de muestras pareadas, se nos dice que estamos viendo la "diferencia de medias", . Esto se calcula tomando la diferencia entre cada par y luego tomando la media de todas esas diferencias. $\bar d$

Mi pregunta es: ¿obtenemos lo mismo ( - ) en comparación con su si los calculamos a partir de dos columnas de datos, y la primera vez lo consideramos dos muestras independientes, y la segunda vez lo consideró emparejado ¿datos? He jugado con dos columnas de datos, ¡y parece que los valores son los mismos! En ese caso, ¿se puede decir que los diferentes nombres se usan solo por razones no cuantitativas? $\bar y_1$ $\bar y_2$ $\bar d$

paired-comparisons paired-data mean user84756
fuente

Piénselo de esta manera: ¿cómo calcularía con datos no emparejados?

\bar{d}

$\bar d$

shadowtalker

@ssdecontrol Especialmente si los tamaños de muestra son diferentes.

Alexis

Respuestas:

(Supongo que quiere decir "muestra" y no "población" en su primer párrafo).

La equivalencia es fácil de mostrar matemáticamente. Comience con dos muestras de igual tamaño, y . Luego defina $\{x_1,\dots,x_n\}$ $\{y_1,\dots,y_n\}$

\begin{aligned} \bar{x} & = \frac{1}{n} \sum_{i = 1}^{n} x_{i} \\ \bar{y} & = \frac{1}{n} \sum_{i = 1}^{n} y_{i} \\ \bar{d} & = \frac{1}{n} \sum_{i = 1}^{n} x_{i} - y_{i} \end{aligned}

$\begin{align} \bar x &= \frac{1}{n} \sum_{i=1}^n x_i \\ \bar y &= \frac{1}{n} \sum_{i=1}^n y_i \\ \bar d &= \frac{1}{n} \sum_{i=1}^n x_i - y_i \end{align}$

Luego tiene:

\begin{aligned} \bar{x} - \bar{y} & = (\frac{1}{n} \sum_{i = 1}^{n} x_{i}) - (\frac{1}{n} \sum_{i = 1}^{n} y_{i}) \\ = \frac{1}{n} (\sum_{i = 1}^{n} x_{i} - \sum_{i = 1}^{n} y_{i}) \\ = \frac{1}{n} ((x_{1} + \dots + x_{n}) - (y_{1} + \dots + y_{n})) \\ = \frac{1}{n} (x_{1} + \dots + x_{n} - y_{1} - \dots - y_{n}) \\ = \frac{1}{n} (x_{1} - y_{1} + \dots + x_{n} - y_{n}) \\ = \frac{1}{n} ((x_{1} - y_{1}) + \dots + (x_{n} - y_{n})) \\ = \frac{1}{n} \sum_{i = 1}^{n} x_{i} - y_{i} \\ = \bar{d} . \end{aligned}

$\begin{align} \bar x - \bar y &= \left( \frac{1}{n} \sum_{i=1}^n x_i \right) - \left( \frac{1}{n} \sum_{i=1}^n y_i \right) \\ &= \frac{1}{n} \left( \sum_{i=1}^n x_i - \sum_{i=1}^n y_i \right) \\ &= \frac{1}{n} \left( \left( x_1 + \dots + x_n \right) - \left( y_1 + \dots + y_n \right) \right) \\ &= \frac{1}{n} \left( x_1 + \dots + x_n - y_1 - \dots - y_n \right) \\ &= \frac{1}{n} \left( x_1 - y_1 + \dots + x_n - y_n \right) \\ &= \frac{1}{n} \left( \left( x_1 - y_1 \right) + \dots + \left( x_n - y_n \right) \right) \\ &= \frac{1}{n} \sum_{i = 1}^n x_i - y_i \\ &= \bar d. \end{align}$

Shadowtalker
fuente

Pero dos intervalos de confianza calculados para "la diferencia de las medias" y "la diferencia de medias" serán diferentes, ¿verdad? Esto se puede ver mirando y . Una "diferencia de medias" emparejada será diferente para (que es todo cero) versus (que no es todo cero); La diferencia de los medios no se ve afectada por el orden de los elementos.

A = [1, 2, 3, 4, 5, . . .]

$A = [1, 2, 3, 4, 5, ...]$

B = [. . ., 5, 4, 3, 2, 1]

$B = [..., 5, 4, 3, 2, 1]$

A - A

$A - A$

A - B

$A - B$

bers

No puedo editar mi publicación anterior por más tiempo. La tercera oración debe comenzar "Una secuencia de 'diferencias de medias' emparejadas ..."

bers

@bers, ¿qué tiene que ver con eso?

A - A

$A-A$

shadowtalker

Supongamos que . Entonces y son dos secuencias diferentes. El intervalo de confianza para la diferencia de pares promedio ciertamente será diferente en ambos casos. Pero la diferencia de las medias, y por lo tanto su intervalo de confianza, será idéntica tanto para como para . ¿O estoy equivocado?

C = A

$C=A$

A - C

$A-C$

A - B

$A-B$

A - C

$A-C$

A - B

$A-B$

bers

@bers Creo que estás confundido, pero estoy confundido sobre lo que estás confundido.

shadowtalker

La distribución de la diferencia de medias debe ser más estrecha que la distribución de la diferencia de medias. Vea esto con un ejemplo sencillo: la media en la muestra 1: 1 10 100 1000 la media en la muestra 2: 2 11 102 1000 la diferencia de medias es 1 1 2 0 (a diferencia de las muestras en sí) tiene un estándar pequeño.

Vlad
fuente