¿Por qué el denominador del estimador de covarianza no debería ser n-2 en lugar de n-1?

36

El denominador del estimador de varianza (imparcial) es ya que hay observaciones y solo se está estimando un parámetro.n1n

V(X)=i=1n(XiX¯)2n1

Por la misma razón, me pregunto por qué el denominador de covarianza no debería ser cuando se estiman dos parámetros.n2

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1
MYaseen208
fuente
15
Si hiciera eso, tendría dos definiciones en conflicto para la varianza: uno sería la primera fórmula y el otro sería la segunda fórmula aplica con . Y=X
whuber
3
Una media bi / multivariada (expectativa) es uno, no 2 parámetros.
ttnphns
14
@ttnphns Eso no es cierto: la media bivariada es obviamente dos parámetros porque requiere dos números reales para expresarla. (De hecho, es un parámetro vectorial único , pero decirlo solo disfraza el hecho de que tiene dos componentes). Esto se muestra explícitamente en los grados de libertad para las pruebas t de varianza agrupada, por ejemplo, donde se resta , no . Lo interesante de esta pregunta es cómo revela cuán vaga, poco rigurosa y potencialmente engañosa es la "explicación" común de que restamos de porque se ha estimado un parámetro. 1 1 n211n
whuber
@whuber, tienes razón en eso. Si fuera solo (observaciones independientes) lo que importa, no gastaríamos más df en pruebas multivariadas que en pruebas univariadas. n
ttnphns
3
@whuber: Quizás diría que muestra que lo que cuenta como "un parámetro" depende de la situación. En este caso, la varianza se calcula sobre observacionesn y, por lo tanto, cada observación, o la media total, puede verse como un parámetro, incluso si se trata de una media multivariada, como dijo ttnphns. Sin embargo, en otros casos cuando, por ejemplo, una prueba considera combinaciones lineales de dimensiones, cada dimensión de cada observación se convierte en "un parámetro". Tienes razón en que este es un tema complicado.
ameba dice Reinstate Monica

Respuestas:

31

Las covarianzas son variaciones.

Ya que por la identidad de polarización

Cov(X,Y)=Var(X+Y2)Var(XY2),

Los denominadores deben ser iguales.

whuber
fuente
20

Un caso especial debería darte una intuición; piensa en lo siguiente:

Cov^(X,X)=V^(X)

Está contento de que este último sea debido a Corrección de Bessel.i=1n(XiX¯)2n1

Pero reemplazar por en por el primero da , entonces, ¿qué crees que podría llenar mejor el espacio en blanco?X ^ C o v ( X , Y ) n i = 1 ( XYXCov^(X,Y)i=1n(XiX¯)(XiX¯)mystery denominator

Lepisma
fuente
1
OKAY. Pero el OP podría preguntar "¿por qué considerar cov (X, X) y cov (X, Y) en una línea lógica? ¿Por qué reemplaza Y por X en cov () con frialdad? Quizás cov (X, Y) es una situación diferente? No evitaste eso, mientras que la respuesta (altamente votada) debería tener, en mi impresión :-)
ttnphns
7

Una respuesta rápida y sucia ... Consideremos primero ; si tuviera observaciones con el valor esperado conocido , usaría para estimar la varianza.n E ( X ) = 0 1var(X)n E(X)=01ni=1nXi2

Al ser desconocido el valor esperado, puede transformar sus observaciones en observaciones con el valor esperado conocido tomando para . Obtendrá una fórmula con un en el denominador; sin embargo, los no son independientes y deberá tener esto en cuenta; al final encontrarás la fórmula habitual.n - 1 A i = X i -nn1 i = 2 , , n n - 1 A iAi=XiX1i=2,,nn1Ai

Ahora, para la covarianza, puede usar la misma idea: si el valor esperado de fuera , tendría un en la fórmula. Al restar a todos los demás valores observados, obtiene observaciones con el valor esperado conocido ... y un en la fórmula; una vez más, esto introduce cierta dependencia para tener en cuenta cuenta.( 0 , 0 ) 1(X,Y)(0,0)1nn - 1 1(X1,Y1)n11n1

PD La manera limpia de hacerlo es elegir una base ortonormal de , es decir, vectores tal que n(1,,1)c 1 , , c n - 1R nn1c1,,cn1Rn

  • ijcij2=1 para todo ,i
  • ijcij=0 para todo ,i
  • i 1i 2jci1jci2j=0 para todos .i1i2

Luego puede definir variables y . Los son independientes, tienen un valor esperado y tienen la misma varianza / covarianza que las variables originales.A i = j c i j X j B i = j c i j Y j ( A i , B i ) ( 0 , 0 )n1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

Todo el punto es que si quieres deshacerte de la expectativa desconocida, sueltas una (y solo una) observación. Esto funciona igual para ambos casos.

Elvis
fuente
6

Aquí hay una prueba de que el estimador de covarianza muestral con variante p con denominador es un estimador imparcial de la matriz de covarianza:1n1

.x=(x1,...,xp)

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

Para mostrar: E(S)=n1nΣ

Prueba: S=1nxixix¯x¯

Próximo:

(1) E(xixi)=Σ+μμ

(2) E(x¯x¯)=1nΣ+μμ

Por lo tanto: E(S)=Σ+μμ(1nΣ+μμ)=n1nΣ

Y entonces , con el denominador final1Su=nn1S , es imparcial. Los elementos fuera de la diagonal deSuson sus covarianzas de muestra individuales.1n1Su

Observaciones adicionales:

  1. Los n sorteos son independientes. Esto se usa en (2) para calcular la covarianza de la media muestral.

  2. Los pasos (1) y (2) usan el hecho de que Cov(x)=E[xx]μμ

  3. El paso (2) utiliza el hecho de que Cov(x¯)=1nΣ

statchrist
fuente
¡La dificultad está en el paso 2! :)
Elvis
@ Elvis Está desordenado. Es necesario aplicar la regla Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z) y reconocer que los diferentes sorteos son independientes. Básicamente, se trata de resumir la covarianza n veces y
reducirla
4

Supongo que una forma de desarrollar la intuición detrás del uso de 'n-1' y no 'n-2' es: para calcular la covarianza, no es necesario que quisemos decir X e Y, sino cualquiera de los dos, es decir

Uditg_ucla
fuente
¿Podrías explicar cómo se relaciona esto con la pregunta de qué denominador usar? La relación algebraica en la evidencia deriva del hecho de que los residuos relativos a la media suman cero, pero por lo demás no dice qué denominador es relevante.
whuber
55
Vine aquí porque tenía la misma pregunta que el OP. Creo que esta respuesta llega al meollo del punto @whuber señalado anteriormente: que la regla general es que df ~ = n - (parámetros estimados) pueden ser "vagos, poco rigurosos y potencialmente engañosos". Esto señala el hecho de que aunque parece que necesita estimar dos parámetros (xbar e ybar), en realidad solo estima uno (xbar o ybar). Como el df debería ser el mismo en ambos casos, debe ser el más bajo de los dos. Creo que esa es la intención aquí.
mpettis
1

1) Inicio .df=2n

Σi=1n(XiX¯)(YiY¯)dfX¯Y¯df=2(n1)

Σi=1n(XiX¯)(YiY¯)n

Como un ejemplo trillado, considere que

24=124=212=38=46=64=83=122=241

24=2626df=n1

En otras palabras, sin pérdida de generalidad podemos escribir

(XiX¯)(YiY¯)=ziz¯ziz¯

zi=XiYiX¯YiXiY¯z¯=X¯Y¯zdf=n1

Σi=1nziz¯n1=

Σi=1n[(XiX¯)(YiY¯)]n1=

1n1Σi=1n(XiX¯)(YiY¯)

df

Carl
fuente
@whuber ¿Cómo demonios conseguí lo mismo publicado dos veces y eliminado una vez? ¿Lo que da? ¿Podemos deshacernos de uno de ellos? Para referencia futura, ¿hay alguna forma de eliminar permanentemente tales duplicados? Tengo algunos dando vueltas y es molesto.
Carl
Por lo que puedo decir, volviste a publicar tu respuesta desde el duplicado hasta aquí. (Nadie más tiene el poder de publicar respuestas en su nombre.) El sistema desaconseja publicar respuestas idénticas en múltiples hilos, así que cuando vi eso, me convenció de que estos dos hilos son duplicados perfectos y los "fusioné". Este es un procedimiento que mueve todos los comentarios y respuestas del hilo de origen al hilo de destino. Luego eliminé tu publicación duplicada aquí en el hilo objetivo. Permanecerá permanentemente eliminado, pero será visible tanto para usted como para personas de reputación suficientemente alta.
whuber
@whuber No sabía qué sucede en una fusión, si se estaba llevando a cabo una fusión o cuáles son muchas de las reglas, a pesar de buscar cosas constantemente. Toma tiempo aprender, tenga paciencia, por cierto, ¿consideraría eliminar stats.stackexchange.com/questions/251700/…Hold ?
Carl