¿Cuál es la estimación de máxima verosimilitud de la covarianza de los datos normales bivariados cuando se conocen la media y la varianza?

10

Supongamos que tenemos una muestra aleatoria de una distribución normal bivariada que tiene ceros como medias y unos como varianzas, por lo que el único parámetro desconocido es la covarianza. ¿Cuál es el MLE de la covarianza? Sé que debería ser algo así como pero ¿cómo sabemos esto?1nj=1nxjyj

Stacy
fuente
1
Como titular, ¿no crees que es un poco incierto calcular las medias con y cuando de hecho sabemos que son 0 y 0? ˉ yX¯y¯
Wolfgang
Muy impuro, lo arregló. Todavía no veo cómo esto puede seguir fácilmente. Es análogo a la varianza de la muestra, pero ¿por qué es el MLE (a menos que no sea así y cometí otro error)
Stacy
¿Ha eliminado ? Tomar esta fórmula no significa que considere y como las estimaciones de las medias. ˉ x ˉ y1norteyo=1norte(Xyo-X¯)(yyo-y¯)X¯y¯
Stéphane Laurent
@ StéphaneLaurent Sí, en la publicación inicial, la fórmula se proporcionó tal como la escribió.
Wolfgang

Respuestas:

11

El estimador del coeficiente de correlación (que en el caso de un estándar bivariado normal es igual a la covarianza)

r~=1norteyo=1norteXyoyyo

es el estimador del Método de Momentos, la covarianza muestral. Veamos si coincide con el estimador de máxima verosimilitud, .ρ^

La densidad articular de un estándar bivariado normal con coeficiente de correlación esρ

F(X,y)=12π1-ρ2Exp{-X2+y2-2ρXy2(1-ρ2)}

y entonces la probabilidad logarítmica de una muestra iid de tamaño esnorte

EnL=-norteEn(2π)-norte2En(1-ρ2)-12(1-ρ2)yo=1norte(Xyo2+yyo2-2ρXyoyyo)

(aquí la suposición de iid es con respecto a cada dibujo de la población bidimensional, por supuesto)

Tomar la derivada con respecto a y establecerla igual a cero da un polinomio de grado 3d en ρ :ρρ

ρ^:norteρ^3-(yo=1norteXyoyyo)ρ^2-(1-1norteyo=1norte(Xyo2+yyo2))norteρ^-yo=1norteXyoyyo=0 0

Se puede verificar que los cálculos sean correctos si se toma el valor esperado de la derivada evaluada con el coeficiente verdadero será igual a cero.ρ

Por compacidad, de escritura , que es la suma de la muestra de varianzas de X y Y . Si dividimos la expresión de la 1ª derivada por n , aparecerá el estimador MoM, específicamente(1/ /norte)yo=1norte(Xyo2+yyo2)=(1/ /norte)S2XYnorte

ρ^:ρ^3-r~ρ^2+[(1/ /norte)S2-1]ρ^-r~=0 0

ρ^(ρ^2-r~ρ^+[(1/ /norte)S2-1])=r~

Haciendo el álgebra, no es difícil concluir que obtendremos ρ = ~ r si, y sólo si, ( 1 / n ) S 2 = 2 , es decir, sólo si se da la circunstancia de que la suma de las varianzas de muestra es igual a la suma de verdaderas variaciones. Entonces en generalρ^=r~(1/ /norte)S2=2

ρ^r~

Entonces, ¿qué pasa aquí? Alguien más sabio lo explicará, por el momento, intentemos una simulación: generé una muestra iid de dos normales estándar con coeficiente de correlación . El tamaño de la muestra fue n = 1.000 . Los valores de la muestra fueronρ=0.6norte=1.000

yo=1norteXyoyyo=522.05,S2=1913,28

El estimador del Método de Momentos nos da

r~=522.051000=0,522

¿Qué pasa con el log-verosimilitud? Visualmente tenemos

ingrese la descripción de la imagen aquí

Numéricamente tenemos

ρ1st derivlnL0.5 0.5-70,92-783,650,51-59,41-782,470,52-47,7-781,480,53-35,78-780,680,54-23,64-780,10,55-11,29-779,750,561,29-779,640,5714.1-779,810,5827,15-780,270,5940,44-781.050.653,98-782,18

y vemos que el logaritmo de la verosimilitud tiene un máximo un poco antes de , donde también la primera derivada se convierte en cero ( ρ = 0,558985 ) . No hay sorpresas para los valores de ρ no mostrados. Además, la primera derivada no tiene otra raíz.ρ=0,56(ρ^=0.558985)ρ

Entonces, esta simulación concuerda con el resultado de que el estimador de máxima verosimilitud no es igual al método del estimador de momentos (que es la covarianza de la muestra entre los dos rv).

Pero parece que "todos" están diciendo que debería ... así que alguien debería dar una explicación.

ACTUALIZAR

Una referencia que prueba que el MLE es el estimador del Método de Momentos: Anderson, TW y Olkin, I. (1985). Estimación de máxima verosimilitud de los parámetros de una distribución normal multivariante. Álgebra lineal y sus aplicaciones, 70, 147-171.
¿Importa que aquí todos los medios y las variaciones sean libres de variar y no repararse?

... Probablemente sí, porque el comentario de @ guy en otra respuesta (ahora eliminada) dice que, con los parámetros de media y varianza dados , la bivariada normal se convierte en un miembro de la familia exponencial curva (y algunos resultados y propiedades cambian) ... que parece ser la única forma de conciliar los dos resultados.

Alecos Papadopoulos
fuente
1
Esto es un poco sorprendente, pero después de algunas reflexiones debería esperarse. El problema puede reformularse como la estimación del coeficiente de regresión en el modelo Y = ρ X + ϵ donde ϵ N ( 0 , ρY=ρX+ϵ. Este no es un modelo lineal, por lo que no hay razón para esperar que el MLE sea un simple producto de puntos. La misma lógica muestra (¡creo!) Que si solo conocemosVar(X),entonces el MLE esxy/xx, yxy/yysi solo conocemosVar(Y). Si no lo sabemos, obtenemos su estimador MOM. ϵN(0,1ρ22)Var(X)xy/xxxy/yyVar(Y)
chico
1
@ Guy: Muy interesante. ¡Creo que estos argumentos, si se expanden ligeramente, merecen ser publicados como una respuesta por separado!
ameba
ϵ2=(y-ρX)2=y2-2ρXy+ρ2X2ρ2X2
1norteyo=1norte(Xyo-X¯)(yyo-y¯)norte=2y1=y20 0
1
X2+y2-2ρXy=(1-ρ2)X2+(y-ρX)2(1-ρ2)X2(1-ρ2)(y-ρX)2/ /(1-ρ2)Xnorte(μX,σX2)[YEl |X]norte(μY+ρXσYσX(X-μX),σYEl |X21-ρ22)σY/ /σX
2

μX=μY=0 0σX=σY=1norte

L(ρEl |X,Y)=1(2π[1-ρ2])norte/ /2Exp[-12(1-ρ2)(XX-2ρXY+YY)].

ρρ^

Dennis
fuente