Derivar los estimadores de máxima verosimilitud
Supongamos que tenemos vectores aleatorios, cada uno de tamaño : donde cada vector aleatorio puede ser interpretado como una observación (punto de datos) a través de variables. Si cada son iid como vectores gaussianos multivariados:p X ( 1 ) , X ( 2 ) , . . . , X ( mmp p X ( i )X(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
Donde los parámetros son desconocidos. Para obtener su estimación, podemos usar el método de máxima verosimilitud y maximizar la función log verosimilitud.μ,Σ
Tenga en cuenta que, por la independencia de los vectores aleatorios, la densidad conjunta de los datos es el producto de las densidades individuales , es decir . Tomar el logaritmo da la función de log-verosimilitud∏ m i = 1 f X ( i ) ({X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l(μ,Σ|x(i))=log∏i=1mfX(i)(x(i)|μ,Σ)=log ∏i=1m1(2π)p/2|Σ|1/2exp(−12(x(i)−μ)TΣ−1(x(i)−μ))=∑i=1m(−p2log(2π)−12log|Σ|−12(x(i)−μ)TΣ−1(x(i)−μ))
l(μ,Σ;)=−mp2log(2π)−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)
Derivandoμ^
Para tomar la derivada con respecto a y equiparar a cero, haremos uso de la siguiente identidad de cálculo de matriz:μ
wAA∂wTAw∂w=2Aw si
no depende de y es simétrico.wAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
Que a menudo se llama el vector medio de la muestra .
DerivandoΣ^
Derivar el MLE para la matriz de covarianza requiere más trabajo y el uso de las siguientes propiedades de álgebra lineal y cálculo:
- La traza es invariante en permutaciones cíclicas de productos de matriz:tr[ACB]=tr[CAB]=tr[BCA]
- Como es escalar, podemos tomar su rastro y obtener el mismo valor:x t A x = t r [ x T A x ] = t r [ xxTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
La combinación de estas propiedades nos permite calcular
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
Cuál es el producto externo del vector consigo mismo.x
Ahora podemos reescribir la función log-verosimilitud y calcular la derivada wrt (nota es constante)Σ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
Igualando a cero y resolviendo paraΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
Fuentes
Una prueba alternativa para que toma la derivada con respecto a directamente:Σˆ Σ
Continuando con la probabilidad de registro como se arriba: donde y hemos utilizado las propiedades cíclicas y lineales de . Para calcular , primero observamos queℓ(μ,Σ)===C−m2log|Σ|−12∑i=1mtr[(x(i)−μ)TΣ−1(x(i)−μ)]C−12(mlog|Σ|+∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1])C−12(mlog|Σ|+tr[SμΣ−1]) Sμ=∑mi=1(x(i)−μ)(x(i)−μ)T tr ∂ℓ/∂Σ ∂∂Σlog|Σ|=Σ−T=Σ−1
por la cuarta propiedad anterior. Para tomar la derivada del segundo término necesitaremos la propiedad que
(del libro de cocina Matrix , ecuación 63). Aplicando esto con obtenemos que
porque tanto como son simétricos. Luego
∂∂Xtr(AX−1B)=−(X−1BAX−1)T. B=I ∂∂Σtr[SμΣ−1]=−(Σ−1SμΣ−1)T=−Σ−1SμΣ−1 Σ Sμ ∂∂Σℓ(μ,Σ)∝mΣ−1−Σ−1SμΣ−1.
Establecer esto en 0 y reorganizar da
Σ =Σˆ=1mSμ.
Este enfoque es más trabajo que el estándar que utiliza derivados con respecto a , y requiere una identidad de rastreo más complicada. Solo lo encontré útil porque actualmente necesito tomar derivados de una función de probabilidad modificada para la que parece mucho más difícil usar que .Λ=Σ−1 ∂/∂Σ−1 ∂/∂Σ
fuente