Digamos que tengo una densidad normal multivariada . Quiero obtener la segunda derivada (parcial) wrt . No estoy seguro de cómo tomar derivada de una matriz.
Wiki dice que tome el elemento derivado por elemento dentro de la matriz.
Estoy trabajando con la aproximación de Laplace El modo es .Θ = μ
Me dieron ¿cómo sucedió esto?
Lo que he hecho:
Entonces, tomo la derivada wrt para , en primer lugar, hay una transposición, en segundo lugar, es una matriz. Entonces, estoy atascado.
Nota: Si mi profesor se encuentra con esto, me estoy refiriendo a la conferencia.
self-study
normal-distribution
matrix
usuario1061210
fuente
fuente
Respuestas:
En el capítulo 2 del Matrix Cookbook hay una buena revisión del material de cálculo matricial que brinda muchas identidades útiles que ayudan con los problemas que uno encontraría al hacer la probabilidad y las estadísticas, incluidas las reglas para ayudar a diferenciar la probabilidad gaussiana multivariada.
Si tiene un vector aleatorio que es multivariante normal con el vector medio y la matriz de covarianza , use la ecuación (86) en el libro de cocina de la matriz para encontrar que el gradiente de la probabilidad de registro con respecto a esμ Σ L μy μ Σ L μ
Dejaré que usted diferencie esto nuevamente y encuentre la respuesta como .-Σ- 1
Como "crédito adicional", use las ecuaciones (57) y (61) para encontrar que el gradiente con respecto a esΣ
He omitido muchos de los pasos, pero hice esta derivación utilizando solo las identidades que se encuentran en el libro de cocina de la matriz, por lo que te lo dejaré a ti para completar los vacíos.
He usado estas ecuaciones de puntuación para la estimación de máxima verosimilitud, así que sé que son correctas :)
fuente
Debe asegurarse de cuidar adecuadamente los elementos repetidos en , de lo contrario, sus derivados serán incorrectos. Por ejemplo, (141) el Matrix Cookbook proporciona para un simétrico las siguientes derivadasΣΣ Σ
Y (14) de la diferenciación de las funciones de las matrices de covarianza da
donde denota el producto Hadmard y por conveniencia hemos definido .x : = y - μ∘ x : = y - μ
Tenga en cuenta en particular que esto no es lo mismo que cuando no se impone la simétrica de . Como resultado tenemos esoΣ
donde denota la dimensión de , y y la derivada dees 0x yre X y D log | 2 π |μ Registro DEl | 2πEl |
Esto garantiza que el elemento de corresponde a .∂ Li , jt h ∂L∂L∂Σ ∂L∂Σyo j
fuente
Traté de verificar computacionalmente la respuesta de @ Macro pero encontré lo que parece ser un error menor en la solución de covarianza. Obtuvo Sin embargo, parece que la solución correcta es en realidad El siguiente script R proporciona un ejemplo simple en el que se calcula la diferencia finita para cada elemento de . Demuestra queB=2A-diag(A)ΣA
fuente