Al realizar la regresión, si vamos por la definición de: ¿Cuál es la diferencia entre una probabilidad parcial, probabilidad de perfil y probabilidad marginal?
eso, máxima verosimilitud
Encuentra β y θ que maximiza L (β, θ | datos).
Mientras, probabilidad marginal Integramos
θ a partir de la ecuación de probabilidad explotando el hecho de que podemos identificar la distribución de probabilidad de θ condicional en β.
¿Cuál es la mejor metodología para maximizar y por qué?
fuente
Estoy lidiando con esta pregunta yo mismo en este momento. Aquí hay un resultado que puede ser útil. Considere el modelo lineal.
donde y β y σ 2 son los parámetros de interés. La probabilidad conjunta esy∈Rn,β∈Rp, β σ2
Optimizar los rendimientos de probabilidad conjunta
donde es la pseudoinverse de X y r = y - X β es el vector residual en forma. Nótese que en σ 2 tenemos 1 / n en lugar de los grados de libertad familiares corregidos relación de 1 / ( n - p )X+ X r=y−Xβ^ σ^2 1/n 1/(n−p) . Se sabe que este estimador está sesgado en el caso de muestras finitas.
Ahora supongamos que en lugar de optimizar tanto como σ 2 , integramos β out y estimamos σ 2 a partir de la probabilidad integrada resultante:β σ2 β σ2
Usando álgebra lineal elemental y la fórmula integral gaussiana, puede mostrar que
Esto tiene la corrección de grados de libertad que lo hace imparcial y generalmente favorecido sobre la estimación conjunta de LD.
A partir de este resultado, uno podría preguntarse si hay algo inherentemente ventajoso sobre la probabilidad integrada, pero no conozco ningún resultado general que responda a esa pregunta. El consenso parece ser que el LD integrado es mejor para dar cuenta de la incertidumbre en la mayoría de los problemas de estimación. En particular, si está estimando una cantidad que depende de otras estimaciones de parámetros (incluso implícitamente), la integración sobre los otros parámetros explicará mejor sus incertidumbres.
fuente
This is usually not a matter of choice. If we are interested in the estimation ofβ (e.g. when β is a model hyperparameter and θ is a latent variable) and there is not a single value for θ and instead the distribution of θ in known, we need to integrate out θ . You can think of marginal likelihood as the weighted average of the likelihood for different values of θi weighted by their probability density p(θi) . Now that θ has disappeared, using training samples as data , you can optimize the marginal likelihood w.r.t. β .
fuente