Motivación teórica para usar log-verosimilitud vs verosimilitud

18

Estoy tratando de entender a un nivel más profundo la ubicuidad de la probabilidad logarítmica (y quizás más generalmente la probabilidad logarítmica) en estadística y teoría de la probabilidad. Las probabilidades de registro se muestran por todas partes: generalmente trabajamos con la probabilidad de registro para el análisis (por ejemplo, para la maximización), la información de Fisher se define en términos de la segunda derivada de la probabilidad de registro, la entropía es una probabilidad de registro esperada , La divergencia de Kullback-Liebler implica probabilidades de registro, la división esperada es una probabilidad de registro esperada, etc.

Ahora aprecio las muchas razones prácticas y convenientes . Muchos archivos PDF comunes y útiles provienen de familias exponenciales, lo que lleva a términos elegantemente simplificados cuando se transforma logarítmicamente. Las sumas son más fáciles de trabajar que los productos (especialmente para diferenciar). Los problemas de registro tienen una gran ventaja de coma flotante sobre los problemas directos La transformación logarítmica de un pdf a menudo convierte una función no cóncava en una función cóncava. ¿Pero cuál es la razón / justificación / motivación teórica para los log-probs?

Como ejemplo de mi perplejidad, considere la información de Fisher (FI). La explicación habitual para intuir la FI es que la segunda derivada de la probabilidad logarítmica nos dice cuán "pico" es la semejanza logarítmica: una probabilidad logarítmica muy alta significa que el MLE está bien especificado y estamos relativamente seguros de su valor , mientras que una semejanza logarítmica casi plana (curvatura baja) significa que muchos valores de parámetros diferentes son casi tan buenos (en términos de probabilidad logarítmica) como el MLE, por lo que nuestro MLE es más incierto.

Todo esto está bien, pero ¿no es más natural encontrar la curvatura de la función de probabilidad en sí misma (NO transformada logarítmicamente)? A primera vista, el énfasis en la transformación logarítmica parece arbitrario e incorrecto. Seguramente estamos más interesados ​​en la curvatura de la función de probabilidad real. ¿Cuál fue la motivación de Fisher para trabajar con la función de puntaje y el hessiano del log-verosimilitud?

¿Es la respuesta simplemente que, al final, tenemos buenos resultados de la probabilidad logarítmica asintóticamente? Por ejemplo, Cramer-Rao y la normalidad de la MLE / posterior. ¿O hay una razón más profunda?

ensalada de rata
fuente
2
Hice una pregunta similar aquí
Haitao Du

Respuestas:

13

Realmente es solo una conveniencia para loglikelihood, nada más.

Me refiero a la conveniencia de las sumas frente a los productos: , las sumas son más fáciles de manejar en muchos aspectos, como la diferenciación o la integración. No es una conveniencia solo para familias exponenciales, estoy tratando de decir.ln(ixi)=ilnxi

Cuando se trata de una muestra aleatoria, las probabilidades son de la forma: , por lo que la probabilidad de rotura dividiría este producto en la suma, que es más fácil de manipular y analizar. Ayuda que lo único que nos importa es el punto del máximo, el valor en el máximo no es importante, sí podemos aplicar cualquier transformación monótona como el logaritmo.L=ipi

En la intuición curvatura. Es básicamente lo mismo al final que la segunda derivada de loglikelihood.

ACTUALIZACIÓN: Esto es lo que quise decir sobre la curvatura. Si tiene una función , entonces su curvatura sería ( ver (14) en Wolfram): y=f(x)

κ=f(x)(1+f(x)2)3/2

La segunda derivada de la probabilidad de registro:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

En el punto del máximo, la primera derivada es obviamente cero, por lo que obtenemos: Por lo tanto, mi sugerencia es que la curvatura de la verosimilitud y la segunda derivada de verosimilitud son lo mismo, más o menos.

κmax=f(xmax)=Af(xmax)

Por otro lado, si la primera derivada de probabilidad es pequeña, no solo en el punto máximo, sino alrededor del mismo, es decir, la función de probabilidad es plana, entonces obtenemos: Ahora la probabilidad plana no es algo bueno para nosotros, porque hace que encontrar el máximo sea numéricamente más difícil, y la probabilidad máxima no es tan mejor que otros puntos a su alrededor, es decir, los errores de estimación de parámetros son altos.

κf(x)Af(x)

Y nuevamente, todavía tenemos la curvatura y la segunda relación derivada. Entonces, ¿por qué Fisher no miró la curvatura de la función de probabilidad? Creo que es por la misma razón de conveniencia. Es más fácil manipular la probabilidad debido a las sumas en lugar del producto. Entonces, podría estudiar la curvatura de la probabilidad analizando la segunda derivada de la probabilidad. Aunque la ecuación parece muy simple para la curvatura , en realidad está tomando una segunda derivada del producto, que es más desordenada que la suma de las segundas derivadas.κmetrounX=F(XmetrounX)

ACTUALIZACIÓN 2:

Aquí hay una demostración. Dibujo una función de probabilidad (completamente inventada), es a) curvatura yb) la segunda derivada de su registro. En el lado izquierdo se ve la probabilidad estrecha y en el lado derecho es ancha. Usted ve cómo en el punto de máxima probabilidad a) yb) convergen, como deberían. Sin embargo, lo que es más importante, puede estudiar el ancho (o planitud) de la función de probabilidad examinando la segunda derivada de su log-verosimilitud. Como escribí antes, este último es técnicamente más simple que el primero para analizar.

No es sorprendente que la segunda derivada más profunda de las señales de loglikelihood haya una función de probabilidad más plana alrededor de su máximo, lo que no es deseable porque causa un error de estimación de parámetro mayor.

ingrese la descripción de la imagen aquí

Código MATLAB en caso de que quiera reproducir las tramas:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

ACTUALIZACIÓN 3:

En el código anterior, conecté alguna función arbitraria en forma de campana en la ecuación de curvatura, luego calculé la segunda derivada de su registro. No volví a escalar nada, los valores son directamente de las ecuaciones para mostrar la equivalencia que mencioné anteriormente.

Aquí está el primer artículo sobre la probabilidad que Fisher publicó mientras estaba en la universidad, "Sobre un criterio absoluto para ajustar curvas de frecuencia", Messenger of Mathmatics, 41: 155-160 (1912)

Como insistí todo el tiempo, no menciona ninguna conexión "más profunda" de probabilidades de registro con la entropía y otros temas sofisticados, ni ofrece su criterio de información todavía. Simplemente coloca la ecuación en la p.54 y luego continúa hablando de maximizar las probabilidades. En mi opinión, esto muestra que estaba usando el logaritmo solo como un método conveniente para analizar las probabilidades conjuntas. Es especialmente útil en el ajuste continuo de curvas, para el cual da una fórmula obvia en p.55: Buena suerte analizando esta probabilidad (o probabilidad según Fisher) sin el registro!log P = Iniciar sesiónPAG=1norteIniciar sesiónpag

Iniciar sesiónPAG=-Iniciar sesiónFreX
PAG

Una cosa a tener en cuenta al leer el documento: solo estaba comenzando con el trabajo de estimación de máxima probabilidad, e hizo más trabajo en los siguientes 10 años, por lo que incluso el término MLE aún no se acuñó, por lo que sé.

Aksakal
fuente
55
Su oración final (sobre la curvatura) indica que realmente hay algo fundamental sobre la probabilidad de registro y que tomar registros no es solo una mera "conveniencia". Creo que hay mucho más aquí de lo que estás dejando pasar.
whuber
2
Su discusión sobre la curvatura no parece relevante, porque no distingue un análisis de probabilidad logarítmica de un análisis de la probabilidad misma. Esta respuesta parece reducirse a "los registros son convenientes", pero el problema es mucho más que eso, ya que otras respuestas comienzan a sugerir.
whuber
@ Aksakal OK, gracias, creo que veo esto ahora. La función de probabilidad se especifica hasta una constante multiplicativa arbitraria. Por lo tanto, el valor de la probabilidad al máximo, , también es arbitrario. Por ejemplo, es común usar una función de probabilidad de unidad normalizada, donde . En ese caso, las segundas derivadas de la probabilidad y la probabilidad logarítmica son equivalentes al máximo. F(XmetrounX)F(XmetrounX)=1
ratsalad
Por lo tanto, el uso de la probabilidad logarítmica para la información de Fisher aparentemente tiene dos propósitos prácticos: (1) es más fácil trabajar con las probabilidades logarítmicas y (2) ignora naturalmente el factor de escala arbitrario. Y, da la misma respuesta que la segunda derivada de la probabilidad directa. Esto me parece un punto importante, uno que no era obvio y que nunca he visto en ningún texto estadístico. Presumiblemente fue conocido por Fisher.
ratsalad
f ( x m a x ) = 1 f ( x m a x ) = ( ln f ( x ) )
f(xmax)=(lnf(x))f(xmax)
y si la constante multiplicativa arbitraria se toma comoF(XmetrounX)=1
F(XmetrounX)=(EnF(X))
ratsalad
5

Punto adicional . Algunas de las distribuciones de probabilidad comúnmente utilizadas (incluida la distribución normal, la distribución exponencial, la distribución de Laplace, por nombrar algunas) son logaríticamente cóncavas . Esto significa que su logaritmo es cóncavo. Esto hace que maximizar la probabilidad logarítmica sea mucho más fácil que maximizar la probabilidad original (lo cual es particularmente útil en métodos de máxima probabilidad o máxima a posteriori). Para dar un ejemplo, el uso del método de Newton para maximizar una distribución gaussiana multivariada directamente puede tomar una gran cantidad de pasos, mientras que maximizar un paraboloide (el registro de la distribución gaussiana multivariada) toma exactamente un paso.

Luca Citi
fuente
2
No tan rapido. Vea el ejercicio 7.4 en las páginas 393-394 de web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Mark L. Stone
Eso no es log-cóncavo. El gaussiano es log-cóncavo wrt a su argumento o al parámetro medio, no wrt también la varianza. Si también desea determinar la escala, puede utilizar una distribución gamma normal, que también es cóncava logarítmica (utilizando la precisión en lugar de la varianza).
Luca Citi
2
Exactamente esto. Toda la charla sobre cómo los registros son más convenientes es agradable, pero la convexidad (o la concavidad, según la perspectiva) es lo que realmente distingue la probabilidad de registro como la cosa "correcta" para trabajar.
Meni Rosenfeld
2
Tenga en cuenta que ya mencioné log-concavity en el OP. Pero esto sigue siendo solo una "conveniencia", aquí no existe una justificación teórica para la concavidad logarítmica y, en cualquier caso, las probabilidades logarítmicas no son lo suficientemente cóncavas logarítmicas.
ratsalad
1
@ratsalad, sí, tienes razón, es conveniente. Creo que las probabilidades de registro son una forma adicional de ver una función de probabilidad. No puedo decir con certeza cuál es mejor. Si observa [ en.wikipedia.org/wiki/… medidas], algunos trabajan efectivamente en la probabilidad de registro (por ejemplo, la divergencia KL, que es efectivamente el valor esperado de la diferencia de probabilidades de registro), algunos en la probabilidad directamente ( por ejemplo, distancia KS).
Luca Citi
4

La importancia teórica de la probabilidad logarítmica se puede ver desde (al menos) dos perspectivas: la teoría de la probabilidad asintótica y la teoría de la información.

La primera de ellas (creo) es la teoría asintótica de la probabilidad logarítmica. Creo que la teoría de la información comenzó mucho después de que Fisher estableciera la máxima probabilidad en su curso hacia el dominio del siglo XX.

En la teoría de la probabilidad, una probabilidad logarítmica parabólica tiene un lugar central en la inferencia. Lucien Le Cam ha desempeñado un papel importante para dilucidar la importancia de la probabilidad de registro cuadrática en la teoría asintótica.

Cuando tiene una probabilidad logarítmica cuadrática, no solo la curvatura sobre el MLE le dice cualitativamente con qué precisión puede estimar el parámetro, sino que también sabemos que el error normalmente se distribuye con una varianza igual al recíproco de la curvatura. Cuando la probabilidad logarítmica es aproximadamente cuadrática, entonces decimos que estos resultados se mantienen aproximadamente, o asintóticamente.

Una segunda razón es la importancia del log-verosimilitud (o log-probabilidad) en la teoría de la información , donde es la cantidad principal utilizada para medir el contenido de la información.

Existe una variante de la entropía llamada divergencia de Kullback-Liebler que se minimiza mediante la estimación de máxima verosimilitud. En particular, si la verdadera distribución de datos es entonces la distribución "más cercana" (medida por la divergencia Kullback-Liebler) a en la familia paramétrica viene dada por , donde es la estimación de probabilidad máxima.g f ( θ ) f ( θ ) θsolsolF(θ)F(θ^)θ^

Finalmente, la probabilidad logarítmica es la cantidad utilizada en varios criterios de selección de modelos, como AIC y BIC . Esencialmente, cada uno de estos criterios iguala un parámetro / grado de libertad adicional con algún múltiplo de .EnL^

Entonces, la probabilidad de registro, además de ser una transformación numérica útil, tiene profundos lazos con la teoría de la inferencia y la información.


fuente
Su referencia al uso de la probabilidad de registro de la teoría de la información es circular. ¿Por qué se utilizan registro? Probablemente por la misma razón, especialmente, si considera que la teoría de la información es un campo relativamente nuevo en comparación con las estadísticas.
Aksakal
@ Aksakal sí y no. La teoría de la información se basó parcialmente en la mecánica estadística y la entropía: en.wikipedia.org/wiki/Entropy . Boltzmann definió la entropía de un sistema utilizando el registro del número de microestados. ¿Por qué los registros? ¿Porque hace que la entropía / información sea aditiva (como señala su respuesta)? ¿Y qué? A nivel numérico, la linealidad / aditividad abre el uso de los poderosos métodos de álgebra lineal.
1
Sin embargo, @Aksakal, en un nivel más fundamental, la aditividad convierte la entropía / información en algo así como una medida ... similar a la masa. Si combina dos sistemas estadísticamente independientes, entonces la entropía del sistema combinado es la suma de la entropía de cada sistema. Aquí hay un buen explicativo
1
@Bey La entropía estadística termodinámica se deriva directamente de la distribución de microestados de Boltzmann y del termo macroscópico clásico (la forma de entropía estadística mecánica no era una "elección"). La distribución de Boltzmann en sí es una consecuencia de dos premisas: (1) la propiedad física de que las energías se especifican solo hasta una constante aditiva arbitraria y (2) la suposición estadística básica de que todos los microestados con la misma energía tienen la misma probabilidad. Entonces, en el nivel más profundo, la termoentropía involucra log-probs porque la energía es aditiva y proporcional a log-prob.
ratsalad
2
@ratsalad, gracias por ampliar esto ... como puede ver, ir más allá de las simples explicaciones de "los registros son más fáciles" de la probabilidad de registro puede llevarlo bastante lejos. Utilizo la probabilidad de registro por las razones que Aksakal da ... sin embargo, su OP solicitó algo más profundo. Di dos ejemplos que muestran conexiones con otras áreas que han influido en las estadísticas y la teoría de la probabilidad. Creo que las explicaciones asintóticas son más directas, pero la entropía y la probabilidad están vinculadas de una manera que convierte las probabilidades de registro en cosas que nos interesan más allá de la mera conveniencia numérica.
0

TLDR: es mucho más fácil derivar sumas que productos, porque el operador derivado es lineal con la suma, pero con el producto debe cumplir la regla del producto. Es una complejidad lineal versus una complejidad polinómica de orden superior.

Charlie Tian
fuente
3
Esto es lo que la pregunta significa "conveniente y práctico". Está lejos de ser la única, o incluso la principal, razón por la cual el análisis se enfoca en la probabilidad de registro. Considere, por ejemplo, cómo se vería la expresión de la información de Fisher en términos de la probabilidad en lugar de la probabilidad de registro.
whuber
si, seguro; Creo que cuando dijo que era "más fácil" encontrarlo directamente, pensé que se refería a lo contrario de esto, porque ciertamente es más fácil encontrarlo después de aplicar la transformación logarítmica.
Charlie Tian