Estoy tratando de entender a un nivel más profundo la ubicuidad de la probabilidad logarítmica (y quizás más generalmente la probabilidad logarítmica) en estadística y teoría de la probabilidad. Las probabilidades de registro se muestran por todas partes: generalmente trabajamos con la probabilidad de registro para el análisis (por ejemplo, para la maximización), la información de Fisher se define en términos de la segunda derivada de la probabilidad de registro, la entropía es una probabilidad de registro esperada , La divergencia de Kullback-Liebler implica probabilidades de registro, la división esperada es una probabilidad de registro esperada, etc.
Ahora aprecio las muchas razones prácticas y convenientes . Muchos archivos PDF comunes y útiles provienen de familias exponenciales, lo que lleva a términos elegantemente simplificados cuando se transforma logarítmicamente. Las sumas son más fáciles de trabajar que los productos (especialmente para diferenciar). Los problemas de registro tienen una gran ventaja de coma flotante sobre los problemas directos La transformación logarítmica de un pdf a menudo convierte una función no cóncava en una función cóncava. ¿Pero cuál es la razón / justificación / motivación teórica para los log-probs?
Como ejemplo de mi perplejidad, considere la información de Fisher (FI). La explicación habitual para intuir la FI es que la segunda derivada de la probabilidad logarítmica nos dice cuán "pico" es la semejanza logarítmica: una probabilidad logarítmica muy alta significa que el MLE está bien especificado y estamos relativamente seguros de su valor , mientras que una semejanza logarítmica casi plana (curvatura baja) significa que muchos valores de parámetros diferentes son casi tan buenos (en términos de probabilidad logarítmica) como el MLE, por lo que nuestro MLE es más incierto.
Todo esto está bien, pero ¿no es más natural encontrar la curvatura de la función de probabilidad en sí misma (NO transformada logarítmicamente)? A primera vista, el énfasis en la transformación logarítmica parece arbitrario e incorrecto. Seguramente estamos más interesados en la curvatura de la función de probabilidad real. ¿Cuál fue la motivación de Fisher para trabajar con la función de puntaje y el hessiano del log-verosimilitud?
¿Es la respuesta simplemente que, al final, tenemos buenos resultados de la probabilidad logarítmica asintóticamente? Por ejemplo, Cramer-Rao y la normalidad de la MLE / posterior. ¿O hay una razón más profunda?
fuente
Respuestas:
Realmente es solo una conveniencia para loglikelihood, nada más.
Me refiero a la conveniencia de las sumas frente a los productos: , las sumas son más fáciles de manejar en muchos aspectos, como la diferenciación o la integración. No es una conveniencia solo para familias exponenciales, estoy tratando de decir.En( ∏yoXyo) = ∑yoEnXyo
Cuando se trata de una muestra aleatoria, las probabilidades son de la forma: , por lo que la probabilidad de rotura dividiría este producto en la suma, que es más fácil de manipular y analizar. Ayuda que lo único que nos importa es el punto del máximo, el valor en el máximo no es importante, sí podemos aplicar cualquier transformación monótona como el logaritmo.L = ∏yopagyo
En la intuición curvatura. Es básicamente lo mismo al final que la segunda derivada de loglikelihood.
ACTUALIZACIÓN: Esto es lo que quise decir sobre la curvatura. Si tiene una función , entonces su curvatura sería ( ver (14) en Wolfram):y= f( x )
La segunda derivada de la probabilidad de registro:
En el punto del máximo, la primera derivada es obviamente cero, por lo que obtenemos: Por lo tanto, mi sugerencia es que la curvatura de la verosimilitud y la segunda derivada de verosimilitud son lo mismo, más o menos.
Por otro lado, si la primera derivada de probabilidad es pequeña, no solo en el punto máximo, sino alrededor del mismo, es decir, la función de probabilidad es plana, entonces obtenemos: Ahora la probabilidad plana no es algo bueno para nosotros, porque hace que encontrar el máximo sea numéricamente más difícil, y la probabilidad máxima no es tan mejor que otros puntos a su alrededor, es decir, los errores de estimación de parámetros son altos.
Y nuevamente, todavía tenemos la curvatura y la segunda relación derivada. Entonces, ¿por qué Fisher no miró la curvatura de la función de probabilidad? Creo que es por la misma razón de conveniencia. Es más fácil manipular la probabilidad debido a las sumas en lugar del producto. Entonces, podría estudiar la curvatura de la probabilidad analizando la segunda derivada de la probabilidad. Aunque la ecuación parece muy simple para la curvatura , en realidad está tomando una segunda derivada del producto, que es más desordenada que la suma de las segundas derivadas.κm a x= f′ ′( xm a x)
ACTUALIZACIÓN 2:
Aquí hay una demostración. Dibujo una función de probabilidad (completamente inventada), es a) curvatura yb) la segunda derivada de su registro. En el lado izquierdo se ve la probabilidad estrecha y en el lado derecho es ancha. Usted ve cómo en el punto de máxima probabilidad a) yb) convergen, como deberían. Sin embargo, lo que es más importante, puede estudiar el ancho (o planitud) de la función de probabilidad examinando la segunda derivada de su log-verosimilitud. Como escribí antes, este último es técnicamente más simple que el primero para analizar.
No es sorprendente que la segunda derivada más profunda de las señales de loglikelihood haya una función de probabilidad más plana alrededor de su máximo, lo que no es deseable porque causa un error de estimación de parámetro mayor.
Código MATLAB en caso de que quiera reproducir las tramas:
ACTUALIZACIÓN 3:
En el código anterior, conecté alguna función arbitraria en forma de campana en la ecuación de curvatura, luego calculé la segunda derivada de su registro. No volví a escalar nada, los valores son directamente de las ecuaciones para mostrar la equivalencia que mencioné anteriormente.
Aquí está el primer artículo sobre la probabilidad que Fisher publicó mientras estaba en la universidad, "Sobre un criterio absoluto para ajustar curvas de frecuencia", Messenger of Mathmatics, 41: 155-160 (1912)
Como insistí todo el tiempo, no menciona ninguna conexión "más profunda" de probabilidades de registro con la entropía y otros temas sofisticados, ni ofrece su criterio de información todavía. Simplemente coloca la ecuación en la p.54 y luego continúa hablando de maximizar las probabilidades. En mi opinión, esto muestra que estaba usando el logaritmo solo como un método conveniente para analizar las probabilidades conjuntas. Es especialmente útil en el ajuste continuo de curvas, para el cual da una fórmula obvia en p.55: Buena suerte analizando esta probabilidad (o probabilidad según Fisher) sin el registro!log P = ∫Iniciar sesiónPAG′= ∑norte1Iniciar sesiónpag
Una cosa a tener en cuenta al leer el documento: solo estaba comenzando con el trabajo de estimación de máxima probabilidad, e hizo más trabajo en los siguientes 10 años, por lo que incluso el término MLE aún no se acuñó, por lo que sé.
fuente
Punto adicional . Algunas de las distribuciones de probabilidad comúnmente utilizadas (incluida la distribución normal, la distribución exponencial, la distribución de Laplace, por nombrar algunas) son logaríticamente cóncavas . Esto significa que su logaritmo es cóncavo. Esto hace que maximizar la probabilidad logarítmica sea mucho más fácil que maximizar la probabilidad original (lo cual es particularmente útil en métodos de máxima probabilidad o máxima a posteriori). Para dar un ejemplo, el uso del método de Newton para maximizar una distribución gaussiana multivariada directamente puede tomar una gran cantidad de pasos, mientras que maximizar un paraboloide (el registro de la distribución gaussiana multivariada) toma exactamente un paso.
fuente
La importancia teórica de la probabilidad logarítmica se puede ver desde (al menos) dos perspectivas: la teoría de la probabilidad asintótica y la teoría de la información.
La primera de ellas (creo) es la teoría asintótica de la probabilidad logarítmica. Creo que la teoría de la información comenzó mucho después de que Fisher estableciera la máxima probabilidad en su curso hacia el dominio del siglo XX.
En la teoría de la probabilidad, una probabilidad logarítmica parabólica tiene un lugar central en la inferencia. Lucien Le Cam ha desempeñado un papel importante para dilucidar la importancia de la probabilidad de registro cuadrática en la teoría asintótica.
Cuando tiene una probabilidad logarítmica cuadrática, no solo la curvatura sobre el MLE le dice cualitativamente con qué precisión puede estimar el parámetro, sino que también sabemos que el error normalmente se distribuye con una varianza igual al recíproco de la curvatura. Cuando la probabilidad logarítmica es aproximadamente cuadrática, entonces decimos que estos resultados se mantienen aproximadamente, o asintóticamente.
Una segunda razón es la importancia del log-verosimilitud (o log-probabilidad) en la teoría de la información , donde es la cantidad principal utilizada para medir el contenido de la información.
Existe una variante de la entropía llamada divergencia de Kullback-Liebler que se minimiza mediante la estimación de máxima verosimilitud. En particular, si la verdadera distribución de datos es entonces la distribución "más cercana" (medida por la divergencia Kullback-Liebler) a en la familia paramétrica viene dada por , donde es la estimación de probabilidad máxima.g f ( θ ) f ( θ ) θsol sol F( θ ) F( θ^) θ^
Finalmente, la probabilidad logarítmica es la cantidad utilizada en varios criterios de selección de modelos, como AIC y BIC . Esencialmente, cada uno de estos criterios iguala un parámetro / grado de libertad adicional con algún múltiplo de .EnL^
Entonces, la probabilidad de registro, además de ser una transformación numérica útil, tiene profundos lazos con la teoría de la inferencia y la información.
fuente
TLDR: es mucho más fácil derivar sumas que productos, porque el operador derivado es lineal con la suma, pero con el producto debe cumplir la regla del producto. Es una complejidad lineal versus una complejidad polinómica de orden superior.
fuente