El punto es que a veces, diferentes modelos (para los mismos datos) pueden conducir a funciones de probabilidad que difieren en una constante multiplicativa, pero el contenido de la información debe ser claramente el mismo. Un ejemplo:
Modelamos experimentos independientes de Bernoulli, que conducen a datos , cada uno con una distribución de Bernoulli con el parámetro (probabilidad) . Esto lleva a la función de probabilidad
O podemos resumir los datos por la variable binomialmente distribuida , que tiene una distribución binomial, lo que lleva a la función de probabilidad
que, como función del parámetro desconocido , es proporcional a la función de probabilidad anterior . ¡Las dos funciones de probabilidad contienen claramente la misma información, y deberían conducir a las mismas inferencias!nX1,…,Xnp∏i=1npxi(1−p)1−xi
Y=X1+X2+⋯+Xn(ny)py(1−p)n−y
p
Y de hecho, por definición, se consideran la misma función de probabilidad.
Otro punto de vista: observe que cuando las funciones de probabilidad se usan en el teorema de Bayes, según sea necesario para el análisis bayesiano, ¡esas constantes multiplicativas simplemente se cancelan! entonces son claramente irrelevantes para la inferencia bayesiana. Del mismo modo, se cancelará al calcular las razones de probabilidad, como se usa en las pruebas de hipótesis óptimas (lema de Neyman-Pearson). Y no tendrá influencia en el valor de los estimadores de máxima probabilidad. Entonces podemos ver que en gran parte de la inferencia frecuentista no puede jugar un papel.
Podemos discutir desde otro punto de vista. La función de probabilidad de Bernoulli (de aquí en adelante usamos el término "densidad") es realmente una densidad con respecto a la medida de conteo, es decir, la medida en los enteros no negativos con masa uno para cada entero no negativo. Pero podríamos haber definido una densidad con respecto a alguna otra medida dominante. En este ejemplo, esto parecerá (y es) artificial, pero en espacios más grandes (espacios de función) ¡es realmente fundamental! Usemos, con fines ilustrativos, la distribución geométrica específica, escrita , con , , y pronto. Luego, la densidad de la distribución de Bernoulli con respecto aλλ(0)=1/2λ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - p ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λestá dado por
lo que significa que
Con esta nueva medida dominante, la función de probabilidad se convierte (con notación desde arriba)
tenga en cuenta el factor adicional . Entonces, al cambiar la medida dominante utilizada en la definición de la función de verosimilitud, surge una nueva constante multiplicativa, que no depende del parámetro desconocidofλ(x)=px(1−p)1−x⋅2x+1
P(X=x)=fλ(x)⋅λ(x)
∏i=1npxi(1−p)1−xi2xi+1=py(1−p)n−y2y+n
2y+np, y es claramente irrelevante. Esa es otra forma de ver cómo las constantes multiplicativas deben ser irrelevantes. Este argumento puede generalizarse utilizando derivados de Radon-Nikodym (como el argumento anterior es un ejemplo de).
Básicamente significa que solo importa el valor relativo del PDF. Por ejemplo, el PDF normal (gaussiano) estándar es: , su libro dice que podrían usar lugar, porque no les importa la escala, es decir, .g(x)=e-x2/2c=1F( x ) = 12 π√mi- x2/ 2 sol( x ) = e- x2/ 2 c = 12 π√
Esto sucede porque maximizan la función de probabilidad, y y tendrán el mismo máximo. Por lo tanto, el máximo de será el mismo que para . Por lo tanto, no se preocupan por la escala.g ( x ) e - x 2 / 2 f ( x )c ⋅ g( x ) sol( x ) mi- x2/ 2 F( x )
fuente
No puedo explicar el significado de la cita, pero para la estimación de máxima verosimilitud , no importa si elegimos encontrar el máximo de la función de verosimilitud (considerada como una función de o the máximo de donde es una constante. Esto se debe a que no estamos interesados en el valor máximo de sino más bien en el valor donde ocurre este máximo, y tanto como alcanzan su valor máximo en el mismo θ a L ( x ;L ( x ; θ ) θ a L ( x ; θ ) θ ML L ( x ; θ ) a L ( x ; θ ) θ ML ga L ( x ; θ ) un L ( x ; θ ) θML L ( x ; θ ) a L ( x ; θ ) θML . Entonces, las constantes multiplicativas pueden ser ignoradas. Del mismo modo, podríamos elegir considerar cualquier función monótona
(como el logaritmo) de la función de probabilidad , determinar el máximo de e infiera el valor de
partir de esto. Para el logaritmo, la constante multiplicativa
convierte en la constante aditiva y esto también puede ignorarse en el proceso de encontrar la ubicación del máximo:
se maximiza en el mismo punto que .L ( x ; θ ) g ( L ( x ; θ ) ) θ ML a lnsol( ⋅ ) L ( x ; θ ) sol( L ( x ; θ ) ) θML un ln ( a ) + ln ( L ( x ; θ ) ln ( L ( x ; θ )En( a ) En( a ) + ln( L ( x ; θ ) En( L ( x ; θ )
Volviendo a la estimación de probabilidad a posteriori máxima (MAP), se considera como la realización de una variable aleatoria con una función de densidad a priori , los datos se consideran como una realización de una variable aleatoria , y la función de probabilidad se considera el valor de la densidad condicional de condicionado a ; dicha función de densidad condicional se evalúa en . losΘ f Θ ( θθ Θ x X f X ∣ Θ ( x ∣ Θ = θ ) X Θ = θ x ΘFΘ( θ ) X X FX ∣Θ( x ∣ Θ = θ ) X Θ = θ X una densidad posterior de es
en el que reconocemos el numerador como la densidad conjunta de los datos y el parámetro que se estima. El punto donde
alcanza su valor máximo es la estimación MAP de , y, utilizando los mismos argumentos que en el párrafo, vemos que podemos ignorar en el lado derecho deΘ fX,Θ(x,θ)θMAPAfΘ∣X(θ∣x)θ
fuente
En términos simples, a menudo buscará la máxima probabilidad y comparten los mismos puntos críticos.k f ( x )F( x ) k f( x )
fuente
Sugeriría no perder de vista ningún término constante en la función de probabilidad (es decir, términos que no incluyen los parámetros). En circunstancias habituales, no afectan el de la probabilidad, como ya se mencionó. Pero:argmax
Puede haber circunstancias inusuales en las que tendrá que maximizar la probabilidad sujeta a un límite máximo, y luego deberá "recordar" incluir cualquier constante en el cálculo de su valor.
Además, es posible que esté realizando pruebas de selección de modelos para modelos no anidados, utilizando el valor de la probabilidad en el proceso, y dado que los modelos no están anidados, las dos probabilidades tendrán constantes diferentes.
Aparte de estos, la oración
está mal , porque la probabilidad es primero una función de densidad de probabilidad conjunta , no "cualquier" función objetivo a maximizar.
fuente