Este es un pensamiento extraño que tuve al revisar algunas estadísticas antiguas y, por alguna razón, parece que no puedo pensar en la respuesta.
Un PDF continuo nos dice la densidad de los valores de observación en cualquier rango dado. Es decir, si , por ejemplo, entonces la probabilidad de que una realización cae entre y es simplemente donde es la densidad de la norma normal.
Cuando pensamos en hacer una estimación MLE de un parámetro, digamos de , escribimos la densidad conjunta de, digamos , variables aleatorias y diferenciamos la probabilidad de registro wrt a , establecemos igual a 0 y resolvemos para . La interpretación que a menudo se da es "dados los datos, qué parámetro hace que esta función de densidad sea más plausible".
La parte que me molesta es esta: tenemos una densidad de rv, y la probabilidad de que obtengamos una realización particular, digamos nuestra muestra, es exactamente 0. ¿Por qué tiene sentido maximizar la densidad conjunta dada nuestra información? ¿De nuevo, la probabilidad de observar nuestra muestra real es exactamente 0)?
La única racionalización que se me ocurre es que queremos hacer que el PDF tenga el máximo posible alrededor de nuestra muestra observada para que la integral en la región (y, por lo tanto, la probabilidad de observar cosas en esta región) sea más alta.
Respuestas:
La probabilidad de cualquier muestra,Pθ(X=x) , es igual a cero y, sin embargo, una muestra se obtiene a partir de una distribución de probabilidad. Por lo tanto, la probabilidad es la herramienta incorrecta para evaluar una muestra y la probabilidad de que ocurra. La probabilidad estadística, según la definición de Fisher (1912), se basa en el argumento limitante de la probabilidad de observar la muestra x dentro de un intervalo de longitud δ cuando δ llega a cero (citando de Aldrich, 1997) :
al renormalizar esta probabilidad porδ . El término de función de probabilidad solo se introduce en Fisher (1921) y de máxima probabilidad en Fisher (1922).
Aunque pasó a la denominación de "valor más probable", y utilizó un principio de probabilidad inversa (inferencia bayesiana) con un previo plano, Carl Friedrich Gauß ya había derivado en 1809 un estimador de máxima verosimilitud para el parámetro de varianza de una distribución Normal. Hald (1999) menciona varias otras ocurrencias de estimadores de máxima verosimilitud antes del artículo de Fisher de 1912, que establece el principio general.
Una justificación posterior del enfoque de máxima verosimilitud es que, dado que la log-verosimilitud renormalizada de una muestra(x1,…,xn)
1n∑i=1nlogfθ(xi) converge a [Ley de números grandes]E[logfθ(X)]=∫logfθ(x)f0(x)dx f0 θ θ ∫logf0(x)fθ(x)f0(x)dx=∫logf0(x)f0(x)dxconstantin θ−∫logfθ(x)f0(x)dx
entre la distribución verdadera de la muestra iid y la familia de distribuciones representadas por lasfθ 's.
fuente