¿Por qué MLE tiene sentido, dada la probabilidad de que una muestra individual sea 0?

Este es un pensamiento extraño que tuve al revisar algunas estadísticas antiguas y, por alguna razón, parece que no puedo pensar en la respuesta.

Un PDF continuo nos dice la densidad de los valores de observación en cualquier rango dado. Es decir, si , por ejemplo, entonces la probabilidad de que una realización cae entre y es simplemente donde es la densidad de la norma normal. $X \sim N(\mu,\sigma^2)$ $a$ $b$ $\int_a^{b}\phi(x)dx$ $\phi$

Cuando pensamos en hacer una estimación MLE de un parámetro, digamos de , escribimos la densidad conjunta de, digamos , variables aleatorias y diferenciamos la probabilidad de registro wrt a , establecemos igual a 0 y resolvemos para . La interpretación que a menudo se da es "dados los datos, qué parámetro hace que esta función de densidad sea más plausible". $\mu$ $N$ $X_1 .. X_N$ $\mu$ $\mu$

La parte que me molesta es esta: tenemos una densidad de rv, y la probabilidad de que obtengamos una realización particular, digamos nuestra muestra, es exactamente 0. ¿Por qué tiene sentido maximizar la densidad conjunta dada nuestra información? ¿De nuevo, la probabilidad de observar nuestra muestra real es exactamente 0)? $N$

La única racionalización que se me ocurre es que queremos hacer que el PDF tenga el máximo posible alrededor de nuestra muestra observada para que la integral en la región (y, por lo tanto, la probabilidad de observar cosas en esta región) sea más alta.

normal-distribution maximum-likelihood pdf Alex
fuente

Por la misma razón, usamos densidades de probabilidad stats.stackexchange.com/q/4220/35989

Tim

Entiendo (creo) por qué tiene sentido usar densidades. Lo que no entiendo es por qué tiene sentido maximizar una densidad condicional a la observación de una muestra que tiene 0 probabilidad de ocurrir.

Alex

Porque las densidades de probabilidad nos dicen qué valores son relativamente más probables que otros.

Tim

Si tiene tiempo para responder completamente la pregunta, creo que sería más útil para mí y para la próxima persona.

Alex

Porque, afortunadamente, ¡la probabilidad no es una probabilidad!

AdamO

Respuestas:

La probabilidad de cualquier muestra, $\mathbb{P}_\theta(X=x)$ , es igual a cero y, sin embargo, una muestra se obtiene a partir de una distribución de probabilidad. Por lo tanto, la probabilidad es la herramienta incorrecta para evaluar una muestra y la probabilidad de que ocurra. La probabilidad estadística, según la definición de Fisher (1912), se basa en el argumento limitante de la probabilidad de observar la muestra $x$ dentro de un intervalo de longitud $\delta$ cuando $\delta$ llega a cero (citando de Aldrich, 1997) :

$\qquad\qquad\qquad$

al renormalizar esta probabilidad por $\delta$ . El término de función de probabilidad solo se introduce en Fisher (1921) y de máxima probabilidad en Fisher (1922).

Aunque pasó a la denominación de "valor más probable", y utilizó un principio de probabilidad inversa (inferencia bayesiana) con un previo plano, Carl Friedrich Gauß ya había derivado en 1809 un estimador de máxima verosimilitud para el parámetro de varianza de una distribución Normal. Hald (1999) menciona varias otras ocurrencias de estimadores de máxima verosimilitud antes del artículo de Fisher de 1912, que establece el principio general.

Una justificación posterior del enfoque de máxima verosimilitud es que, dado que la log-verosimilitud renormalizada de una muestra $(x_1,\ldots,x_n)$

\frac{1}{n} \sum_{i = 1}^{n} \log f_{θ} (x_{i})

$\frac{1}{n} \sum_{i=1}^n \log f_\theta(x_i)$ converge a [Ley de números grandes]

E [\log f_{θ} (X)] = \int \log f_{θ} (x) f_{0} (x) d x

$\mathbb{E}[\log f_\theta(X)]=\int \log f_\theta(x)\,f_0(x)\,\text{d}x$

f_{0}

$f_0$

θ

$\theta$

θ

$\theta$

\int \log \frac{f_{0} (x)}{f_{θ} (x)} f_{0} (x) d x = \underset{constant in θ}{\underset{⏟}{\int \log f_{0} (x) f_{0} (x) d x}} - \int \log f_{θ} (x) f_{0} (x) d x

$\int \log \dfrac{f_0(x)}{f_\theta(x)}\, f_0(x)\,\text{d}x=\underbrace{\int \log f_0(x)\,f_0(x)\,\text{d}x}_{\text{constant}\\\text{in }\theta}-\int \log f_\theta(x)\,f_0(x)\,\text{d}x$ entre la distribución verdadera de la muestra iid y la familia de distribuciones representadas por las

f_{θ}

$f_\theta$ 's.

Xi'an
fuente

Gracias por la respuesta. ¿Podría ampliar un poco el argumento KL? No veo cómo este es el caso de inmediato.

Alex