¿Qué se entiende por error estándar de una estimación de máxima verosimilitud?

Soy matemático y estudio las estadísticas y lucho especialmente con el idioma.

En el libro que estoy usando, existe el siguiente problema:

Una variable aleatoria se da como -distribuido con . (Por supuesto, puede tomar cualquier distribución dependiendo de un parámetro en aras de esta pregunta). Luego se proporciona una muestra de cinco valores , , , , . $X$ $\text{Pareto}(\alpha,60)$ $\alpha>0$ $14$ $21$ $6$ $32$ $2$

Primera parte: "Utilizando el método de máxima verosimilitud, encuentre una estimación de basada en [la muestra]". Esto no fue problema. La respuesta es . $\hat{\alpha}$ $\alpha$ $\hat{\alpha}\approx 4.6931$

Pero luego: "Dé una estimación del error estándar de ". $\hat{\alpha}$

¿Qué quieres decir con esto? Como es solo un número real fijo, no veo de qué manera podría tener un error estándar. ¿Debo determinar la desviación estándar de ? $\hat{\alpha}$ $\text{Pareto}(\hat{\alpha},60)$

Si cree que la pregunta no está clara, esta información también me ayudaría.

maximum-likelihood Stefan
fuente

¿Qué significa ?

60

$60$

Alecos Papadopoulos

¿Tienes una fórmula para ? Eso lo ayudará a estimar su error estándar.

\hat{α}

$\hat \alpha$

soakley

@Glen_b Pero si fuera el límite inferior, ¿cómo podría ser que todos los valores de la muestra realizada sean más pequeños?

Alecos Papadopoulos

@ Alecos Ese es un excelente punto. Mi comentario no tiene sentido; Lo borré.

Glen_b -Reinstalar Monica

@Alecos: es la distribución con densidad .

Pareto (α, λ)

$\text{Pareto}(\alpha,\lambda)$

f (x) = \frac{α λ^{α}}{(λ + x)^{α + 1}}

$f(x)=\frac{\alpha\lambda^\alpha}{(\lambda+x)^{\alpha+1}}$

Stefan

Respuestas:

La otra respuesta ha cubierto la derivación del error estándar, solo quiero ayudarlo con la notación:

Su confusión se debe al hecho de que en Estadística usamos exactamente el mismo símbolo para denotar el Estimador (que es una función) y una estimación específica (que es el valor que toma el estimador cuando recibe como entrada una muestra concreta realizada).

Entonces y para . Entonces es una función de variables aleatorias y, por lo tanto, una variable aleatoria en sí misma, que ciertamente tiene una varianza. $\hat \alpha = h(\mathbf X)$ $\hat \alpha(\mathbf X = \mathbf x) = 4.6931$ $\mathbf x = \{14,\,21,\,6,\,32,\,2\}$ $\hat \alpha(X)$

En la estimación de ML, en muchos casos lo que podemos calcular es el error estándar asintótico , porque no se conoce la distribución de estimador de muestra finita (no se puede derivar).

Estrictamente hablando, no tiene una distribución asintótica, ya que converge a un número real (el número verdadero en casi todos los casos de estimación de ML). Pero la cantidad converge a una variable aleatoria normal (mediante la aplicación del Teorema del límite central). $\hat \alpha$ $\sqrt n (\hat \alpha - \alpha)$

Un segundo punto de confusión de notación : la mayoría, si no todos los textos, escribirán ("Avar" = varianza asintótica ") mientras que lo que significan es , es decir, se refieren a la varianza asintótica de la cantidad , no de ... Para el caso de un Pareto básico distribución tenemos $\text {Avar}(\hat \alpha)$ $\text {Avar}(\sqrt n (\hat \alpha - \alpha))$ $\sqrt n (\hat \alpha - \alpha)$ $\hat \alpha$

Avar [\sqrt{n} (\hat{α} - α)] = α^{2}

$\text {Avar}[\sqrt n (\hat \alpha - \alpha)] = \alpha^2$

y entonces

Avar (\hat{α}) = α^{2} / n

$\text {Avar}(\hat \alpha ) = \alpha^2/n$

(pero lo que encontrará escrito es ) $\text {Avar}(\hat \alpha ) = \alpha^2$

Ahora, ¿en qué sentido el Estimador tiene una "varianza asintótica", ya que, como se dijo, asintóticamente converge a una constante? Bueno, en un sentido aproximado y para muestras grandes pero finitas . Es decir, en algún lugar entre una muestra "pequeña", donde el Estimador es una variable aleatoria con una distribución (generalmente) desconocida, y una muestra "infinita", donde el estimador es una constante, existe este "territorio de muestra grande pero finito" donde el Estimador aún no se ha convertido en una constante y su distribución y varianza se derivan de forma indirecta, utilizando primero el Teorema del límite central para derivar la distribución asintótica adecuada de la cantidad $\hat \alpha$ $Z = \sqrt n (\hat \alpha - \alpha)$ (lo cual es normal debido al CLT), y luego cambiar las cosas y escribir (mientras da un paso atrás y trata como finito) que muestra como una función afín de la variable aleatoria normal , por lo que normalmente se distribuye a sí misma (siempre aproximadamente). $\hat \alpha = \frac 1{\sqrt n} Z + \alpha$ $n$ $\hat \alpha$ $Z$

Alecos Papadopoulos
fuente

+1 para distinguir entre y - ciertamente la notación puede ser inconsistente.

\hat{α}

$\hat{\alpha}$

\sqrt{n} (\hat{α} - α)

$\sqrt{n}(\hat{\alpha} - \alpha)$

Nate Pope

$\hat{\alpha}$ - un estimador de máxima verosimilitud - es una función de una muestra aleatoria, y también es aleatorio (no fijo). Se podría obtener una estimación del error estándar de partir de la información de Fisher, $\hat{\alpha}$

I (θ) = - E [\frac{\partial^{2} L (θ | Y = y)}{\partial θ^{2}} |_{θ}]

$I(\theta) = -\mathbb{E}\left[ \frac{\partial^2 \mathcal{L}(\theta|Y = y)}{\partial \theta^2}|_\theta \right]$

Donde es un parámetro y es la función de verosimilitud de condicional en la muestra aleatoria . Intuitivamente, la información de Fisher indica la inclinación de la curvatura de la superficie de probabilidad logarítmica alrededor del MLE y, por lo tanto, la cantidad de 'información' que proporciona sobre . $\theta$ $\mathcal{L}(\theta|Y = y)$ $\theta$ $y$ $y$ $\theta$

Para una distribución con una sola realización , la probabilidad de registro donde se conoce : $\mathrm{Pareto}(\alpha,y_0)$ $Y = y$ $y_0$

\begin{aligned} L (α | y, y_{0}) & = \log α + α \log y_{0} - (α + 1) \log y \\ L^{'} (α | y, y_{0}) & = \frac{1}{α} + \log y_{0} - \log y \\ L^{″} (α | y, y_{0}) & = - \frac{1}{α^{2}} \end{aligned}

$\begin{aligned} \mathcal{L}(\alpha|y,y_0) &= \log \alpha + \alpha \log y_0 - (\alpha + 1) \log y \\ \mathcal{L}'(\alpha|y,y_0) &= \frac{1}{\alpha} + \log y_0 - \log y \\ \mathcal{L}''(\alpha|y,y_0) &= -\frac{1}{\alpha^2} \end{aligned}$ Enchufando a la definición de información de Fisher, Para una muestra El estimador de máxima verosimilitud se distribuye asintóticamente como: Donde es el tamaño de la muestra. Como es desconocido, podemos conectar

I (α) = \frac{1}{α^{2}}

$I(\alpha) = \frac{1}{\alpha^2}$

{y_{1}, y_{2}, . . ., y_{n}}

$\{y_1, y_2, ..., y_n\}$

\hat{α}

$\hat{\alpha}$

\begin{aligned} \hat{α} \overset{n \to \infty}{\sim} N (α, \frac{1}{n I (α)}) = N (α, \frac{α^{2}}{n}), \end{aligned}

$\begin{aligned} \hat{\alpha} \overset{n \rightarrow \infty}{\sim} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)}) = \mathcal{N}(\alpha,\frac{\alpha^2}{n}),~ \end{aligned}$

n

$n$

α

$\alpha$

\hat{α}

$\hat{\alpha}$ para obtener una estimación del error estándar:

S E (\hat{α}) \approx \sqrt{{\hat{α}}^{2} / n} \approx \sqrt{{4.6931}^{2} / 5} \approx 2.1

$\mathrm{SE}(\hat{\alpha}) \approx \sqrt{\hat{\alpha}^2/n} \approx \sqrt{4.6931^2/5} \approx 2.1$

Papa Nate
fuente

Para su penúltima línea, , no parece que la notación sea correcta. Si , entonces no puede aparecer en el lado derecho. En su lugar, desea

\begin{aligned} \hat{α} \overset{n \to \infty}{\sim} N (α, \frac{1}{n I (α)}) \end{aligned}

$\begin{aligned} \hat{\alpha} \overset{n \rightarrow \infty}{\sim} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)}) \end{aligned}$

n \to \infty

$n \to \infty$

n

$n$

\begin{aligned} \hat{α} \dot{\approx} N (α, \frac{1}{n I (α)}) \end{aligned}

$\begin{aligned}\hat{\alpha} \dot{\approx} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)})\end{aligned}$

user321627