¿Se utiliza el error cuadrático medio para evaluar la superioridad relativa de un estimador sobre otro?

13

Supongamos que tenemos dos estimadores $\alpha_1$ y $\alpha_2$ para algún parámetro $x$ . Para determinar qué estimador es "mejor", ¿miramos el MSE (error cuadrático medio)? En otras palabras, nos fijamos en

M S E = β^{2} + σ^{2}

$MSE = \beta^2+ \sigma^2$ donde

β

$\beta$ es el sesgo del estimador y

σ^{2}

$\sigma^2$ es la varianza del estimador? ¿Cuál tiene un MSE mayor es un peor estimador?

estimation mse Damien
fuente

10

Si tiene dos estimadores que compiten y , sea o no le dice que es el mejor estimador depende totalmente de su definición "mejor". Por ejemplo, si usted está comparando estimadores no sesgados y por "mejor" significa que tiene menor varianza entonces, sí, esto implicaría que es mejor. $\hat \theta_1$ $\hat \theta_2$

M S E ({\hat{θ}}_{1}) < M S E ({\hat{θ}}_{2})

${\rm MSE}(\hat \theta_1) < {\rm MSE}(\hat \theta_2)$

{\hat{θ}}_{1}

$\hat \theta_1$

{\hat{θ}}_{1}

$\hat \theta_1$

M S E

$\rm MSE$ es un criterio popular debido a su conexión con los mínimos cuadrados y la probabilidad logarítmica gaussiana, pero, como muchos criterios estadísticos, uno debe ser advertido de usar

ciegas como una medida de la calidad del estimador sin prestar atención a la aplicación.

M S E

$\rm MSE$

Hay ciertas situaciones en las que elegir un estimador para minimizar puede no ser algo particularmente sensato. Me vienen a la mente dos escenarios: ${\rm MSE}$

Si hay valores atípicos muy grandes en un conjunto de datos, pueden afectar drásticamente a MSE y, por lo tanto, el estimador que minimiza el MSE puede verse influido indebidamente por dichos valores atípicos. En tales situaciones, el hecho de que un estimador minimice el MSE realmente no le dice mucho, ya que, si elimina los valores atípicos, puede obtener una estimación muy diferente. En ese sentido, el MSE no es "robusto" para los valores atípicos. En el contexto de la regresión, este hecho es lo que motivó el Estimador M de Huber (que discuto en esta respuesta), que minimiza una función de criterio diferente (que es una mezcla entre el error al cuadrado y el error absoluto) cuando hay errores de cola larga .
Si está estimando un parámetro acotado, comparar s puede no ser apropiado ya que penaliza la sobreestimación y la subestimación de manera diferente en ese caso. Por ejemplo, suponga que está estimando una varianza, . Entonces, si conscientemente subestima la cantidad, su puede ser como máximo , mientras que la sobreestimación puede producir un que supera con creces a , tal vez incluso en una cantidad ilimitada. $\rm MSE$ $\sigma^2$ $\rm MSE$ $\sigma^4$ $\rm MSE$ $\sigma^4$

Para aclarar estos inconvenientes, daré un ejemplo concreto de cuándo, debido a estos problemas, el puede no ser una medida adecuada de la calidad del estimador. $\rm MSE$

Suponga que tiene una muestra de de una distribución con grados de libertad y estamos tratando de estimar la varianza, que es . Considere dos estimadores $X_1, ..., X_n$ $t$ $\nu>2$ $\nu/(\nu-2)$ y Claramente

{\hat{θ}}_{1} : t h e u n b i a s e d s a m p l e v a r i a n c e

$\hat \theta_{1}: {\rm the \ unbiased \ sample \ variance}$

{\hat{θ}}_{2} = 0, r e g a r d l e s s o f t h e d a t a

$\hat \theta_{2} = 0,{\rm \ regardless \ of \ the \ data}$

y es un hecho que

M S E ({\hat{θ}}_{2}) = \frac{ν^{2}}{(ν - 2)^{2}}

$\rm MSE(\hat \theta_{2}) = \frac{\nu^2}{(\nu-2)^2}$

que se puede derivar usandoel hecho discutido en este hiloylas propiedades de la distribución

. Por lo tanto, el estimador ingenuo supera en términos deindependientemente del tamaño de la muestra siempre que, lo cual es bastante desconcertante. También supera cuando

M S E ({\hat{θ}}_{1}) = {\begin{cases} \infty & if ν \leq 4 \\ \frac{ν^{2}}{(ν - 2)^{2}} (\frac{2}{n - 1} + \frac{6}{n (ν - 4)}) & if ν > 4 . \end{cases}

${\rm MSE}(\hat \theta_{1}) = \begin{cases} \infty &\mbox{if } \nu \leq 4 \\ \frac{\nu^2}{(\nu-2)^2} \left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) & \mbox{if } \nu>4 . \end{cases}$

t

$t$ $\rm MSE$ $\nu < 4$

pero esto solo es relevante para tamaños de muestra muy pequeños. Lo anterior sucede debido a la naturaleza de cola larga de la

de distribución con pequeños grados de libertad, lo que hace

propensos a valores muy grandes y la

penaliza en gran medida por la sobreestimación, mientras que

no tiene este problema.

(\frac{2}{n - 1} + \frac{6}{n (ν - 4)}) > 1

$\left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) > 1$

t

$t$

{\hat{θ}}_{2}

$\hat \theta_{2}$

M S E

$\rm MSE$

{\hat{θ}}_{1}

$\hat \theta_1$

$\rm MSE$ $\rm MSE$ $\hat \theta$

S (\hat{θ}) = \frac{\hat{θ}}{ν / (ν - 2)} - 1 - \log (\frac{\hat{θ}}{ν / (ν - 2)})

$S(\hat \theta) = \frac{ \hat \theta}{\nu/(\nu-2)} - 1 - \log \left( \frac{ \hat \theta}{\nu/(\nu-2)} \right)$

$S(\hat \theta_1)=\infty$

Macro
fuente

(+1) Buena discusión. Para ser justos, probablemente debería señalarse que también se pueden hacer argumentos similares a favor y en contra de otros criterios (otras funciones de pérdida).

MånsT

2

Normalmente, uno evalúa los estimadores observando sus funciones de riesgo, que trazan la pérdida esperada frente a los parámetros. Aquí, al corregir los parámetros, puede haber producido un análisis engañoso. Después de todo, siempre es el caso de que un estimador estúpido (constante, ignorante de datos) puede producir una pérdida esperada muy baja: ¡simplemente configúrelo igual al parámetro correcto! Esto me deja preguntándome qué ha demostrado realmente la simulación aquí.

whuber

@whuber, he modificado esta respuesta para dar el ejemplo analíticamente, lo que lo hace más claro tal vez. También he ofrecido una función de pérdida alternativa que puede ser más apropiada.

Macro

+1 ¡Mucho mejor y muy interesante! Creo que el aspecto "desconcertante" puede estar en el ojo del espectador. A cualquiera que quiera inclinarse por Bayes

ν

$\nu$ , este resultado debería ser aleccionador. Además, para algunos de nosotros, la elección de la pérdida es primordial y debería reemplazar la mayoría de las demás consideraciones: los valores y objetivos de su cliente determinan la pérdida y eso lo ayuda a elegir un buen procedimiento de estimación. ¡Favorecer un procedimiento de estimación y luego proponer una pérdida para que ese procedimiento funcione es un ejercicio útil, pero seguramente no puede tomarse como un paradigma de cómo se resuelven los problemas estadísticos!

whuber

2

MSE corresponde al riesgo (pérdida esperada) para la función de pérdida de error al cuadrado $L(\alpha_i) = (\alpha_i - \alpha)^2$ . La función de pérdida de error al cuadrado es muy popular, pero solo una opción de muchas. El procedimiento que describe es correcto bajo la pérdida de error al cuadrado; la pregunta es si eso es apropiado en su problema o no.

JMS
fuente

2

Porque la función $f(x) = x^2$ es diferenciable, hace que encontrar el MSE mínimo sea más fácil tanto desde un punto de vista teórico como numérico. Por ejemplo, en los mínimos cuadrados ordinarios puede resolver explícitamente la pendiente ajustada y la intersección. Desde un punto de vista numérico, tiene solucionadores más eficientes cuando también tiene una derivada.

El error cuadrático medio generalmente sobrepasa los valores atípicos en mi opinión. Es por eso que a menudo es más robusto usar el error absoluto medio, es decir, usar $f(x) = |x|$ como su función de error Sin embargo, dado que no es diferenciable, hace que las soluciones sean más difíciles de trabajar.

MSE es probablemente una buena opción si los términos de error se distribuyen normalmente. Si tienen colas más gordas, es preferible una opción más robusta, como el valor absoluto.

aprokopiw
fuente

0

En Case & Berger, Inferencia estadística, segunda edición, la página 332 establece que MSE penaliza por igual la sobreestimación y la subestimación, lo cual está bien en el caso de la ubicación. En el caso de la escala, sin embargo, 0 es un límite inferior natural, por lo que el problema de estimación no es simétrico. El uso de MSE en este caso tiende a perdonar la subestimación.

Es posible que desee verificar qué estimador satisface las propiedades UMVUE, lo que significa usar el límite inferior de Cramer-Rao. Página 341.

Tu.2
fuente

¿Se utiliza el error cuadrático medio para evaluar la superioridad relativa de un estimador sobre otro?

Respuestas: