¿Son preferibles los estimadores inconsistentes?

22

Obviamente, la consistencia es un estimador de propiedad natural e importante, pero ¿hay situaciones en las que podría ser mejor usar un estimador inconsistente en lugar de uno consistente?

Más específicamente, ¿hay ejemplos de un estimador inconsistente que supere a un estimador consistente razonable para todos los finitos n(con respecto a alguna función de pérdida adecuada)?

MånsT
fuente
1
Hay una compensación interesante en el rendimiento entre la consistencia de la selección del modelo y la consistencia de los parámetros en los problemas de estimación utilizando el lazo y sus variantes (¡muchas!). Esto se detalla, por ejemplo, en el texto reciente de Bühlmann y van der Geer.
cardenal
¿No se mantendría el argumento en mi, ahora borrada, respuesta? A saber: en muestras pequeñas es mejor tener un estimador imparcial con baja varianza. ¿O se puede demostrar que un estimador consistente siempre tiene una varianza menor que cualquier otro estimador imparcial?
Bob Jansen
¡Quizás, @Bootvis! ¿Tiene un ejemplo de un estimador inconsistente con bajo MSE?
MånsT
3
@Bootvis: Si observa los extensos comentarios sobre una respuesta a una pregunta reciente sobre la coherencia frente a la imparcialidad, verá que un estimador consistente puede tener un comportamiento arbitrariamente salvaje tanto de la varianza como del sesgo (¡incluso, simultáneamente!) . Eso debería eliminar toda duda con respecto a su comentario.
cardenal
Pensé que tenía uno de los dos libros, ¡pero aparentemente también me equivoqué al respecto! El ejemplo no se encuentra en ninguna parte. @cardinal: Suena interesante, lo comprobará
Bob Jansen

Respuestas:

25

Esta respuesta describe un problema realista en el que un estimador coherente natural está dominado (superado por todos los valores de parámetros posibles para todos los tamaños de muestra) por un estimador inconsistente. Está motivado por la idea de que la consistencia es la más adecuada para las pérdidas cuadráticas, por lo que el uso de una pérdida que se desvía fuertemente de eso (como una pérdida asimétrica) debería hacer que la consistencia sea casi inútil para evaluar el rendimiento de los estimadores.


Suponga que su cliente desea estimar la media de una variable (se supone que tiene una distribución simétrica) a partir de una muestra iid , pero es reacio a (a) subestimarla o (b) sobreestimar en exceso eso.(x1,,xn)

Para ver cómo podría funcionar esto, adoptemos una función de pérdida simple, entendiendo que en la práctica la pérdida puede diferir de esta cuantitativamente (pero no cualitativamente). Elija las unidades de medida para que sea ​​la sobreestimación tolerable más grande y establezca la pérdida de una estimación t cuando la media real es μ igual a 0 siempre que μ t μ +1tμ0 e igual a 1 en caso contrario.μtμ+11

Los cálculos son particularmente simples para una familia normal de distribuciones con media y varianza σ 2 > 0 , para la media muestral ˉ xμσ2>0tiene unadistribuciónNormal(μ,σ2/n). La media muestral es un estimador consistente deμ, como es bien sabido (y obvio). EscribiendoΦpara el CDF normal estándar, la pérdida esperada de la media de la muestra es igual a1/2+Φ(-x¯=1nixi(μ,σ2/n)μΦ:1/2proviene del 50% de probabilidad de que la media de la muestra subestimará la media verdadera yΦ(-1/2+Φ(n/σ)1/2proviene de la posibilidad de sobreestimar la media real en más de1.Φ(n/σ)1

Pérdidas

La pérdida esperada de es igual al área azul bajo este PDF normal estándar. El área roja da la pérdida esperada del estimador alternativo, a continuación. Difieren al reemplazar el área azul sólida entre - x¯y0por el área roja sólida más pequeña entren/(2σ)0yn/(2σ). Esa diferencia crece a medida queaumentan.n/σn

x¯+1/22Φ(n/(2σ))1/20nnμ+1/2μ

Funciones de pérdida

x¯x¯+1/2n

whuber
fuente
2
L2L2
55
@Macro El pensamiento es algo indirecto y no pretende ser riguroso, pero creo que es natural: la pérdida cuadrática implica minimizar la varianza que (a través de Chebyshev) conduce a la convergencia en la probabilidad. Por lo tanto, una heurística para encontrar un contraejemplo debe centrarse en las pérdidas que están tan lejos de ser cuadráticas que tales manipulaciones no tienen éxito.
whuber
1
1/20n
3
@Michael OK, gracias por explicar eso. En este contexto, con una pérdida no cuadrática, una "ventaja" no se expresa en términos de sesgo. Uno podría criticar esta función de pérdida, pero no quiero rechazarla directamente: modela situaciones en las que, por ejemplo, los datos son medidas de un artículo fabricado con ciertas tolerancias y sería desastroso (como en el caso de la falla de la junta tórica de Shuttle o bancarrota comercial desastrosa) para que el verdadero medio caiga fuera de esas tolerancias.
whuber
1
(+1) ¡Gran respuesta, @whuber! En particular, me gusta que no se sienta demasiado patológico: puedo pensar en muchas situaciones en las que este tipo de pérdida sería aplicable.
Lunes