¿Para qué modelos el sesgo de MLE cae más rápido que la varianza?

14

θ^θnθ^θO(1/n)Eθ^θEθ^θ^O(1/n)

Estoy interesado en los modelos que tienen un sesgo que se reduce más rápido que O(1/n) , pero donde el error no se reduce a esta velocidad más rápida porque la desviación todavía se reduce como O(1/n) . En particular, me gustaría conocer las condiciones suficientes para que el sesgo de un modelo se reduzca a la velocidad O(1/n) .

Mike Izbicki
fuente
¿ θ^θ=(θ^θ)2 ? ¿O?
Alecos Papadopoulos
Estaba preguntando específicamente sobre la norma L2, sí. Pero también estaría interesado en otras normas si hace que la pregunta sea más fácil de responder.
Mike Izbicki
(θ^θ)2 es Op(1/n) .
Alecos Papadopoulos
Lo siento, leí mal tu comentario. Para la norma L2 en d dimensiones, ab=i=1d(aibi)2 , por lo que la convergencia es a razón de O(1/n) . Estoy de acuerdo en que si lo cuadráramos, entonces convergería como O(1/n) .
Mike Izbicki
¿Has visto el papel de regresión de cresta (Hoerl y Kennard 1970)? Creo que da condiciones en la matriz de diseño + penalización donde se espera que esto sea cierto.
dcl

Respuestas:

5

En general, necesita modelos en los que el MLE no sea asintóticamente normal, sino que converja con alguna otra distribución (y lo hace a un ritmo más rápido). Esto generalmente ocurre cuando el parámetro bajo estimación está en el límite del espacio del parámetro. Intuitivamente, esto significa que el MLE se acercará al parámetro "solo desde un lado", por lo que "mejora la velocidad de convergencia" ya que no se "distrae" yendo "hacia adelante y hacia atrás" alrededor del parámetro.

Un ejemplo estándar, es el MLE para en una muestra iid de rv uniforme. El MLE aquí es la estadística de orden máxima,U ( 0 , θ )θU(0,θ)

θ^n=u(n)

Su distribución de muestra finita es

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E(θ^n)=nn+1θB(θ^)=1n+1θ

Entonces . Pero la misma tasa aumentada se mantendrá también para la varianza.B(θ^n)=O(1/n)

También se puede verificar que para obtener una distribución limitante, necesitamos mirar la variable , (es decir, debemos escalar por ) ya quenn(θθ^n)n

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

que es el CDF de la distribución exponencial.

Espero que esto proporcione alguna dirección.

Alecos Papadopoulos
fuente
Esto se está acercando, pero estoy específicamente interesado en situaciones en las que el sesgo se reduce más rápido que la varianza.
Mike Izbicki
2
@MikeIzbicki Hmm ... la convergencia del sesgo depende del primer momento de la distribución, y la (raíz cuadrada de la) varianza también es una magnitud de "primer orden". No estoy seguro de que esto sea posible, porque parece que implicaría que los momentos de la distribución limitante "surgen" a tasas de convergencia que no son compatibles entre sí ... Sin embargo, lo pensaré.
Alecos Papadopoulos
2

Siguiendo los comentarios en mi otra respuesta (¡y mirando nuevamente el título de la pregunta del OP!), Aquí hay una exploración teórica no muy rigurosa del tema.

Queremos determinar si Bias pueden tener diferente velocidad de convergencia que la raíz cuadrada de la varianza,B(θ^n)=E(θ^n)θ

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

Tenemos

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

(1)[E(θ^n)]2=O(1/n2δ)

mientras

Var(θ^n)=O(1/nγ)limnγE(θ^n2)[E(θ^n)]2<M

limn2γE(θ^n2)n2γ[E(θ^n)]2<M

(2)limn2γE(θ^n2)limn2γ[E(θ^n)]2<M

Vemos que puede ocurrir si sucede (2)

A) ambos componentes son , en cuyo caso solo podemos tener . γ = δO(1/n2γ)γ=δ

B) Pero también puede sostenerse si

(3)limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)

Para que sea ​​compatible con , debemos tener( 1 )(3)(1)

(4)n2γ<n2δδ>γ

Por lo tanto, parece que, en principio, es posible hacer que el sesgo converja a un ritmo más rápido que la raíz cuadrada de la varianza. Pero no podemos hacer que la raíz cuadrada de la varianza converja a un ritmo más rápido que el sesgo.

Alecos Papadopoulos
fuente
¿Cómo conciliarías esto con la existencia de estimadores insesgados como mínimos cuadrados ordinarios? En ese caso, , pero . B(θ^)=0Var(θ^)=O(1/n)
Mike Izbicki
@MikeIzbicki ¿Es aplicable el concepto de convergencia / big-O en este caso? Porque aquí no es " -cualquier cosa" para empezar. O ( )B(θ^)O()
Alecos Papadopoulos
En este caso, , entonces . Eθ^=θB(θ^)=Eθ^θ=0=O(1)=O(1/n0)
Mike Izbicki
@MikeIzbicki Pero también o o cualquier otro que desee anotar. Entonces, ¿cuál es la tasa de convergencia aquí? B(θ^)=O(n)B(θ^)=O(1/n)
Alecos Papadopoulos
@MikeIzbicki He corregido mi respuesta para mostrar que, en principio, es posible que el sesgo converja más rápido, aunque sigo pensando que el ejemplo de "sesgo cero" es problemático.
Alecos Papadopoulos