¿Hay algún ejemplo donde MLE produce una estimación sesgada de la media?

17

¿Puede proporcionar un ejemplo de un estimador MLE de la media que está sesgada?

No estoy buscando un ejemplo que rompa los estimadores de MLE en general al violar las condiciones de regularidad.

Todos los ejemplos que puedo ver en Internet se refieren a la variación, y parece que no puedo encontrar nada relacionado con la media.

EDITAR

@MichaelHardy proporcionó un ejemplo en el que obtenemos una estimación sesgada de la media de distribución uniforme usando MLE bajo cierto modelo propuesto.

sin embargo

https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint

sugiere que MLE es un estimador imparcial uniformemente mínimo de la media, claramente bajo otro modelo propuesto.

En este punto, todavía no está muy claro para mí qué se entiende por estimación de MLE si es muy hipotético dependiente del modelo en lugar de decir un estimador medio de muestra que es neutral para el modelo. Al final, estoy interesado en estimar algo sobre la población y realmente no me importa la estimación de un parámetro de un modelo hipotético.

EDITAR 2

Como @ChristophHanck mostró el modelo con información adicional introdujo sesgo pero no logró reducir el MSE.

También tenemos resultados adicionales:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (diapositiva 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (diapositiva 5)

"Si existe un estimador imparcial más eficiente ˆθ de θ (es decir, ˆθ es imparcial y su varianza es igual al CRLB), entonces el método de estimación de máxima verosimilitud lo producirá".

"Además, si existe un estimador eficiente, es el estimador ML".

Dado que el MLE con parámetros de modelo libres es imparcial y eficiente, por definición, ¿es este "el" Estimador de máxima verosimilitud?

EDITAR 3

@AlecosPapadopoulos tiene un ejemplo con distribución Half Normal en el foro de matemáticas.

/math/799954/can-the-maximum-likelihood-estimator-be-unlimited-and-fail-to-achieve-cramer-rao

No está anclando ninguno de sus parámetros como en el caso uniforme. Diría que eso lo resuelve, aunque no ha demostrado el sesgo del estimador medio.

Cagdas Ozgenc
fuente
10
La media de un uniforme en cero y theta.
Christoph Hanck
1
No puedo seguir su distinción entre "estimar algo sobre la población" y "un parámetro de un modelo hipotético". En todas las estadísticas paramétricas, parametrizamos una población por algunos parámetros. Por supuesto, podemos encontrar problemas de especificación errónea, pero eso no parece ser relevante para el problema en cuestión.
Christoph Hanck
55
Por ejemplo, que una población puede caracterizarse por sus parámetros / momentos, como la media y la varianza (que sería suficiente para una población normal, por ejemplo). Y: no creo que las personas sean más o menos pedantes con usted que con cualquier otra persona en este foro.
Christoph Hanck
2
Si se siente descontento con el aparente juego de manos de cambiar entre "parámetro" y "media", permítame definir una cierta distribución no negativa en términos de su media , con densidad en su soporte de ...μ12μ[0,2μ]
Silverfish
1
Con respecto a su edición 2, muchos de estos resultados se derivan en condiciones de regularidad que no se satisfacen para el ejemplo uniforme discutido en este hilo, para el cual el espacio muestral depende del parámetro.
Christoph Hanck

Respuestas:

32

Christoph Hanck no ha publicado los detalles de su ejemplo propuesto. Supongo que se refiere a la distribución uniforme en el intervalo [0,θ], basada en una muestra iid X1,,Xn de tamaño mayor que n=1.

La media es θ/2 .

max{X1,,Xn}/2.

Eso está sesgado ya que entoncesPr(max<θ)=1,E(max/2)<θ/2.

PD: Quizás deberíamos tener en cuenta que el mejor estimador imparcial de la media no es la media de la muestra, sino que esLa media muestral es un pésimo estimador de porque para algunas muestras, la media muestral es menor que y es claramente imposible para ser menor quefin de PSn + 1θ/2θ/21

n+12nmax{X1,,Xn}.
θ/2θ/2max/2.12max{X1,,Xn},θ/2max/2.

Sospecho que la distribución de Pareto es otro de esos casos. Aquí está la medida de probabilidad: El valor esperado esEl MLE del valor esperado es whereα

α(κx)α dxx for x>κ.
norteαα1κ.min=min{X1,,Xn}.
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

No he calculado el valor esperado del MLE para la media, así que no sé cuál es su sesgo.

Michael Hardy
fuente
12
Cagdas, no es legítimo pedir un contraejemplo y luego negar que propondrías algo más. Es como pedir un ejemplo de una fruta que no es roja, que le muestren un arándano y luego decir que no cuenta porque no le gustan los arándanos.
whuber
77
Eso no es relevante para la pregunta que hizo.
whuber
8
@CagdasOzgenc: si el MLE está sesgado o no depende del modelo. No hay tal cosa como un MLE sin un modelo. Y si altera el modelo, altera el MLE.
Michael Hardy
8
@CagdasOzgenc Aquí hay una pregunta socrática: ¿la media de la muestra es un estimador imparcial de qué? Necesita un modelo para tener un parámetro que estimar.
Matthew Drury
9
La media de una muestra iid es un estimador imparcial de la media de la población, pero no se puede hablar de un estimador de máxima verosimilitud de nada sin más estructura de la necesaria para hablar de un estimador imparcial de algo.
Michael Hardy
18

Aquí hay un ejemplo que creo que algunos pueden encontrar sorprendente:

En la regresión logística, para cualquier tamaño de muestra finita con resultados no deterministas (es decir, ), cualquier coeficiente de regresión estimado no solo está sesgado, sino que la media del coeficiente de regresión en realidad no está definida.0<pi<1

Esto se debe a que para cualquier tamaño de muestra finita, hay una probabilidad positiva (aunque muy pequeña si el número de muestras es grande en comparación con el número de parámetros de regresión) de obtener una separación perfecta de los resultados. Cuando esto sucede, los coeficientes de regresión estimados serán o . Tener una probabilidad positiva de ser o implica que el valor esperado no está definido.-

Para más información sobre este tema en particular, vea el efecto Hauck-Donner .

Acantilado
fuente
1
Esto es bastante inteligente. Me pregunto si el MLE de los coeficientes de regresión logística es condicional imparcial en la falta de pertinencia del efecto Hauck-Donner.
gung
3
@gung: Respuesta corta: ignorando el efecto Hauck-Donner, todavía hay sesgo hacia arriba en los coeficientes de regresión absoluta (es decir, los coeficientes negativos tienen sesgo hacia abajo, los positivos tienen sesgo hacia arriba). Curiosamente, parece haber un sesgo hacia 0.5 en las probabilidades estimadas. Comencé a escribir sobre esto en esta publicación , pero no he presentado mis resultados sobre los sesgos de las probabilidades estimadas.
Cliff AB
10

Aunque @MichaelHardy ha hecho el punto, aquí hay un argumento más detallado de por qué el MLE del máximo (y por lo tanto, el de la media , por invariancia) no es imparcial, aunque está en un modelo diferente ( ver la edición a continuación).θ/2

Estimamos el límite superior de la distribución uniforme . Aquí, es el MLE, para una muestra aleatoria . Mostramos que no es imparcial. Su cdf es Por lo tanto, su densidad es Por lo tanto, y ( n ) y y ( n ) F y ( n ) ( x )U[0,θ]y(n)yy(n)

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

EDITAR: De hecho, es el caso de que (ver la discusión en los comentarios) el MLE es imparcial para la media en el caso en que tanto el límite inferior como el límite superior son desconocidos. Entonces, el mínimo es el MLE para , con (detalles omitidos) el valor esperado mientras para que el MLE para sea con el valor esperado abY(1)a

E(Y(1))=na+bn+1
E(Y(n))=nb+an+1
(a+b)/2
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

EDITAR 2: Para elaborar sobre el punto de Henry, aquí hay una pequeña simulación para el MSE de los estimadores de la media, que muestra que si bien el MLE si no sabemos que el límite inferior es cero es imparcial, los MSE para las dos variantes son idénticos , lo que sugiere que el estimador que incorpora el conocimiento del límite inferior reduce la variabilidad.

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968
Christoph Hanck
fuente
Porque Wikipedia está proponiendo un modelo diferente para empezar. Ahí es donde radica mi confusión.
Cagdas Ozgenc
Sí, pero una vez que nos ajustamos al caso especial discutido aquí, a saber, , volvemos al cuadrado 1. En ese caso, ya no necesitamos el mínimo de muestra para la estimación, ya que sabemos que el límite inferior es cero, para que el MLE del punto medio (= mediana = media) simplemente se convierta nuevamente. a=0(max+0)/2
Christoph Hanck
2
No he elaborado los detalles, pero el MLE en ese modelo podría ser imparcial si el mínimo sobreestima el límite inferior en la misma cantidad que el máximo subestima el máximo, de modo que el punto medio se estima sin sesgo.
Christoph Hanck
44
@CagdasOzgenc: la imparcialidad no es la única o incluso la medida más importante de mejor . Al conocer con precisión un extremo del soporte, puede perder el equilibrio entre los errores al estimar la media, pero termina con (por ejemplo) una mejor estimación del rango
Henry
66
Los estimadores de máxima verosimilitud no siempre son "mejores" en todos los criterios para tamaños de muestra pequeños. ¿Y qué? Tampoco pretenden serlo. Si desea utilizar un estimador diferente para su problema que tenga mejores propiedades de acuerdo con algún criterio para los tamaños de muestra que se encuentran cerca del tamaño real de la muestra, puede hacerlo. Lo hago, y también lo hacen otras personas. Nadie afirma que usar MLE esté justificado en todas las situaciones solo porque es MLE.
jbowman
5

Completando aquí la omisión en mi respuesta en math.se referenciada por el OP,

supongamos que tenemos una muestra iid de tamaño de variables aleatorias siguiendo la distribución Half Normal . La densidad y los momentos de esta distribución sonn

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

El log-verosimilitud de la muestra es

L(vx)=nln2/πn2lnv12vi=1nxi2

La primera derivada con respecto a esv

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

entonces es un método de estimador de momentos. Es imparcial ya que,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

Pero , el estimador resultante para la media está sesgado hacia abajo debido a la desigualdad de Jensen

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ
Alecos Papadopoulos
fuente
4

El famoso problema de Neyman Scott tiene un MLE inconsistente en el sentido de que nunca converge a lo correcto. Motiva el uso de la probabilidad condicional.

Tome . El MLE de μ i es ( X i + Y i ) / 2 y de σ 2 es σ 2 = Σ n i = 1 1(Xi,Yi)N(μi,σ2)μi(Xi+Yi)/2σ2 cons 2 i =(Xi - μ i)2/2+(Yi - μ i)2/2=(Xi-Yi)2/4que ha esperado valorσ2/4y está sesgado por un factor de 2.σ^2=i=1n1nsi2si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4σ2/4

AdamO
fuente
2
Si bien este ejemplo es cierto, esto desafía una de las condiciones básicas de regularidad para los resultados asintóticos de los MLE: que , donde k es el número de parámetros estimados yn es el tamaño de la muestra. k/n0kn
Cliff AB
1
@CliffAB, la violación de la suposición es que la dimensión paramétrica no es fija. La dimensión de va a como n . Creo que eso es lo que estás diciendo, pero no sé lo que significa k . La ilustración práctica de este ejemplo, por supuesto, es que estos resultados estarían sesgados incluso en muestras pequeñas y debe usar la probabilidad condicional, como un modelo de efectos mixtos, para estimar σ en este caso. Θnkσ
AdamO
3

Hay un rango infinito de ejemplos para este fenómeno desde

  1. el estimador de máxima verosimilitud de un biyectiva transformar de un parámetro θ es el biyectiva transformada del estimador de máxima verosimilitud de θ , Ψ ( θ MLE ) ;Ψ(θ)θθΨ(θ^MLE)
  2. la expectativa de la transformada de biyectiva el estimador de máxima verosimilitud de , Ψ ( θ MLE ) , E [ Ψ ( θ MLE ) ] no es el biyectiva transformada de la expectativa del estimador de máxima verosimilitud, Ψ ( E [ θ MLE ] ) ;θΨ(θ^MLE)E[Ψ(θ^MLE)]Ψ(E[θ^MLE])
  3. la mayoría de las transformaciones son expectativas de alguna transformación de los datos, h ( X ) , al menos para familias exponenciales, siempre que se les pueda aplicar una transformación inversa de Laplace.Ψ(θ)h(X)
Xi'an
fuente