Tengo una confusión sobre los estimadores sesgados de máxima verosimilitud (ML). La matemática de todo el concepto es bastante clara para mí, pero no puedo entender el razonamiento intuitivo detrás de él.
Dado un determinado conjunto de datos que tiene muestras de una distribución, que en sí misma es una función de un parámetro que queremos estimar, el estimador ML da como resultado el valor del parámetro que es más probable que produzca el conjunto de datos.
No puedo entender intuitivamente un estimador de ML sesgado en el sentido de que: ¿cómo puede el valor más probable para el parámetro predecir el valor real del parámetro con un sesgo hacia un valor incorrecto?
maximum-likelihood
bias
ssah
fuente
fuente
Respuestas:
Dados los supuestos, el estimador de ML es el valor del parámetro que tiene la mejor oportunidad de producir el conjunto de datos.
El sesgo se trata de las expectativas de las distribuciones de muestreo. "Lo más probable es que produzca los datos" no se trata de expectativas de distribuciones de muestreo. ¿Por qué se espera que vayan juntos?
¿Sobre qué base sorprende que no se correspondan necesariamente?
Le sugiero que considere algunos casos simples de MLE y reflexione sobre cómo surge la diferencia en esos casos particulares.
Como ejemplo, considere las observaciones en un uniforme en . La observación más grande no es (necesariamente) mayor que el parámetro, por lo que el parámetro solo puede tomar valores al menos tan grandes como la observación más grande.(0,θ)
Cuando considera la probabilidad de , es (obviamente) más grande cuanto más cerca esté de la observación más grande. Entonces se maximiza en la observación más grande; esa es claramente la estimación de que maximiza la posibilidad de obtener la muestra que obtuvo:θ θ θ
Pero, por otro lado, debe estar sesgado, ya que la observación más grande es obviamente (con probabilidad 1) menor que el valor verdadero de ; cualquier otra estimación de no haya sido descartada por la muestra en sí misma debe ser mayor que esta y (en este caso) debe ser menos probable que produzca la muestra.θ θ
La expectativa de la observación más grande de una es , por lo que la forma habitual de unbias es tomar como estimador de : , donde es la observación más grande.U(0,θ) nn+1 θ θ^=n+1nX(n) X(n)
Esto se encuentra a la derecha del MLE y, por lo tanto, tiene una probabilidad menor.
fuente
fuente
Aquí está mi intuición.
El sesgo es una medida de precisión , pero también existe una noción de precisión .
En un mundo ideal, obtendríamos la estimación, que es tanto precisa como precisa, es decir, siempre da en el blanco. Desafortunadamente, en nuestro mundo imperfecto, tenemos que equilibrar la precisión y la precisión. A veces podemos sentir que podríamos dar un poco de precisión para ganar más precisión: intercambiamos todo el tiempo. Por lo tanto, el hecho de que un estimador esté sesgado no significa que sea malo: podría ser que sea más preciso.
fuente