El ejemplo de Stein muestra que la estimación de máxima verosimilitud de variables normalmente distribuidas con medias varianzas es inadmisible (bajo una función de pérdida cuadrada) si f . Para una prueba clara, vea el primer capítulo de Inferencia a gran escala: Métodos empíricos de Bayes para estimación, prueba y predicción de Bradley Effron.
Mi pregunta es más bien: ¿Qué propiedad del espacio -dimensional (para n \ ge 3 ) le falta a \ mathbb {R} ^ 2 que facilite el ejemplo de Stein? Las posibles respuestas podrían ser sobre la curvatura de la n- esfera, o algo completamente diferente.
En otras palabras, ¿por qué es admisible el MLE en ?
Edición 1: en respuesta a la preocupación de @mpiktas sobre 1.31 a partir de 1.30:
Edición 2 : en este documento , Stein demuestra que el MLE es admisible para .
Respuestas:
La dicotomía entre los casos y para la admisibilidad del MLE de la media de una variable aleatoria normal multivariada dimensional es ciertamente impactante.d<3 d≥3 d
Hay otro ejemplo muy famoso en probabilidad y estadística en el que hay una dicotomía entre los casos y . Esta es la recurrencia de una caminata aleatoria simple en la red . Es decir, el recorrido aleatorio simple dimensional es recurrente en 1 o 2 dimensiones, pero es transitorio en dimensiones. El análogo de tiempo continuo (en forma de movimiento browniano) también es válido.d<3 d≥3 Zd d d≥3
Resulta que los dos están estrechamente relacionados.
Larry Brown demostró que las dos preguntas son esencialmente equivalentes. Es decir, el mejor estimador invariante de un vector medio normal multivariado dimensional es admisible si y solo si el movimiento browniano dimensional es recurrente.μ^≡μ^(X)=X d d
De hecho, sus resultados van mucho más allá. Para cualquier estimador sensible (es decir, Bayes generalizado) con riesgo acotado (generalizado) , existe una difusión dimensional correspondiente explícita (!) De tal manera que el el estimador es admisible si y solo si su difusión correspondiente es recurrente.μ~≡μ~(X) L2 d μ~
La media local de esta difusión es esencialmente la discrepancia entre los dos estimadores, es decir, y la covarianza de la difusión es . A partir de esto, es fácil ver que para el caso de MLE , recuperamos (reescalamos) el movimiento browniano.μ~−μ^ 2I μ~=μ^=X
Entonces, en cierto sentido, podemos ver la cuestión de la admisibilidad a través de la lente de los procesos estocásticos y utilizar propiedades bien estudiadas de las difusiones para llegar a las conclusiones deseadas.
Referencias
fuente
@cardinal dio una gran respuesta (+1), pero todo el problema sigue siendo misterioso a menos que uno esté familiarizado con las pruebas (y yo no lo estoy). Así que creo que queda la pregunta de cuál es una razón intuitiva por la cual la paradoja de Stein no aparece en y .R R2
Encuentro muy útil una perspectiva de regresión ofrecida en Stephen Stigler, 1990, A Galtonian Perspective on Shrinkage Estimators . Considere las mediciones independientes , cada una de las cuales mide subyacente (no observada) y se muestrea a partir de . Si de alguna manera supiéramos el , podríamos hacer un diagrama de dispersión de pares :Xi θi N(θi,1) θi (Xi,θi)
La línea diagonal corresponde a ruido cero y estimación perfecta; en realidad el ruido no es cero y, por lo tanto, los puntos se desplazan de la línea diagonal en dirección horizontal . Correspondientemente, puede verse como una línea de regresión de en . Sin embargo, conocemos y queremos estimar , por lo que deberíamos considerar una línea de regresión de en , que tendrá una pendiente diferente, sesgada horizontalmente , como se muestra en la figura (línea discontinua).θ=X θ=X X θ X θ θ X
Citando del artículo de Stigler:
Y ahora viene la parte crucial (énfasis agregado):
Creo que esto hace que sea muy claro lo que es especial acerca de y .k=1 k=2
fuente