Intuición detrás de por qué la paradoja de Stein solo se aplica en dimensiones

46

El ejemplo de Stein muestra que la estimación de máxima verosimilitud de n variables normalmente distribuidas con medias μ1,,μn varianzas 1 es inadmisible (bajo una función de pérdida cuadrada) si f n3 . Para una prueba clara, vea el primer capítulo de Inferencia a gran escala: Métodos empíricos de Bayes para estimación, prueba y predicción de Bradley Effron.

xN(μ,1)Ex2μ2+n

Mi pregunta es más bien: ¿Qué propiedad del espacio -dimensional (para n \ ge 3 ) le falta a \ mathbb {R} ^ 2 que facilite el ejemplo de Stein? Las posibles respuestas podrían ser sobre la curvatura de la n- esfera, o algo completamente diferente.nn3R2n

En otras palabras, ¿por qué es admisible el MLE en R2 ?


Edición 1: en respuesta a la preocupación de @mpiktas sobre 1.31 a partir de 1.30:

Eμ(zμ^2)=Eμ(S(N2S)2)=Eμ((N2)2S).

μi^=(1N2S)zi
so
Eμ(μi^zi)=Eμ(1N2S+2zi2S2).
Por lo tanto tenemos:

2i=1NEμ(μi^zi)=2N2Eμ(N(N2)S)+4Eμ((N2)S)=2NEμ2(N2)2S.

Edición 2 : en este documento , Stein demuestra que el MLE es admisible para N=2 .

Har
fuente
44
@mpiktas No es tan inaplicable como parece. La situación es similar a un ANOVA después de aplicar una reducción de suficiencia. Esto sugiere que las estimaciones ANOVA habituales de las medias grupales son inadmisibles siempre que tratemos de estimar las medias de más de 3 grupos (lo que resulta ser cierto). Recomendaría mirar las pruebas de que el MLE es admisible para y ver dónde fallan al intentar extender a lugar de solo mirar las pruebas de que el estimador de Stein hace lo que dice hacer, lo cual es fácil una vez en realidad tienes el estimador en mente. N=1,2N=3
chico
2
... y sé usar el Lema de Stein. Supongo que en realidad es un poco menos directo de lo que pensaba hace 6 minutos.
chico
2
Estoy de acuerdo. ¿Tiene alguna buena referencia para eso (aparte del documento original)? Encontré el artículo original de Stein demasiado computacional y esperaba que alguien hubiera desarrollado un método diferente en los últimos cincuenta años.
Har
2
Creo que la prueba que me enseñaron fue la de Brown y Hwang de 1983, que utiliza un método sugerido por Blyth de principios de la década de 1950. Es bastante general (más general que el resultado de Stein en que funciona para la familia exponencial) y, creo, bastante diferente de Stein. Pero no es trivial.
chico
2
@Har gran pregunta! (+1)
suncoolsu

Respuestas:

43

La dicotomía entre los casos y para la admisibilidad del MLE de la media de una variable aleatoria normal multivariada dimensional es ciertamente impactante.d<3d3d

Hay otro ejemplo muy famoso en probabilidad y estadística en el que hay una dicotomía entre los casos y . Esta es la recurrencia de una caminata aleatoria simple en la red . Es decir, el recorrido aleatorio simple dimensional es recurrente en 1 o 2 dimensiones, pero es transitorio en dimensiones. El análogo de tiempo continuo (en forma de movimiento browniano) también es válido.d<3d3Zddd3

Resulta que los dos están estrechamente relacionados.

Larry Brown demostró que las dos preguntas son esencialmente equivalentes. Es decir, el mejor estimador invariante de un vector medio normal multivariado dimensional es admisible si y solo si el movimiento browniano dimensional es recurrente.μ^μ^(X)=Xdd

De hecho, sus resultados van mucho más allá. Para cualquier estimador sensible (es decir, Bayes generalizado) con riesgo acotado (generalizado) , existe una difusión dimensional correspondiente explícita (!) De tal manera que el el estimador es admisible si y solo si su difusión correspondiente es recurrente.μ~μ~(X)L2dμ~

La media local de esta difusión es esencialmente la discrepancia entre los dos estimadores, es decir, y la covarianza de la difusión es . A partir de esto, es fácil ver que para el caso de MLE , recuperamos (reescalamos) el movimiento browniano.μ~μ^2Iμ~=μ^=X

Entonces, en cierto sentido, podemos ver la cuestión de la admisibilidad a través de la lente de los procesos estocásticos y utilizar propiedades bien estudiadas de las difusiones para llegar a las conclusiones deseadas.

Referencias

  1. L. Brown (1971). Estimadores admisibles, difusiones recurrentes y problemas insolubles de valor límite . Ana. Matemáticas. Stat. vol. 42, no. 3, págs. 855-903.
  2. RN Bhattacharya (1978). Criterios de recurrencia y existencia de medidas invariantes para difusiones multidimensionales . Ana. Prob. vol. 6, no. 4, 541–553.
cardenal
fuente
2
En realidad, algo como esto es lo que esperaba. Una conexión con otro campo de las matemáticas (ya sea geometría diferencial o procesos estocásticos) que muestra que la admisibilidad para no fue solo una casualidad. ¡Gran respuesta! n=2
Har
Inspirado por su respuesta, proporcioné algunos detalles y también agregué
Henry.L
21

@cardinal dio una gran respuesta (+1), pero todo el problema sigue siendo misterioso a menos que uno esté familiarizado con las pruebas (y yo no lo estoy). Así que creo que queda la pregunta de cuál es una razón intuitiva por la cual la paradoja de Stein no aparece en y .RR2

Encuentro muy útil una perspectiva de regresión ofrecida en Stephen Stigler, 1990, A Galtonian Perspective on Shrinkage Estimators . Considere las mediciones independientes , cada una de las cuales mide subyacente (no observada) y se muestrea a partir de . Si de alguna manera supiéramos el , podríamos hacer un diagrama de dispersión de pares :XiθiN(θi,1)θi(Xi,θi)

La paradoja de Stein: perspectiva de regresión

La línea diagonal corresponde a ruido cero y estimación perfecta; en realidad el ruido no es cero y, por lo tanto, los puntos se desplazan de la línea diagonal en dirección horizontal . Correspondientemente, puede verse como una línea de regresión de en . Sin embargo, conocemos y queremos estimar , por lo que deberíamos considerar una línea de regresión de en , que tendrá una pendiente diferente, sesgada horizontalmente , como se muestra en la figura (línea discontinua).θ=Xθ=XXθXθθX

Citando del artículo de Stigler:

Esta perspectiva galtoniana sobre la paradoja de Stein la hace casi transparente. Los estimadores "ordinarios" se derivan de la línea de regresión teórica de en . Esa línea sería útil si nuestro objetivo fuera predecir partir de , pero nuestro problema es el inverso, es decir, predecir partir de utilizando la suma de los errores al cuadrado como Un criterio. Para ese criterio, los estimadores lineales óptimos están dados por la línea de regresión de mínimos cuadrados de enθ^i0=XiXθXθθX(θiθ^i)2θX, y los estimadores James-Stein y Efron-Morris son ellos mismos estimadores de ese estimador lineal óptimo. Los estimadores "ordinarios" se derivan de la línea de regresión incorrecta, los estimadores de James-Stein y Efron-Morris se derivan de aproximaciones a la línea de regresión correcta.

Y ahora viene la parte crucial (énfasis agregado):

Incluso podemos ver por qué es necesario: si o , la línea de mínimos cuadrados de en debe pasar por los puntos , y por lo tanto para o , el dos líneas de regresión (de en y de en ) deben coincidir en cada .k3k=12θX(Xi,θi)k=12XθθXXi

Creo que esto hace que sea muy claro lo que es especial acerca de y .k=1k=2

ameba dice Reinstate Monica
fuente