Estimador James-Stein: ¿Cómo calcularon Efron y Morris

18

Tengo una pregunta sobre el cálculo del factor de contracción de James-Stein en el artículo de Scientific American de 1977 de Bradley Efron y Carl Morris, "La paradoja de Stein en estadística" .

Reuní los datos para los jugadores de béisbol y se dan a continuación:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45es el promedio después de 45 al bate y se denota como y en el artículo. avgSeasonEs el final de la temporada promedio.

El estimador de James-Stein para el promedio ( ) viene dado por z = ˉ y + c ( y - ˉ y ) y el factor de contracción c está dado por (página 5 del artículo de Scientific American 1977) c = 1 - ( k - 3 ) σ 2z

z=y¯+c(yy¯)
c
c=1(k3)σ2(yy¯)2,

donde es el número de medios desconocidos. Aquí hay 18 jugadores, entonces k = 18 . Puedo calcular ( y - ˉ y ) 2 usando valores. Pero no sé cómo calcular σ 2 . Los autores dicen que c = 0.212 para el conjunto de datos dado.kk=18(yy¯)2avg45σ2c=0.212

Intenté usar y σ 2 y para σ 2 pero no dan la respuesta correcta de c = 0.212σx2σy2σ2c=0.212

¿Alguien puede ser tan amable de hacerme saber cómo calcular para este conjunto de datos?σ2

Anand
fuente
1
Sé que MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) se usa mucho para la contracción de wavelets.
robin girard

Respuestas:

19

El parámetro es la varianza común (desconocida) de los componentes del vector, cada uno de los cuales suponemos que se distribuyen normalmente. Para los datos de béisbol tenemos 45 Y ib i n o m ( 45 , p i ) , por lo que la aproximación normal a la distribución binomial da (tomando ^ p i = Y i )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Obviamente, en este caso las varianzas no son iguales, sin embargo, si hubieran sido igual a un valor común entonces se podría estimar que con el estimador agrupado σ 2 = p ( 1 - p ) donde p es la gran media p =1

σ^2=p^(1p^)45,
p^ Parece que esto es lo que han hecho Efron y Morris (en el artículo de 1977).
p^=11845i=11845Yi=Y¯.

Puede verificar esto con el siguiente código R. Aquí están los datos:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

y aquí está la estimación para :σ2

s2 <- mean(y)*(1 - mean(y))/45

que es σ 20,004332392 . El factor de contracción en el papel es entoncesσ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


fuente
Excelente explicación, me encanta la aproximación normal del binomio.
Chamberlain Foncha
14

c=0.212

Efron, B. y Morris, C. (1975). Análisis de datos utilizando el estimador de Stein y sus generalizaciones. Revista de la Asociación Americana de Estadística, 70 (350), 311-319 (enlace a pdf)

o más detallado

Efron, B. y Morris, C. (1974). Análisis de datos utilizando el estimador de Stein y sus generalizaciones. R-1394-OEO, The RAND Corporation, marzo de 1974 (enlace a pdf) .

En la página 312, verá que Efron y Morris usan una transformación de arco de pecado de estos datos, de modo que la variación de los promedios de bateo es aproximadamente la unidad:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Entonces estos son los valores del estimador Stein. Para Clemente, obtenemos .290, que está bastante cerca del .294 del artículo de 1977.

Wolfgang
fuente