Tengo una pregunta sobre el cálculo del factor de contracción de James-Stein en el artículo de Scientific American de 1977 de Bradley Efron y Carl Morris, "La paradoja de Stein en estadística" .
Reuní los datos para los jugadores de béisbol y se dan a continuación:
Name, avg45, avgSeason
Clemente, 0.400, 0.346
Robinson, 0.378, 0.298
Howard, 0.356, 0.276
Johnstone, 0.333, 0.222
Berry, 0.311, 0.273
Spencer, 0.311, 0.270
Kessinger, 0.289, 0.263
Alvarado, 0.267, 0.210
Santo, 0.244, 0.269
Swoboda, 0.244, 0.230
Unser, 0.222, 0.264
Williams, 0.222, 0.256
Scott, 0.222, 0.303
Petrocelli, 0.222, 0.264
Rodriguez, 0.222, 0.226
Campaneris, 0.200, 0.285
Munson, 0.178, 0.316
Alvis, 0.156, 0.200
avg45
es el promedio después de al bate y se denota como en el artículo. avgSeason
Es el final de la temporada promedio.
El estimador de James-Stein para el promedio ( ) viene dado por z = ˉ y + c ( y - ˉ y ) y el factor de contracción c está dado por (página 5 del artículo de Scientific American 1977) c = 1 - ( k - 3 ) σ 2
donde es el número de medios desconocidos. Aquí hay 18 jugadores, entonces k = 18 . Puedo calcular ∑ ( y - ˉ y ) 2 usando valores. Pero no sé cómo calcular σ 2 . Los autores dicen que c = 0.212 para el conjunto de datos dado.avg45
Intenté usar y σ 2 y para σ 2 pero no dan la respuesta correcta de c = 0.212
¿Alguien puede ser tan amable de hacerme saber cómo calcular para este conjunto de datos?
Respuestas:
El parámetro es la varianza común (desconocida) de los componentes del vector, cada uno de los cuales suponemos que se distribuyen normalmente. Para los datos de béisbol tenemos 45 ⋅ Y i ∼ b i n o m ( 45 , p i ) , por lo que la aproximación normal a la distribución binomial da (tomando ^ p i = Y i )σ2 45⋅Yi∼binom(45,pi) pi^=Yi
Obviamente, en este caso las varianzas no son iguales, sin embargo, si hubieran sido igual a un valor común entonces se podría estimar que con el estimador agrupado σ 2 = p ( 1 - p ) donde p es la gran media p =1
Puede verificar esto con el siguiente código R. Aquí están los datos:
y aquí está la estimación para :σ2
que es σ 2 ≈ 0,004332392 . El factor de contracción en el papel es entoncesσ^2≈0.004332392
fuente
Efron, B. y Morris, C. (1975). Análisis de datos utilizando el estimador de Stein y sus generalizaciones. Revista de la Asociación Americana de Estadística, 70 (350), 311-319 (enlace a pdf)
o más detallado
Efron, B. y Morris, C. (1974). Análisis de datos utilizando el estimador de Stein y sus generalizaciones. R-1394-OEO, The RAND Corporation, marzo de 1974 (enlace a pdf) .
En la página 312, verá que Efron y Morris usan una transformación de arco de pecado de estos datos, de modo que la variación de los promedios de bateo es aproximadamente la unidad:
Entonces estos son los valores del estimador Stein. Para Clemente, obtenemos .290, que está bastante cerca del .294 del artículo de 1977.
fuente