Medición de la regresión a la media al golpear jonrones

11

Cualquiera que siga el béisbol probablemente haya escuchado sobre el desempeño inesperado del tipo MVP del José Bautista de Toronto. En los cuatro años anteriores, bateó aproximadamente 15 jonrones por temporada. El año pasado llegó a 54, un número superado por solo 12 jugadores en la historia del béisbol.

En 2010 le pagaron 2.4 millones y le está pidiendo al equipo 10.5 millones para 2011. Están ofreciendo 7.6 millones. Si puede repetir eso en 2011, valdrá fácilmente cualquier cantidad. ¿Pero cuáles son las probabilidades de que él repita? ¿Qué tan difícil podemos esperar que retroceda a la media? ¿Cuánto de su desempeño podemos esperar se debió al azar? ¿Qué podemos esperar de sus totales ajustados de regresión a la media de 2010? ¿Cómo lo resuelvo?

He estado jugando con la Base de Datos de Béisbol de Lahman y exprimí una consulta que devuelve los totales de jonrones para todos los jugadores en las cinco temporadas anteriores que han tenido al menos 50 turnos al bate por temporada.

La tabla se ve así (observe a José Bautista en la fila 10)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

y el resultado completo (232 filas) está disponible aquí .

Realmente no sé por dónde empezar. ¿Alguien puede señalarme en la dirección correcta? Alguna teoría relevante y comandos R serían especialmente útiles.

Gracias amablemente

Tommy

Nota: El ejemplo es un poco artificial. Los jonrones definitivamente no son el mejor indicador del valor de un jugador, y los totales de jonrones no tienen en cuenta el número variable de posibilidades por temporada de que un bateador tenga la oportunidad de batear jonrones (apariciones en el plato). Tampoco refleja que algunos jugadores juegan en estadios más favorables, y que los jonrones promedio de la liga cambian año tras año. Etc. Etc. Si puedo comprender la teoría detrás de la contabilidad de la regresión a la media, puedo usarla en medidas más adecuadas que los recursos humanos.

r regression modeling TMOD
fuente

2

El béisbol es la fuente de ejemplos favorita de muchos estadísticos estadounidenses, por lo que una búsqueda en Google (/ Académico) mostrará varios artículos relevantes, por ejemplo, Morrison y Schmittlein (1981) jstor.org/stable/2630890 . Dejaré que alguien más familiarizado con el béisbol y R responda tu pregunta.

onestop

1

También le sugiero que consulte el trabajo de JC Bradbury y su blog, Sabernomics, sabernomics.com/sabernomics . Su libro sobre la medición del valor del jugador probablemente será perspicaz en cuanto a qué características predicen la productividad futura.

Andy W

2

El problema, como se indicó, es un poco como un problema atípico , pero no de la manera normal en que uno piensa en los atípicos. Para incorporar el resultado sorprendente (es decir, el valor atípico) necesitaría una "distribución de muestreo" con una cola pesada (el resultado de José está muy por encima de 3 desviaciones estándar de su promedio sobre los datos anteriores), por lo que esto puede ayudar a ajustar mejor sus datos, y cuenta en predicción.

chanceislogic

Si considera un pequeño atajo crudo además de todos los comentarios más sofisticados que aparecen aquí, está la Prueba de Dixon para valores atípicos que puede realizar en una muestra tan pequeña como 4. Ver cee.vt.edu/ewr/environmental/teach/smprimer / outlier / ...

rolando2

3

Creo que definitivamente hay una contracción bayesiana o una corrección previa que podría ayudar a la predicción, pero es posible que también desee considerar otra táctica ...

Busque jugadores en la historia, no solo en los últimos años, que han tenido temporadas destacadas después de una pareja en las mayores (aumentos dramáticos quizás 2x) y vea cómo les fue en el año siguiente. Es posible que la probabilidad de mantener el rendimiento sea el predictor correcto.

Hay una variedad de formas de ver este problema, pero como dijo mpiktas, necesitará más datos. Si solo quieres lidiar con datos recientes, entonces tendrás que mirar las estadísticas generales de la liga, los lanzadores a los que se enfrenta, es un problema complejo.

Y luego hay que considerar los propios datos de Bautista. Sí, ese fue su mejor año, pero también fue la primera vez desde 2007 que tenía más de 350 AB (569). Es posible que desee considerar la conversión del aumento porcentual en el rendimiento.

John
fuente

3

Usted puede ajustar un modelo a estos datos solos y obtener predicciones que dan cuenta de regresión a la media mediante el uso de modelos mixtos (multinivel). Las predicciones de tales modelos explican la regresión a la media. Incluso sin saber casi nada sobre el béisbol, no encuentro resultados que obtuve terriblemente creíbles, ya que, como usted dice, el modelo realmente necesita tener en cuenta otros factores, como las apariencias en el plato.

Creo que un modelo de efectos mixtos de Poisson sería más adecuado que un modelo mixto lineal, ya que el número de jonrones es un recuento. Al observar los datos que proporcionó , un histograma hrmuestra que está fuertemente sesgado, lo que sugiere que un modelo mixto lineal no funcionará bien e incluye un número bastante grande de ceros, con o sin transformación de registro hr primero.

Aquí hay un código que usa la lmerfunción del paquete lme4 . Después de haber creado una variable de identificación para identificar a cada jugador y volver a dar forma a los datos en formato 'largo' como indicaron las mpiktas en su respuesta, (lo hice en Stata ya que no soy bueno en la gestión de datos en R, pero podría hacerlo en un paquete de hoja de cálculo):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

Esto se ajusta a un modelo con un enlace de registro que proporciona una dependencia exponencial de la tasa de aciertos en el año, que puede variar entre los jugadores. Son posibles otras funciones de enlace, aunque el enlace de identidad produjo un error debido a valores ajustados negativos. Sin embargo, un enlace sqrt funcionó bien y tiene BIC y AIC más bajos que el modelo con el enlace de registro, por lo que puede ser mejor. Las predicciones para la tasa de éxito en 2011 son sensibles a la función de enlace elegida, particularmente para jugadores como Bautista cuya tasa de éxito ha cambiado mucho recientemente.

Sin lme4embargo, me temo que no he logrado sacar tales predicciones . Estoy más familiarizado con Stata, lo que hace que sea muy fácil obtener predicciones para observaciones con valores faltantes para el resultado, aunque xtmelogit no parece ofrecer otra opción de función de enlace que no sea log, que dio una predicción de 50 para Bautista jonrones en 2011. Como dije, no me parece terriblemente creíble. Agradecería que alguien pudiera mostrar cómo generar predicciones para 2011 a partir de los lmermodelos anteriores.

Un modelo autorregresivo como AR (1) para los errores a nivel de jugador también podría ser interesante, pero no sé cómo combinar dicha estructura con un modelo mixto de Poisson.

una parada
fuente

usando la función de fusión de la remodelación del paquete, la conversión a formato largo es una línea en R, fusión (datos, id = 1: 2).

mpiktas

Una extensión / alternativa interesante a esto es ajustar un modelo jerárquico con una distribución de muestreo de Possion con un parámetro de frecuencia muestreada (1 frecuencia por año), pero una distribución de muestreo de Cauchy para el parámetro de frecuencia (en lugar de una mezcla normal o normal). La distribución de Cauchy permitirá que ocurra el evento extremo (al muestrear un parámetro de frecuencia grande). Un caso intermedio (entre normal y Cauchy) es la distribución t. (Cauchy es más fácil de muestrear ya que puede usar el método inverso de CDF).

chanceislogic

2

Necesita datos adicionales sobre los jugadores y sus características en el lapso de tiempo que tiene datos sobre jonrones. Para el primer paso, agregue algunas características que varían con el tiempo, como la edad o la experiencia de los jugadores. Entonces puede usar HLM o modelos de datos de panel. Deberá preparar los datos en el formulario:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

El modelo más simple sería (la función lme es del paquete nlme )

lme(HR~Experience,random=~Experience|Year,data=your_data)

Este modelo dependerá en gran medida de la suposición de que el número de jonrones de cada jugador se basa solo en la experiencia que permite cierta variabilidad. Probablemente no sea muy preciso, pero al menos tendrás una idea de lo poco probable que son los números de José Bautista en comparación con el jugador promedio. Este modelo puede mejorarse aún más agregando las características de otros jugadores.

mpiktas
fuente

No diría que @TMOD necesita más datos, solo que es probable que las predicciones sean más precisas si @TMOD tuviera más datos. Hay suficiente información en la pregunta para generar una predicción.

chanceislogic

@probabilityislogic, sí, hay suficiente información para generar la predicción, pero el modelo solo tendrá intercepción.

mpiktas

no necesariamente, uno podría ajustar un modelo AR (1) o AR (2) a estos datos

probabilidadislogica

@probabilityislogic, ah sí, tienes razón.

mpiktas

2

Es posible que desee consultar The Book Blog.

Tom Tango y los otros autores de "El libro: jugar los porcentajes en el béisbol" son probablemente las mejores fuentes de sabermetría que existen. En particular, aman la regresión a la media. Se les ocurrió un sistema de pronóstico diseñado para ser el sistema aceptable más básico (Marcel), y se basa casi exclusivamente en la regresión a la media.

Fuera de mi cabeza, supongo que un método sería usar tal pronóstico para estimar el verdadero talento, y luego encontrar una distribución adecuada en torno a ese talento medio. Una vez que tenga eso, cada apariencia de placa será como un ensayo de Bernoulli, por lo que la distribución binomial podría llevarlo el resto del camino.

Michael McGowan
fuente

1

Para su información, de 2011 a 2014, llegó a 43, 27, 28 y 35.

Eso es bastante cercano a su promedio de 162 juegos de 32 (que por supuesto incluye esos valores), y alrededor de 1 SD bajo los 54 en 2010.

Parece una regresión a la media en acción: un grupo extremo construido al capitalizar temas ruidosos (1 en este caso) que se desvía de la media de su grupo por casualidad.

http://www.baseball-reference.com/players/b/bautijo02.shtml

tim
fuente

Medición de la regresión a la media al golpear jonrones

Respuestas: