Cualquiera que siga el béisbol probablemente haya escuchado sobre el desempeño inesperado del tipo MVP del José Bautista de Toronto. En los cuatro años anteriores, bateó aproximadamente 15 jonrones por temporada. El año pasado llegó a 54, un número superado por solo 12 jugadores en la historia del béisbol.
En 2010 le pagaron 2.4 millones y le está pidiendo al equipo 10.5 millones para 2011. Están ofreciendo 7.6 millones. Si puede repetir eso en 2011, valdrá fácilmente cualquier cantidad. ¿Pero cuáles son las probabilidades de que él repita? ¿Qué tan difícil podemos esperar que retroceda a la media? ¿Cuánto de su desempeño podemos esperar se debió al azar? ¿Qué podemos esperar de sus totales ajustados de regresión a la media de 2010? ¿Cómo lo resuelvo?
He estado jugando con la Base de Datos de Béisbol de Lahman y exprimí una consulta que devuelve los totales de jonrones para todos los jugadores en las cinco temporadas anteriores que han tenido al menos 50 turnos al bate por temporada.
La tabla se ve así (observe a José Bautista en la fila 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
y el resultado completo (232 filas) está disponible aquí .
Realmente no sé por dónde empezar. ¿Alguien puede señalarme en la dirección correcta? Alguna teoría relevante y comandos R serían especialmente útiles.
Gracias amablemente
Tommy
Nota: El ejemplo es un poco artificial. Los jonrones definitivamente no son el mejor indicador del valor de un jugador, y los totales de jonrones no tienen en cuenta el número variable de posibilidades por temporada de que un bateador tenga la oportunidad de batear jonrones (apariciones en el plato). Tampoco refleja que algunos jugadores juegan en estadios más favorables, y que los jonrones promedio de la liga cambian año tras año. Etc. Etc. Si puedo comprender la teoría detrás de la contabilidad de la regresión a la media, puedo usarla en medidas más adecuadas que los recursos humanos.
fuente
Respuestas:
Creo que definitivamente hay una contracción bayesiana o una corrección previa que podría ayudar a la predicción, pero es posible que también desee considerar otra táctica ...
Busque jugadores en la historia, no solo en los últimos años, que han tenido temporadas destacadas después de una pareja en las mayores (aumentos dramáticos quizás 2x) y vea cómo les fue en el año siguiente. Es posible que la probabilidad de mantener el rendimiento sea el predictor correcto.
Hay una variedad de formas de ver este problema, pero como dijo mpiktas, necesitará más datos. Si solo quieres lidiar con datos recientes, entonces tendrás que mirar las estadísticas generales de la liga, los lanzadores a los que se enfrenta, es un problema complejo.
Y luego hay que considerar los propios datos de Bautista. Sí, ese fue su mejor año, pero también fue la primera vez desde 2007 que tenía más de 350 AB (569). Es posible que desee considerar la conversión del aumento porcentual en el rendimiento.
fuente
Usted puede ajustar un modelo a estos datos solos y obtener predicciones que dan cuenta de regresión a la media mediante el uso de modelos mixtos (multinivel). Las predicciones de tales modelos explican la regresión a la media. Incluso sin saber casi nada sobre el béisbol, no encuentro resultados que obtuve terriblemente creíbles, ya que, como usted dice, el modelo realmente necesita tener en cuenta otros factores, como las apariencias en el plato.
Creo que un modelo de efectos mixtos de Poisson sería más adecuado que un modelo mixto lineal, ya que el número de jonrones es un recuento. Al observar los datos que proporcionó , un histograma
hr
muestra que está fuertemente sesgado, lo que sugiere que un modelo mixto lineal no funcionará bien e incluye un número bastante grande de ceros, con o sin transformación de registro hr primero.Aquí hay un código que usa la
lmer
función del paquete lme4 . Después de haber creado una variable de identificación para identificar a cada jugador y volver a dar forma a los datos en formato 'largo' como indicaron las mpiktas en su respuesta, (lo hice en Stata ya que no soy bueno en la gestión de datos en R, pero podría hacerlo en un paquete de hoja de cálculo):Esto se ajusta a un modelo con un enlace de registro que proporciona una dependencia exponencial de la tasa de aciertos en el año, que puede variar entre los jugadores. Son posibles otras funciones de enlace, aunque el enlace de identidad produjo un error debido a valores ajustados negativos. Sin embargo, un enlace sqrt funcionó bien y tiene BIC y AIC más bajos que el modelo con el enlace de registro, por lo que puede ser mejor. Las predicciones para la tasa de éxito en 2011 son sensibles a la función de enlace elegida, particularmente para jugadores como Bautista cuya tasa de éxito ha cambiado mucho recientemente.
Sin
lme4
embargo, me temo que no he logrado sacar tales predicciones . Estoy más familiarizado con Stata, lo que hace que sea muy fácil obtener predicciones para observaciones con valores faltantes para el resultado, aunque xtmelogit no parece ofrecer otra opción de función de enlace que no sea log, que dio una predicción de 50 para Bautista jonrones en 2011. Como dije, no me parece terriblemente creíble. Agradecería que alguien pudiera mostrar cómo generar predicciones para 2011 a partir de loslmer
modelos anteriores.Un modelo autorregresivo como AR (1) para los errores a nivel de jugador también podría ser interesante, pero no sé cómo combinar dicha estructura con un modelo mixto de Poisson.
fuente
Necesita datos adicionales sobre los jugadores y sus características en el lapso de tiempo que tiene datos sobre jonrones. Para el primer paso, agregue algunas características que varían con el tiempo, como la edad o la experiencia de los jugadores. Entonces puede usar HLM o modelos de datos de panel. Deberá preparar los datos en el formulario:
El modelo más simple sería (la función lme es del paquete nlme )
Este modelo dependerá en gran medida de la suposición de que el número de jonrones de cada jugador se basa solo en la experiencia que permite cierta variabilidad. Probablemente no sea muy preciso, pero al menos tendrás una idea de lo poco probable que son los números de José Bautista en comparación con el jugador promedio. Este modelo puede mejorarse aún más agregando las características de otros jugadores.
fuente
Es posible que desee consultar The Book Blog.
Tom Tango y los otros autores de "El libro: jugar los porcentajes en el béisbol" son probablemente las mejores fuentes de sabermetría que existen. En particular, aman la regresión a la media. Se les ocurrió un sistema de pronóstico diseñado para ser el sistema aceptable más básico (Marcel), y se basa casi exclusivamente en la regresión a la media.
Fuera de mi cabeza, supongo que un método sería usar tal pronóstico para estimar el verdadero talento, y luego encontrar una distribución adecuada en torno a ese talento medio. Una vez que tenga eso, cada apariencia de placa será como un ensayo de Bernoulli, por lo que la distribución binomial podría llevarlo el resto del camino.
fuente
Para su información, de 2011 a 2014, llegó a 43, 27, 28 y 35.
Eso es bastante cercano a su promedio de 162 juegos de 32 (que por supuesto incluye esos valores), y alrededor de 1 SD bajo los 54 en 2010.
Parece una regresión a la media en acción: un grupo extremo construido al capitalizar temas ruidosos (1 en este caso) que se desvía de la media de su grupo por casualidad.
http://www.baseball-reference.com/players/b/bautijo02.shtml
fuente