¿Cómo saber si las buenas actuaciones vienen en rachas?

10

Resuelvo los cubos de Rubik como un hobby. Grabo el tiempo que me llevó resolver el cubo usando algún software, y ahora tengo datos de miles de soluciones. Los datos son básicamente una larga lista de números que representan el tiempo que tomó cada resolución secuencial (por ejemplo, 22.11, 20.66, 21.00, 18.74, ...)

El tiempo que me lleva resolver el cubo, naturalmente, varía un poco de una solución a otra, por lo que hay buenas soluciones y malas soluciones.

Quiero saber si me "pongo caliente", si las buenas soluciones vienen en rayas. Por ejemplo, si acabo de tener algunas buenas soluciones consecutivas, ¿es más probable que mi próxima solución sea buena?

¿Qué tipo de análisis sería apropiado? Puedo pensar en algunas cosas específicas que hacer, por ejemplo, tratar las soluciones como un proceso de Markov y ver qué tan bien se resuelve una predicción de la siguiente y comparar con datos aleatorios, ver cuánto duran las rachas más largas de soluciones consecutivas por debajo de la mediana para la última 100 son y en comparación con lo que se esperaría en datos aleatorios, etc. No estoy seguro de cuán perspicaces serían estas pruebas, y me pregunto si hay algunos enfoques bien desarrollados para este tipo de problema.

Mark Eichenlaub
fuente

Respuestas:

8

La prueba de carreras de Wald-Wolfowitz parece ser un posible candidato, donde una "carrera" es lo que usted llamó una "racha". Requiere datos dicotómicos, por lo que deberá etiquetar cada resolución como "mala" frente a "buena" de acuerdo con algún umbral, como el tiempo medio que sugirió. La hipótesis nula es que las soluciones "buenas" y "malas" se alternan al azar. Una hipótesis alternativa unilateral que corresponde a su intuición es que "bueno" resuelve grupos en largas rachas, lo que implica que hay menos corridas de lo esperado con datos aleatorios. La estadística de prueba es el número de ejecuciones. En R:

> N      <- 200                          # number of solves
> DV     <- round(runif(N, 15, 30), 1)   # simulate some uniform data
> thresh <- median(DV)                   # threshold for binary classification

# do the binary classification
> DVfac <- cut(DV, breaks=c(-Inf, thresh, Inf), labels=c("good", "bad"))
> Nj    <- table(DVfac)                  # number of "good" and "bad" solves
> n1    <- Nj[1]                         # number of "good" solves
> n2    <- Nj[2]                         # number of "bad" solves
> (runs <- rle(as.character(DVfac)))     # analysis of runs
Run Length Encoding
lengths: int [1:92] 2 1 2 4 1 4 3 4 2 5 ...
values : chr [1:92] "bad" "good" "bad" "good" "bad" "good" "bad" ...

> (nRuns <- length(runs$lengths))        # test statistic: observed number of runs
[1] 92

# theoretical maximum of runs for given n1, n2
> (rMax <- ifelse(n1 == n2, N, 2*min(n1, n2) + 1))
199 

Cuando solo tiene unas pocas observaciones, puede calcular las probabilidades exactas para cada número de corridas bajo la hipótesis nula. De lo contrario, la distribución del "número de ejecuciones" puede aproximarse mediante una distribución normal estándar.

> (muR  <- 1 + ((2*n1*n2) / N))                     # expected value
100.99 

> varR  <- (2*n1*n2*(2*n1*n2 - N)) / (N^2 * (N-1))  # theoretical variance
> rZ    <- (nRuns-muR) / sqrt(varR)                 # z-score
> (pVal <- pnorm(rZ, mean=0, sd=1))                 # one-sided p-value
0.1012055

El valor p es para la hipótesis alternativa unilateral de que las soluciones "buenas" vienen en rayas.

lince
fuente
3
Gran respuesta. Sin embargo, sería reacio a convertir una variable continua en una binaria. Se perdería mucha variabilidad significativa.
Jeromy Anglim
@jeromy: este es un buen punto en general, pero parece que para esta pregunta específica, binning no arroja mucha información, especialmente porque "bueno" y "malo" solo se define como una dicotomía en la pregunta, no como un continuo.
probabilityislogic
@probabilityislogic Entiendo que @mark puede haber puesto en funcionamiento el tiempo de solución como "bueno" o "malo" en función de qué lado de algún umbral se encuentra el tiempo de solución. Sin embargo, donde sea que se encuentre el umbral, seguramente es un poco arbitrario. Si el umbral fuera de 5 minutos, seguramente 5 minutos y 1 segundo no diferirían mucho de 4 minutos y 59 segundos en "bondad". Me imagino que "bueno" y "malo" son categorías difusas en relación con el tiempo de finalización continuo.
Jeromy Anglim
Pero cualquier definición de "bueno" y "malo" es arbitraria, debido a la naturaleza relativa de esas palabras. Si deja que "los datos" resuelvan la ambigüedad, o si lo resuelve usted mismo, no lo hace más o menos ambiguo. Y puede ser que se justifique una distinción tan marcada, si requiere menos de 5 minutos para calificar para la final en una competencia. Estoy seguro de que el juez no se dejará influenciar por argumentos del tipo "pero fue solo 2 segundos fuera del tiempo de calificación"
probabilidad es
5

Algunas reflexiones:

  • Trazar la distribución de los tiempos. Supongo que estarán sesgados positivamente, de modo que algunos tiempos de solución son realmente lentos. En ese caso, es posible que desee considerar un registro o alguna otra transformación de los tiempos de solución.

  • Cree un diagrama de dispersión de prueba en el eje xy el tiempo de solución (o registre el tiempo de solución en el eje y). Esto debería darle una comprensión intuitiva de los datos. También puede revelar otros tipos de tendencias además de la "buena racha".

  • Considere si hay un efecto de aprendizaje con el tiempo. Con la mayoría de los rompecabezas, te vuelves más rápido con la práctica. La trama debería ayudar a revelar si este es el caso. Tal efecto es diferente a un efecto de "racha activa". Conducirá a una correlación entre las pruebas porque cuando está aprendiendo por primera vez, las pruebas lentas coexistirán con otras pruebas lentas y, a medida que tenga más experiencia, las pruebas más rápidas ocurrirán con pruebas más rápidas.

  • Considere su definición conceptual de "rayas calientes". Por ejemplo, solo se aplica a los ensayos que se aproximan en el tiempo o se trata de la proximidad del orden. Digamos que resolvió el cubo rápidamente el martes, y luego tuvo un descanso y el próximo viernes lo resolvió rápidamente. ¿Es una buena racha, o solo cuenta si lo haces el mismo día?

  • ¿Hay otros efectos que podrían ser distintos de un efecto de racha activa? Por ejemplo, la hora del día en que resuelve el rompecabezas (por ejemplo, fatiga), ¿hasta qué punto se está esforzando realmente? etc.

  • Una vez que se han entendido los efectos sistemáticos alternativos, puede desarrollar un modelo que incluya tantos como sea posible. Puede trazar el residuo en el eje y y probar en el eje x. Entonces podría ver si hay correlaciones automáticas en los residuos del modelo. Esta autocorrelación proporcionaría alguna evidencia de rayas calientes. Sin embargo, una interpretación alternativa es que hay algún otro efecto sistemático que no ha excluido.

Jeromy Anglim
fuente
+1 para parte sistemática. Creo que en este caso es la mejor explicación de las variaciones en el rendimiento.
mpiktas
2
Es posible que desee ver cómo los investigadores han investigado esta pregunta. Un clásico es Gilovich, T., Vallone, R. y Tversky, A., The hot hand in basketball: Sobre la percepción errónea de secuencias aleatorias. Psicología Cognitiva 17, 295-314 (1985).
dmk38
2

Calcule el correlograma para su proceso. Si su proceso es gaussiano (por el aspecto de su muestra lo es) puede establecer límites inferior / superior (B) y verificar si las correlaciones en el retraso dado son significativas. La autocorrelación positiva en el retraso 1 indicaría la existencia de "vetas de suerte".


fuente
2
La autocorrelación positiva también puede ser el resultado de otros efectos sistemáticos, como un proceso de aprendizaje. Creo que es importante eliminar dichos efectos antes de interpretar la autocorrelación como evidencia de una "buena racha".
Jeromy Anglim