Regresión a la falacia de la media frente al jugador

29

Por un lado, tengo la regresión a la media y por otro lado tengo la falacia del jugador .

Miller y Sanjurjo (2019) definen la falacia del jugador como "la creencia errónea de que las secuencias aleatorias tienen una tendencia sistemática hacia la reversión, es decir, que las rayas de resultados similares tienen más probabilidades de terminar que continuar". Por ejemplo, una moneda que cae varias cabezas Se considerará que las veces consecutivas tienen una probabilidad desproporcionada de fallar en la próxima prueba.

He tenido un buen desempeño en el último juego y, de acuerdo con la regresión a la media, probablemente tenga un peor desempeño en el próximo juego.

Pero de acuerdo con la falacia del jugador: considere las siguientes dos probabilidades, suponiendo una moneda justa

  1. probabilidad de 20 cabezas, luego 1 cola =0.520×0.5=0.521
  2. probabilidad de 20 caras, luego 1 cabeza =0.520×0.5=0.521

Luego...

Considere un ejemplo simple: una clase de estudiantes realiza una prueba de verdadero / falso de 100 elementos sobre un tema. Suponga que todos los estudiantes eligen al azar en todas las preguntas. Luego, el puntaje de cada estudiante sería la realización de uno de un conjunto de variables aleatorias independientes e idénticamente distribuidas, con una media esperada de 50.

Naturalmente, algunos estudiantes puntuarán sustancialmente por encima de 50 y algunos sustancialmente por debajo de 50 por casualidad. Si uno toma solo el 10% de los estudiantes con la calificación más alta y les da una segunda prueba en la que nuevamente eligen al azar en todos los elementos, se espera que la puntuación media vuelva a ser cercana a 50.

Por lo tanto, la media de estos estudiantes "retrocedería" hasta la media de todos los estudiantes que tomaron el examen original. No importa qué puntaje obtenga un estudiante en el examen original, la mejor predicción de su puntaje en el segundo examen es 50.

En especial, si uno toma solo el 10% de los estudiantes con mejor puntaje y les da una segunda prueba en la que eligen nuevamente al azar en todos los ítems, se espera que el puntaje promedio vuelva a ser cercano a 50.

De acuerdo con la falacia del jugador, ¿no debería esperarse la misma probabilidad de puntuación y no necesariamente más cerca de 50?

Miller, JB y Sanjurjo, A. (2019). Cómo la experiencia confirma la falacia del jugador cuando se descuida el tamaño de la muestra.

Luis P.
fuente
55
No veo cómo la Falacia del jugador está conectada con las dos probabilidades que calculas. ¿Podría explicar con mayor precisión lo que entiende que es esta falacia?
whuber
¿Tu juego tendrá la secuencia de cabezas más larga?
AdamO
1
Realmente me encantaría una explicación a esto. Las respuestas hasta ahora no parecen haberlo aclarado aún. La regresión a la media parece hacer que los eventos independientes sean dependientes. Quizás la regresión a la media nunca se pueda usar para una sola observación, solo se aplica cuando hay una media.
icc97

Respuestas:

28

Creo que la confusión puede resolverse considerando que el concepto de "regresión a la media" realmente no tiene nada que ver con el pasado. Es simplemente la observación tautológica de que en cada iteración de un experimento esperamos el resultado promedio. Entonces, si previamente tuvimos un resultado por encima del promedio, entonces esperamos un resultado peor, o si tuvimos un resultado por debajo del promedio, esperamos uno mejor. El punto clave es que la expectativa en sí misma no depende de ninguna historia previa como lo hace en la falacia del jugador.

dsaxton
fuente
Exactamente. En el contexto de esta Q, si las cabezas se pueden interpretar como "buen resultado", entonces, en los ejemplos del OP, es probable que se produzca un peor resultado después de una serie de buenos resultados y es probable que se obtenga un mejor resultado después de una serie de malos resultados. .
ameba dice Reinstate Monica
55
Parece que te estás contradiciendo a ti mismo. Usted declara the expectation itself does not depend on any previous historyy if we previously had an above average outcome then we expect a worse result. Utiliza la palabra esperar en ambos lugares y habla sobre la historia pasada / anterior en ambos lugares.
Erik
66
No hay contradicción. No esperamos un peor resultado porque los resultados dependen de uno al otro, esperamos un peor resultado porque vimos uno que estaba por encima de nuestras expectativas. La expectativa en sí misma es constante y no cambia como resultado de ver el resultado anterior.
dsaxton
@Erik Quizás una nueva redacción podría ayudar, pero el punto a tener en cuenta es cómo diferenciar los dos aspectos. Primero, esperamos un resultado promedio, o más bien creemos que es más probable. Cuando se compara con un resultado real, esa expectativa puede ser relativamente buena o mala dependiendo de cuán bueno o malo sea ese resultado en relación con nuestras expectativas. ¡No ganamos información sobre el futuro! Solo estamos comparando nuestros resultados reales con un promedio (este comentario ahora es redundante, pero lo dejo)
wedstrom
9
No votar en exceso, porque su respuesta adolece de la ambigüedad que provocó la pregunta en primer lugar. A saber, ¿qué es un resultado "peor" después de un resultado superior al promedio? El OP lo interpreta como "peor que el promedio" (una interpretación que se siente intuitivamente correcta debido a la falacia mundial justa) mientras que la regresión a la media significa que será "peor que la historia". Sin aclarar esa fuente de confusión, su respuesta (correcta) solo es comprensible para aquellos que ya conocen la respuesta correcta. Si lo editas de alguna forma, obtendrás mi voto positivo.
rumtscho
17

Si se encontrara en esa posición, como una persona racional (y suponiendo una moneda justa), su mejor opción sería simplemente adivinar. Si se encontrara en una posición como un jugador supersticioso, su mejor opción sería mirar los eventos anteriores e intentar justificar su razonamiento sobre el pasado, por ejemplo, "¡Guau, las cabezas están calientes , es hora de apostar!" o "No hay forma de que veamos otras cabezas: ¡la probabilidad de ese tipo de racha es increíblemente baja!".

La falacia del jugador no es darse cuenta de que cada serie particular de 20 monedas nos arroja increíblemente improbable ; por ejemplo, es muy improbable voltear 10 caras y luego 10 colas, muy improbable que se muevan caras y colas alternas, muy poco probable que se divida en 4, etc. Incluso es muy poco probable que cambie HHTHHTTTHT ... porque para cualquier cadena solo hay una forma de que eso ocurra a partir de muchos resultados diferentes . Por lo tanto, combinar cualquiera de estos como "probable" o "improbable" es una falacia, ya que todos son equiprobables.

La regresión a la media es la creencia correcta de que, a la larga, sus observaciones deberían converger a un valor finito esperado. Por ejemplo, mi apuesta de que 10 de 20 lanzamientos de monedas es buena porque hay muchas formas de lograrlo. Una apuesta en 15 de 20 es sustancialmente menos probable ya que hay muchas menos cadenas que logran ese conteo final. Vale la pena señalar que si te sientas y lanzas monedas (justas) el tiempo suficiente, finalmente terminarás con algo que es aproximadamente 50/50, pero no terminarás con algo que no tenga "rayas" u otras cosas improbables eventos en el mismo. Ese es el núcleo de la diferencia entre estos dos conceptos.

TL; DR : La regresión a la media dice que con el tiempo, terminarás con una distribución que refleja lo esperado en cualquier experimento. La falacia del jugador (erróneamente) dice que cada lanzamiento individual de una moneda tiene memoria de los resultados anteriores, lo que debería afectar el próximo resultado independiente.

Derek Janni
fuente
1
Entonces, ¿es la falacia del jugador un concepto equivocado? No pude entender la esencia de eso. Lo siento
Luis P.
66
La falacia del jugador es ... bueno ... una falacia. Está mal, es un mal razonamiento. Sin embargo, la regresión a la media es pura estadística :)
Derek Janni
1
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value- Esa es la "falacia del jugador" - que después de una serie de caras, las colas ahora son más probables, porque con una moneda justa convergería ...
Izkata
2
@Izkata No del todo. La regresión a la media indica que con una gran cantidad de pruebas, las rayas en ambos lados deberían igualarse aproximadamente, y cuantas más pruebas hagas, más cerca de la media real obtendrás. Si volteó lo suficiente como para obtener una racha de 100 cabezas, probablemente también tenga rayas de colas para equilibrarlo en algún lugar de su distribución, ya que las rayas de cabezas y colas son igualmente probables. Es importante destacar que la regresión a la media no hace suposiciones en ningún dato específico, solo en valores agregados a medida que aumenta el tamaño de la muestra.
Ethan
1
La falacia de @Izkata Gambler hace afirmaciones sobre lo que sucederá con cualquier resultado particular, la regresión a la media hace una declaración general sobre lo que esperaríamos de muchos resultados.
Derek Janni
5

Siempre trato de recordar que la regresión hacia la media no es un mecanismo compensatorio para observar valores atípicos.

No hay una relación de causa y efecto entre tener una carrera de juego excepcional y luego pasar 50-50 después de eso. Es solo una forma útil de recordar que, cuando muestrea de una distribución, es más probable que vea valores cercanos a la media (piense en lo que la desigualdad de Chebyshev tiene que decir aquí).

Sullysaurus
fuente
2
Yay Chebyshev! Gran punto!
Derek Janni
4

Aquí hay un ejemplo simple: has decidido lanzar un total de 200 monedas. Hasta ahora has arrojado 100 de ellos y has tenido mucha suerte: el 100% surgió (increíble, lo sé, pero sigamos las cosas simples).

Condicional a 100 cabezas en los 100 primeros lanzamientos, espera tener 150 cabezas en total al final del juego. Un ejemplo extremo de la falacia del jugador sería pensar que todavía solo se esperan 100 cabezas en total (es decir, el valor esperado antes de comenzar el juego), incluso después de obtener 100 en los primeros 100 lanzamientos. El jugador piensa falazmente que los siguientes 100 lanzamientos deben ser colas. Un ejemplo de regresión a la media (en este contexto) es que se espera que su índice de cabeza del 100% caiga a 150/200 = 75% (es decir, hacia la media del 50%) cuando termine el juego.

Adrian
fuente
1
@whuber este no es el ejemplo clásico de la altura de padres e hijos, pero diría que satisface la definición de Wikipedia: "la regresión hacia (o hacia) la media es el fenómeno que si una variable [por ejemplo, cabezas de fracción en el lanzamiento de monedas] es extremo en su primera medición, tenderá a estar más cerca del promedio en su segunda medición "
Adrian
3
Tenga cuidado con Wikipedia: su lenguaje introductorio tiene la intención de dar alguna idea heurística, pero rara vez es una definición. De hecho, su cita no es una definición (porque no establece lo que significa "extremo") ni es correcta en la mayoría de las interpretaciones. Por ejemplo, para cualquier variable aleatoria continua hay exactamente un posibilidad de que el segundo de dos ensayos independientes es más de la media que el primero. 1/2
whuber
1
Creo que proporcionar una descripción clara de la falacia del jugador y de la regresión a la media puede ser más importante que ofrecer ejemplos. Cuando solo se dan los ejemplos, no está claro cómo deben entenderse o cómo se relacionan con estos dos temas.
whuber
1
Como alguien que piensa de manera similar a la OP, su segundo párrafo es el único ejemplo en todas las respuestas que explica claramente cuál es la diferencia. Ahora tiene más sentido.
Izkata
1
@whuber Eso es exactamente lo que están haciendo la mayoría de las otras respuestas, y no me aclararon nada.
Izkata
2

Podría estar equivocado, pero siempre he pensado que la diferencia está en el supuesto de independencia.

En la falacia del jugador, el problema es la incomprensión de la independencia. Claro que con un gran número N de lanzamientos de monedas estará alrededor de una división de 50-50, pero si por casualidad no lo está, entonces la idea de que su próximo lanzamiento de T ayudará a igualar las probabilidades es incorrecta porque allí cada lanzamiento de monedas es independiente de el anterior.

La regresión hacia la media es, donde veo que se usa, alguna idea de que los sorteos dependen de sorteos anteriores o de un promedio / valores calculados previamente. Por ejemplo, usemos el porcentaje de tiro de la NBA. Si el jugador A ha realizado en promedio el 40% de sus tiros durante su carrera y comienza un nuevo año disparando el 70% en sus primeros 5 juegos, es razonable pensar que retrocederá a la media del promedio de su carrera. Hay factores dependientes que pueden influir e influirán en su juego: rachas calientes / frías, juego de compañeros de equipo, confianza y el simple hecho de que si mantuviera el 70% de tiro durante el año, aniquilaría absolutamente múltiples registros que son simplemente hazañas físicas imposibles (bajo las habilidades de rendimiento actuales de los jugadores profesionales de baloncesto). A medida que juegues más juegos, tu porcentaje de disparos probablemente se acerque a tu promedio profesional.

Marsenau
fuente
Su explicación de la regresión a la media suena más como un estimador de contracción. ¿Podría proporcionar una definición específica de lo que realmente quiere decir con "regresión"?
whuber
Estaba siguiendo la idea de "El fenómeno ocurre porque los puntajes de los estudiantes están determinados en parte por la capacidad subyacente y en parte por casualidad" de Wikipedia. Según tengo entendido, si bien hay un nivel de probabilidad, los resultados están determinados por alguna habilidad subyacente.
Marsenau
2
Gracias por esa aclaración. No es evidente cómo esa idea se aplica a la idea de que a medida que avanza la carrera, el promedio se acerca al promedio de la carrera. Eso suena como una tautología o alguna versión de una ley de grandes números. De hecho, ¡suena terriblemente como la propia falacia del jugador!
whuber
1
O el promedio de su carrera aumentará para cumplir con sus nuevas habilidades. :) Creo que es un error enturbiar el agua con una habilidad mejorable.
Erik
1
"malentendido de independencia" - este parece ser el punto crítico. La regresión a la media parece hacer que los eventos independientes sean dependientes.
icc97
2

La clave es que no tenemos ninguna información que nos ayude con el próximo evento (falacia del jugador), porque el próximo evento no depende del evento anterior. Podemos hacer una suposición razonable sobre cómo irá una serie de ensayos. Esta suposición razonable es el promedio conocido como nuestro resultado medio esperado. Entonces, cuando observamos una desviación en la tendencia media hacia la media, a lo largo del tiempo / pruebas, entonces somos testigos de una regresión a la media.

Como puede ver, la regresión a la media es una serie de acciones observadas , no es un predictor. A medida que se realicen más ensayos, las cosas se aproximarán más a una distribución normal / gaussiana. Esto significa que no estoy haciendo suposiciones ni adivino cuál será el próximo resultado. Usando la ley de los grandes números , puedo teorizar que, aunque las cosas tengan una tendencia en la actualidad, con el tiempo las cosas se equilibrarán. Cuando se equilibran, el conjunto de resultados ha retrocedido a la media. Es importante señalar aquí que no estamos diciendo que los ensayos futuros dependan de resultados pasados. Simplemente estoy observando un cambio en el equilibrio de los datos.

La falacia del jugador, según tengo entendido, es más inmediata en sus objetivos y se centra en la predicción de eventos futuros. Esto sigue con lo que un jugador desea. Por lo general, los juegos de azar se inclinan contra el jugador a largo plazo, por lo que un jugador quiere saber cuál será la próxima prueba porque quiere capitalizar este conocimiento. Esto lleva al jugador a suponer falsamente que la próxima prueba depende de la prueba anterior. Esto puede llevar a opciones neutrales como:

Las últimas cinco veces la ruleta aterrizó en negro, por lo que la próxima vez apostaré en rojo.

O la elección puede ser egoísta:

Obtuve una casa llena en las últimas 5 manos, así que voy a apostar fuerte porque estoy en una racha ganadora y no puedo perder.


Como puede ver, hay algunas diferencias clave:

  1. La regresión a la media no supone que los ensayos independientes sean dependientes como la falacia del jugador.

  2. La regresión a la media se aplica a una gran cantidad de datos / pruebas, donde la falacia del jugador se refiere a la próxima prueba.

  3. La regresión a la media describe lo que ya ha sucedido. La falacia del jugador intenta predecir el futuro con base en un promedio esperado y resultados pasados.

Erik
fuente
1
En realidad, no creo que la regresión a la media tenga algo que ver con la ley de los grandes números o que signifique lo que usted dice que hace en la primera oración.
ameba dice Reinstate Monica
@amoeba, así que si planeamos lanzar una moneda 100 veces y 20 lanzamientos en la prueba, tenemos 20 caras. Al final de la prueba tenemos 55 cabezas. Intento decir que esto sería un ejemplo de "regresión a la media". Comenzó de forma asimétrica pero con el tiempo se normalizó. La ley de los bits grandes fue otra forma de expresar la idea de que las cosas se promediarán en suficientes ensayos, lo que es lo mismo que decir que un desequilibrio inicial se equilibrará con el tiempo o retrocederá hacia la media.
Erik
1
Supongo que estoy empezando a entender la esencia de esos temas con tus llaves, Erik. ¡Hermosa! :) xxx
Luis P.
2

¿Son los estudiantes con calificaciones más altas que obtienen un puntaje peor en tramposos retest?

La pregunta recibió una edición sustancial desde la última de las seis respuestas.

100

¿O deberían mantenerse alejados de la ruleta?

50%50%10050

60%2.8%30006085

8560%50%10060%2.8%2852.8%8560%

50%1005050

Monedas de la suerte y lanzamientos de la suerte

100055%G100045%B1000F) y distribuirlos al azar. Esto es análogo a asumir una capacidad / conocimiento cada vez más alto según el ejemplo de prueba, pero es más fácil razonar correctamente sobre objetos inanimados.

(551000+451000+501000)/3000=5060%18.3%0.2%2.8%60%7.1%60%21

2160%50%10086%=18.3%/(18.3%+0.2%+2.8%)1%=0.2%/(18.3%+0.2%+2.8%)13%86%55+1%45+13%50=54.251006050

Entonces, incluso cuando algunas monedas son mejores que otras, la aleatoriedad en los lanzamientos de monedas significa que la selección de los mejores resultados de una prueba aún exhibirá cierta regresión a la media en una nueva prueba. En este modelo modificado, la mano fría ya no es una falacia absoluta: ¡anotar mejor en la primera ronda significa una mayor probabilidad de tener una buena moneda! Sin embargo, la falacia del jugador sigue siendo una falacia: no se puede esperar que aquellos que experimentaron buena suerte sean compensados ​​con mala suerte en la nueva prueba.

A. Webb
fuente
Solo tengo una idea. Voy a simular ese modelo y veré cómo funciona.
Luis P.
1

Dicen lo mismo. Estaba confundido en su mayoría porque ningún experimento en el lanzamiento de moneda tiene un resultado extremo (H / T 50/50). Cámbielo a "lanzar diez monedas justas al mismo tiempo en cada experimento", y los jugadores quieren acertarlas todas. Entonces, una medida extrema sería que los veas a todos como cabezas.

Falacia del jugador: trate cada resultado de la apuesta (resultado del lanzamiento de la moneda) como IID . Si ya conoce la distribución que comparten esos IID, entonces la siguiente predicción debe provenir directamente de la distribución conocida y no tiene nada que ver con los resultados históricos (o futuros) (también conocido como otro IID).

Regresión a la media: trate cada resultado de la prueba como IID (ya que se supone que el alumno adivina al azar y no tiene ninguna habilidad real). Si ya conoce la distribución que comparten esos IID, la siguiente predicción proviene directamente de la distribución conocida y no tiene nada que ver con los resultados históricos (o futuros) (también conocido como otro IID) ( exactamente como hasta ahora ). Pero, según CLT , si observó valores extremos en una medición (por ejemplo, por casualidad solo estaba muestreando al 10% de los mejores estudiantes de la primera prueba), debe saber que el resultado de su próxima observación / medición aún se generará a partir de lo conocido distribución (y, por lo tanto, es más probable que esté más cerca de la media que permanecer en el extremo).

Básicamente, ambos dicen que la próxima medición vendrá de la distribución en lugar de resultados pasados.

Yey
fuente
Esta no es una cita correcta del teorema del límite central. Es simplemente una declaración de lo que es un evento independiente.
AdamO
0

Sean X e Y dos variables aleatorias uniformes iid en [0,1]. Supongamos que los observamos uno tras otro.

Falacia del jugador: P (Y | X)! = P (Y) Esto, por supuesto, no tiene sentido porque X e Y son independientes.

Regresión a la media: P (Y <X | X = 1)! = P (Y <X) Esto es cierto: LHS es 1, LHS <1

anónimo
fuente
0

Gracias a sus respuestas, creo que podría entender la diferencia entre la Regresión a la media y la falacia de Gambler. Aún más, construí una base de datos para ayudarme a ilustrar en el caso "real".

Construí esta situación: reuní a 1000 estudiantes y los puse a hacer un examen respondiendo preguntas al azar.

El puntaje de la prueba varía de 01 a 05. Como responden preguntas al azar, cada puntaje tiene un 20% de posibilidades de ser alcanzado. Entonces, para la primera prueba, el número de estudiantes con un puntaje de 05 debería ser cercano a 200

10000,20

200

Tuve 196 estudiantes con puntaje 05, que está muy cerca de los 200 estudiantes esperados.

Por eso pongo a esos 196 alumnos repitiendo la prueba se espera que 39 alumnos con puntaje 05.

1960,20

39

Bueno, según el resultado obtuve 42 estudiantes, lo cual está dentro de lo esperado.

Para aquellos que obtuvieron puntaje 05, los puse para repetir la prueba y así sucesivamente ...

Por lo tanto, los números esperados fueron:

RETEST esperado 03

420,20

8

(3.3) Resultados (8)

RETEST esperado 04

80,20

1,2

(4.3) Resultados (2)

RETEST esperado 05

20,20

0,1

(4.3) Resultados (0)

0,204

0,205=0,00032

0,000323500=1.2

Por lo tanto, la probabilidad de que un estudiante obtenga la puntuación 05 en las 05 pruebas no tiene nada que ver con su última calificación, es decir, no debo calcular la probabilidad en cada prueba por separado. Debo buscar esas 05 pruebas como un evento y calcular la probabilidad de ese evento.

Luis P.
fuente