Regresión a la media en "Pensar, rápido y lento"

En Pensamiento, rápido y lento , Daniel Kahneman plantea la siguiente pregunta hipotética:

(P. 186) Julie actualmente es estudiante de último año en una universidad estatal. Leía con fluidez cuando tenía cuatro años. ¿Cuál es su promedio de calificaciones (GPA)?

Su intención es ilustrar cómo a menudo no tenemos en cuenta la regresión a la media al hacer predicciones sobre ciertas estadísticas. En la discusión posterior, aconseja:

(P. 190) Recuerde que la correlación entre dos medidas (en el presente caso, edad de lectura y GPA) es igual a la proporción de factores compartidos entre sus determinantes. ¿Cuál es su mejor suposición sobre esa proporción? Mi suposición más optimista es alrededor del 30%. Suponiendo esta estimación, tenemos todo lo que necesitamos para producir una predicción imparcial. Aquí están las instrucciones sobre cómo llegar en cuatro pasos simples:

Comience con una estimación del promedio de GPA.

Determine el promedio de calificaciones que coincida con su impresión de la evidencia.

Estime la correlación entre la precocidad de lectura y el GPA.

Si la correlación es .30, mueva el 30% de la distancia del promedio al promedio de calificaciones correspondiente.

Mi interpretación de su consejo es la siguiente:

Use "Leyó con fluidez cuando tenía cuatro años" para establecer un puntaje estándar para la precocidad de lectura de Julie.
Determine un GPA que tenga un puntaje estándar correspondiente. (El GPA racional para predecir correspondería a este puntaje estándar si la correlación entre el GPA y la precocidad de lectura fuera perfecta).
Calcule qué porcentaje de variaciones en el GPA puede explicarse por variaciones en la precocidad de lectura. (¿Asumo que se está refiriendo al coeficiente de determinación con "correlación" en este contexto?)
Debido a que solo el 30% del puntaje estándar de la precocidad de lectura de Julie puede explicarse por factores que también pueden explicar el puntaje estándar de su GPA, solo estamos justificados para predecir que el puntaje estándar del GPA de Julie será el 30% de lo que sería en el caso de la correlación perfecta

¿Es correcta mi interpretación del procedimiento de Kahneman? Si es así, ¿hay una justificación matemática más formal de su procedimiento, especialmente el paso 4? En general, ¿cuál es la relación entre la correlación entre dos variables y los cambios / diferencias en sus puntajes estándar?

standard-deviation regression-coefficients regression-to-the-mean Raciones
fuente

Respuestas:

¿Es correcta mi interpretación del procedimiento de Kahneman?

Esto es un poco difícil de decir, porque el paso 2 de Kahneman no está formulado con mucha precisión: "Determine el GPA que coincida con su impresión de la evidencia": ¿qué se supone que significa exactamente eso? Si las impresiones de alguien están bien calibradas, entonces no habrá necesidad de corregir la media. Si las impresiones de alguien son groseramente desagradables, entonces deberían corregir aún más fuerte.

Así que estoy de acuerdo con @AndyW en que el consejo de Kahneman es solo una regla general.

$z$ $z$

[...] ¿hay una justificación matemática más formal de su procedimiento, especialmente el paso 4? En general, ¿cuál es la relación entre la correlación entre dos variables y los cambios / diferencias en sus puntajes estándar?

$y$ $x$ $z$ $\rho$

y = ρ X,

$y=\rho x,$

$x$ $y$ $\rho$

Esto es exactamente lo que se llama "regresión a la media". Puede ver algunas fórmulas y derivaciones en la discusión en Wikipedia .

ameba dice reinstalar Monica
fuente

El orden de sus números no coincide con la cotización de Kahneman. Debido a esto, parece que puede estar perdiendo el punto general.

El punto uno de Kahneman es el más importante. Significa literalmente estimar el GPA promedio, para todos. El punto detrás de este consejo es que es su ancla. Cualquier predicción que haga debe referirse a los cambios en torno a este punto de anclaje. ¡No estoy seguro de ver este paso en ninguno de tus puntos!

Kahneman usa un acrónimo, WYSIATI, lo que ves es todo lo que hay. Esta es la tendencia humana a sobreestimar la importancia de la información actualmente disponible. Para muchas personas, la información sobre la capacidad de lectura haría que las personas pensaran que Julie es inteligente, por lo que las personas estimarían el promedio de calificaciones de una persona inteligente.

Pero, el comportamiento de un niño a los cuatro contiene muy poca información relacionada con el comportamiento de un adulto. Probablemente sea mejor ignorarlo al hacer predicciones. Solo debería alejarte de tu ancla por una pequeña cantidad. Además, la primera conjetura de un GPA de personas inteligentes puede ser muy inexacta. Debido a la selección, la mayoría de los estudiantes de último año en la universidad tienen una inteligencia superior al promedio.

Sin embargo, en realidad hay otra información oculta en la pregunta además de la capacidad de lectura de Julie a los cuatro años.

Es probable que Julie sea un nombre femenino
Ella asiste a una universidad estatal
Ella es un senior

Sospecho que estas tres características aumentan el GPA promedio ligeramente en comparación con la población estudiantil general. Por ejemplo, apuesto a que las personas de la tercera edad probablemente tengan un GPA más alto que Sophmores porque los estudiantes con muy malos GPA abandonan.

Entonces el procedimiento de Kahneman (como un hipotético) sería algo como esto.

El GPA promedio para una mujer senior en una universidad estatal es de 3.1.
Supongo que según la capacidad de lectura avanzada de Julie a los 4 años, su promedio de calificaciones es 3.8
Supongo que la capacidad de lectura a los 4 años tiene una correlación de 0.3 con GPA
Entonces el 30% del camino entre 3.1 y 3.8 es 3.3 (es decir 3.1 + (3.8-3.1)*0.3)

Entonces, en esta hipótesis, la suposición final para el GPA de Julie es 3.3.

La regresión a la media en el enfoque de Kahneman es que el paso 2 probablemente sea una sobreestimación de la importancia de la información disponible. Entonces, una mejor estrategia es hacer retroceder nuestra predicción a la media general. Los pasos 3 y 4 son formas (ad-hoc) de estimar cuánto retroceder.

Andy W
fuente

Entiendo la intuición detrás del procedimiento, pero no la justificación matemática. Mi interpretación es que el punto de estimar el GPA promedio es permitirle a uno estimar GPA específicos en términos de puntajes estándar; de lo contrario, no podrían compararse significativamente con la precocidad de lectura. (Cont.)

Raciones

Kahneman menciona que la mayoría de la gente adivina GPA = 3.7 o 3.8, que probablemente corresponde con el puntaje estándar que asocian con la precocidad de lectura de Julie, pero también supone implícitamente que la correlación entre las dos variables es perfecta. Principalmente estoy confundido acerca de si el paso 4 es una regla general basada en la intuición o un procedimiento real, estadísticamente válido (es decir, ¿se puede tratar los puntajes estándar de forma aditiva y tomar proporciones de ellos en función de la correlación?). Si se trata simplemente de la regla general de un laico, ¿existe un método de aproximación estadísticamente más riguroso?

Raciones

Al decir "aditivamente", me refiero a nuestra suposición de que (1) cierta proporción del promedio de calificaciones de Julie se explica por factores que también pueden explicar su precocidad en la lectura, y que (2) la proporción restante de su promedio de calificaciones general se explica por factores exclusivo para explicar el GPA, que (3) estas contribuciones sumadas es igual al puntaje estándar final que pronosticamos para Julie, y que (4) podemos corregir nuestra predicción simplemente tomando una proporción de nuestra predicción sesgada. ¿Es válido trabajar con proporciones de desviaciones estándar como esta, en lugar de, por ejemplo, trabajar con sus raíces cuadradas, válido?

Raciones

Es una regla ad-hoc. Los pasos dos y tres no son necesariamente lógicamente consistentes entre sí. (Son dos formas diferentes de decir la misma información, una es un tamaño de efecto y la otra es un tamaño de efecto estandarizado).

Andy W