Regresión al rompecabezas malo

9

En el capítulo "Regresión a la media" de "Pensamiento, rápido y lento" de Daniel Kahneman, se da un ejemplo y se le pide al lector que pronostique las ventas de tiendas individuales dado el pronóstico general de ventas y los números de ventas del año anterior . Por ejemplo (el ejemplo del libro tiene 4 tiendas, uso 2 aquí por simplicidad):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

El pronóstico ingenuo sería de 110 y 550 para las tiendas 1 y 2, un aumento del 10% para cada una. Sin embargo, el autor afirma que este enfoque ingenuo es incorrecto. Es más probable que la tienda de bajo rendimiento aumente más del 10% y que la tienda de mejor desempeño aumente (o incluso disminuya) en menos del 10%. Entonces, quizás un pronóstico de 115 (aumento del 15%) y 535 (aumento del 7%) sería "más correcto" que el pronóstico ingenuo.

Lo que no entiendo es cómo podemos concluir que las ventas de 100 de la tienda 1 son necesariamente la tienda de peor desempeño. Tal vez, debido a las diferencias de ubicación, la verdadera serie temporal de las tiendas 1 y 2 son 10 y 550, y la tienda 1 tuvo un súper año en 2011, y la tienda 2 tuvo un año desastroso en 2011. Entonces, ¿no tendría sentido? pronosticar una disminución para la tienda 1 y aumentar para la tienda 2?

Sé que la información de la serie temporal no se proporcionó en el ejemplo original, pero tengo la impresión de que la "regresión a la media" se refiere a la media transversal y, por lo tanto, la información de la serie temporal no importa. ¿Qué estoy malentendido?


fuente

Respuestas:

8

Estoy leyendo ese libro. No ha transcrito adecuadamente la información clave. Dice que "todas las tiendas son similares en tamaño y selección de mercancías, pero sus ventas difieren debido a su ubicación, competencia y factores aleatorios". Esa es la clave, especialmente ese último bit. Los factores aleatorios son necesarios para que ocurra la regresión a la media (si las ventas crecieran en una cantidad fija, entonces la ganancia del 10% igualmente dispersa en las tiendas sería correcta).

Peter Flom - Restablece a Monica
fuente
2
¿Estás diciendo que la suposición de "todas las tiendas son similares" implica que sus series temporales significan lo mismo? De lo contrario, dos tiendas idénticas pueden tener medios muy diferentes debido a su ubicación.
1
Admito que no es la mejor redacción de un problema, pero es mucho más claro que lo que tenía en su pregunta original.
Peter Flom - Restablece a Monica
2

Con tan pocos puntos de datos, la respuesta estará dictada casi en su totalidad por el anterior (o equivalente implícito). Si el autor ha visto una gran cantidad de este tipo de datos antes, puede que tenga buenas razones para pensar que es más probable que su respuesta sea correcta, dadas sus observaciones anteriores. Sin embargo, creo que es difícil sugerir que este es un ejemplo de regresión a la media, al menos no sin especificar más información. Por ejemplo, ¿están las tiendas en ubicaciones comparables o no? Si lo son y no hay otras diferencias obvias entre las tiendas, entonces podemos sentirnos justificados al pensar que son parte de una población comparable y podemos pensar en la regresión a la media. Si existen diferencias obvias entre las tiendas que podrían explicar una diferencia sistemática en las ventas, entonces se vuelve menos sensato hacerlo.

Bogdanovist
fuente
0

Creo que una mejor ilustración (hipotética) podría ser algo como esto:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Salvo por razones sistemáticas, esperaríamos que el peor desempeño (por causas aleatorias) no lo sea nuevamente. Y también para el mejor intérprete.

Por lo tanto, con un crecimiento promedio del 10%, esperaría que al # 1 le vaya mejor que a 110 y al # 6 a peor que 330.

Siento que la parte dudosa son las suposiciones. En mi humilde opinión, es muy raro que el rezago del paquete sea realmente una casualidad aleatoria y no una cierta heterogeneidad subyacente.

curioso_cat
fuente