¿Qué piensa sobre el uso de la regresión para proyectar fuera del rango de datos? Si estamos seguros de que sigue una forma de modelo lineal o de potencia, ¿no podría ser útil el modelo más allá del rango de datos? Por ejemplo, tengo un volumen impulsado por el precio. Deberíamos poder proyectar precios fuera del rango de datos, creo. ¿Tus pensamientos?
VOL PRICE
3044 4.97
2549 4.97
3131 4.98
2708 4.98
2860 4.98
2907 4.98
3107 4.98
3194 4.98
2753 4.98
3228 4.98
3019 4.98
3077 4.99
2597 4.99
2706 4.99
3000 4.99
3022 4.99
3084 4.99
3973 4.99
3675 4.99
3065 4.99
3407 4.99
2359 4.99
2802 4.99
2589 4.99
2476 4.99
2387 5
3265 5
2039 5.14
1842 5.15
2660 5.37
1796 5.46
1734 5.46
1881 5.46
2204 5.58
1477 5.77
1620 5.84
1909 5.87
1744 5.87
1247 5.87
1848 5.88
1641 5.88
1758 5.88
1718 5.88
1656 5.88
1822 5.88
1556 5.89
1643 5.9
1850 5.91
1901 5.91
1837 5.91
1773 5.92
1729 5.92
regression
dataset
linear-model
Johnson Jason
fuente
fuente
Respuestas:
No estoy seguro de qué software está utilizando, pero casi todos devolverán la matriz de sombreros con el comando correcto. Así que le sugiero que eche un vistazo antes de decidirse.
fuente
El error de predicción aumenta cuadráticamente con la distancia desde la media. La ecuación de regresión y los resultados le permiten medir el tamaño del error en el rango de datos observado, y el modelo solo es adecuado en el mismo rango.
Fuera de ese rango pueden suceder muchas cosas. Primero, la predicción empeora cada vez más debido al aumento del error de predicción.
En segundo lugar, el modelo puede romperse por completo. La forma más fácil de ver eso es intentar proyectar un modelo que relacione el precio con el tiempo: no se pueden hacer predicciones para el tiempo negativo.
Tercero, la relación lineal puede ser inadecuada. En su ejemplo, es casi seguro que hay economías de escala, que serían muy notables si tratara de predecir mucho más allá del rango de valores observados.
Un ejemplo humorístico de este mismo efecto aparece en una de las obras de Mark Twain , donde intenta modelar la longitud del río Mississippi a lo largo del tiempo. Era bastante ventoso y se acortaba cada año debido a la erosión de algunos. de las curvas, así como los atajos hechos por el hombre --- y "predice" que en tantos años la distancia entre El Cairo, Illinois y Nueva Orleans se habrá reducido a aproximadamente una milla y tres cuartos).
Finalmente, tenga en cuenta que el rango de valores observados puede ser bastante complicado si tiene más de una variable predictiva. (Debido a las correlaciones entre los predictores, a menudo no puede simplemente tomar el cuadro definido por los máximos y mínimos en cada predictor).
fuente
No puede tomar decisiones basadas en datos para áreas donde no tiene datos. Fin de la historia. Los datos pueden muy bien admitir una forma lineal para el rango del cual se recopilan sus datos, pero no tiene razones basadas en datos para creer que esta forma continúa siendo lineal fuera de su rango. ¡Podría tener cualquier forma bajo el sol!
Puede suponer que la forma lineal continúa fuera de su rango de datos, pero esta es una suposición subjetiva que no es compatible con los datos que ha recopilado. Sugeriría consultar a un experto en la materia para ver, con base en su experiencia en la materia, cuán segura es esta suposición.
fuente