Usar Regresión para proyectar fuera del rango de datos, ¿está bien? nunca esta bien? a veces bien?

9

¿Qué piensa sobre el uso de la regresión para proyectar fuera del rango de datos? Si estamos seguros de que sigue una forma de modelo lineal o de potencia, ¿no podría ser útil el modelo más allá del rango de datos? Por ejemplo, tengo un volumen impulsado por el precio. Deberíamos poder proyectar precios fuera del rango de datos, creo. ¿Tus pensamientos?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92
Johnson Jason
fuente
1
yx
3
x1,,xnnx(xx¯)2in(xix¯)2
Ben, tiendo a estar de acuerdo, ¿no está prediciendo y para X no observadas todo el punto? De lo contrario, ¿por qué incluso hacer una regresión? Quizás establecer un límite sobre cuán lejos me permito aventurarme fuera del rango de datos observado podría ser responsable. Seguramente el 10% estaría a salvo ... ¿no?
Johnson Jason
Mi criterio favorito sobre este tema es bmj.com/content/317/7155/409 .
Carlo Lazzaro
@ Ben, @ Johnson - Quizás una objeción. Hay otro uso para la regresión. Se puede usar para explicar en lugar de predecir. Creo que, particularmente en las ciencias sociales, este es un uso importante de la regresión. He leído muchos argumentos como Creemos que (variables) A ​​produce el resultado B, ejecutamos una regresión, encontramos que el intervalo de confianza del 95% de los coeficientes de A no contiene 0 y concluimos que hay una relación de la forma A causa B. Incidentalmente, ¡esto no es algo que yo haga!
meh

Respuestas:

13

X

H=X(XTX)1X

H0<Hii<1, i=1,,nHii

Hnew,new=xnewT(XTX)1xnew

Hnew,new

No estoy seguro de qué software está utilizando, pero casi todos devolverán la matriz de sombreros con el comando correcto. Así que le sugiero que eche un vistazo antes de decidirse.

JohnK
fuente
Bien hecho JohnK, esto es muy útil. FYI estoy usando la regresión de Excel.
Johnson Jason
9

El error de predicción aumenta cuadráticamente con la distancia desde la media. La ecuación de regresión y los resultados le permiten medir el tamaño del error en el rango de datos observado, y el modelo solo es adecuado en el mismo rango.

Fuera de ese rango pueden suceder muchas cosas. Primero, la predicción empeora cada vez más debido al aumento del error de predicción.

En segundo lugar, el modelo puede romperse por completo. La forma más fácil de ver eso es intentar proyectar un modelo que relacione el precio con el tiempo: no se pueden hacer predicciones para el tiempo negativo.

Tercero, la relación lineal puede ser inadecuada. En su ejemplo, es casi seguro que hay economías de escala, que serían muy notables si tratara de predecir mucho más allá del rango de valores observados.

Un ejemplo humorístico de este mismo efecto aparece en una de las obras de Mark Twain , donde intenta modelar la longitud del río Mississippi a lo largo del tiempo. Era bastante ventoso y se acortaba cada año debido a la erosión de algunos. de las curvas, así como los atajos hechos por el hombre --- y "predice" que en tantos años la distancia entre El Cairo, Illinois y Nueva Orleans se habrá reducido a aproximadamente una milla y tres cuartos).

Finalmente, tenga en cuenta que el rango de valores observados puede ser bastante complicado si tiene más de una variable predictiva. (Debido a las correlaciones entre los predictores, a menudo no puede simplemente tomar el cuadro definido por los máximos y mínimos en cada predictor).

usuario3697176
fuente
1
(+1) Aunque decir que el modelo es adecuado solo en el rango de los datos observados es un poco fuerte, es que los problemas que describe se vuelven cada vez más preocupantes a medida que se aleja de él.
Scortchi - Restablece a Monica
Entonces, ¿hay algún trabajo sobre qué tan lejos es una distancia segura para aventurarse lejos del rango de datos observado? ¿Menos de 1 desviación estándar bien?
Johnson Jason
1
@Scortchi. Punto a favor. En la mayoría de las situaciones, la degradación del modelo es gradual. Sin embargo, en ocasiones no son límites duros, y tratando de ir más allá de los que va a causar dolor.
user3697176
1
@JohnsonJason: No tiene sentido buscar una regla general. Puede calcular fácilmente los intervalos de predicción, suponiendo que su modelo se pueda extrapolar; el grado en que puede confiar en la extrapolación depende del conocimiento de la materia: lo que es aceptable varía de un caso a otro.
Scortchi - Restablece a Monica
1
Excelentes puntos (+1). Pero no hay ningún problema lógico en predecir el precio del tiempo negativo. El verdadero problema es si predice un precio negativo durante un tiempo determinado (generalmente en el pasado, en la práctica). A menudo, eso significa que el modelo está cualitativamente equivocado tanto como esa extrapolación está estirando una línea (o curva) demasiado. Una función de enlace logarítmico, por ejemplo, siempre implica predicciones positivas.
Nick Cox
4

No puede tomar decisiones basadas en datos para áreas donde no tiene datos. Fin de la historia. Los datos pueden muy bien admitir una forma lineal para el rango del cual se recopilan sus datos, pero no tiene razones basadas en datos para creer que esta forma continúa siendo lineal fuera de su rango. ¡Podría tener cualquier forma bajo el sol!

Puede suponer que la forma lineal continúa fuera de su rango de datos, pero esta es una suposición subjetiva que no es compatible con los datos que ha recopilado. Sugeriría consultar a un experto en la materia para ver, con base en su experiencia en la materia, cuán segura es esta suposición.

TrynnaDoStat
fuente
2
Entonces, ¿qué sentido tiene hacer una regresión si no podemos predecir las Y para las X no observadas?
Johnson Jason
2
Creo que el punto es que todavía puedes predecir dentro del rango, simplemente no es aconsejable predecir fuera del rango. Presumiblemente, la mayoría de los nuevos puntos de datos estarían dentro del rango, por lo que el modelo seguiría siendo útil la gran mayoría de las veces
Ryan Zotti,