¿Por qué no podemos controlar los cuadrados y los aspectos cuadráticos de los valores predichos en la regresión?

1

Si mi objetivo fuera la predicción (por ejemplo, de las puntuaciones de propensión), ¿por qué no podría controlar los términos de orden superior de la ecuación modelo? Por ejemplo, ¿por qué no estimar el modelo y luego controlar los cuadrados y cubos de los valores predichos en una segunda etapa y obtener una mejor estimación de los valores predichos correctos (en lugar de solo una prueba de forma funcional)? Sé que los errores estándar serían incorrectos, pero ¿no podría iniciar el proceso?

Kris B.
fuente
¿Por qué detenerse en los cubos? ¿No deberías controlar todos los poderes hasta el 99?
denesp
Hay una diferencia entre usar una forma funcional flexible y sobreajuste. Con respecto a mi pregunta, supongamos que no estoy ajustando demasiado al modelo.
Kris B.
Hola: Ya que, una regresión es simplemente minimizar una suma de cuadrados entre el valor de la función utilizada (cualquiera que sea la forma funcional que desee) y la respuesta, puede usar la forma funcional que desee, pero eso no significa que los resultados sean útiles. No tengo claro lo que quiere decir con "control de cuadrados y cubos de valores predichos" ????
mark leeds
3
¿Quién dijo que no puedes?
Alecos Papadopoulos
1
Usted puede. La clave aquí es cómo justifica el control de $ x ^ 2 $ pero no de $ x ^ 3 $, $ x ^ 4 $, ..., $ x ^ N $. Te metes en aguas realmente arbitrarias. Además, hacer cosas como esta probablemente le dará un mejor ajuste en la muestra pero terribles predicciones fuera de la muestra. Es un ejemplo de sobreajuste. Entonces ... puedes ... pero dentro de lo razonable y con buena justificación.
123

Respuestas:

0

Para la predicción, sí puedes considerar los modelos. $$ y = \ beta_0 + \ beta_1 x_1 + \ cdots + \ beta_p x_p + \ gamma_2 \ hat {y} ^ 2 + \ cdots + \ gamma_m \ hat {y} ^ m + error, $$ donde $ \ hat {y} $ representa los valores ajustados de OLS del primer paso y $ m $ se elige mediante una validación cruzada.

No he visto este enfoque utilizado antes. Mi opinión personal es que este enfoque no es tan útil como otros utilizados comúnmente (SVM, splines, GAM, etc.). Por ejemplo, si $ p $ es grande (en comparación con el número de observaciones $ n $), es posible que el OLS de primer paso ya esté sobre adaptado, por lo que incluir $ \ hat {y} $ no es práctico. (Sí, puede usar los lazos residuales, pero esa es una historia diferente). Si $ p $ es pequeño, la no linealidad quizás se pueda manejar mejor mediante splines o incluso simplemente aumentando la ecuación con términos cuadráticos y cúbicos de las características. Algunos modelos de aditivos generalizados (GAM) ya están ahí también.

Mi experiencia personal es que la no linealidad no es tan importante (para la predicción utilizando datos económicos). Por lo general, es mucho más importante evitar el ajuste excesivo bien. Para mí, su sugerencia parece ser útil en algunos casos, pero no en muchos.

Dicho esto, no quiero disuadirlo de perseguir este problema, aunque existe una (alta) posibilidad de terminar con la conclusión de que no es muy útil dada la disponibilidad de otros métodos. Por cierto, ya lo sabrías, pero por si acaso, el libro de Hastie, Tibshirani y Friedman (Los elementos del aprendizaje estadístico) es útil.

chan1142
fuente
Hola: es posible que también desee ver las discusiones sobre el retraso distribuido autorregresivo o el retraso distribuido koyck. Estos enfoques no son terriblemente re econométricos, no están terriblemente relacionados con lo que usted sugiere y no explican por qué su enfoque (creo que lo que hace es adaptarse a tantos poderes como sea posible, lo que es propenso al sobreacuerdo) no es necesariamente útil pero Usted puede encontrar interesantes como enfoques por su cuenta. ambos son enfoques de modelado de series de tiempo, por lo tanto, si su problema no está relacionado con series de tiempo, no serán útiles.
mark leeds