Tengo una pregunta que creo que será bastante básica para muchos usuarios.
Estoy usando modelos de regresión lineal para (i) investigar la relación de varias variables explicativas y mi variable de respuesta y (ii) predecir mi variable de respuesta usando las variables explicativas.
Una variable explicativa particular X parece impactar significativamente mi variable de respuesta. Para probar el valor agregado de esta variable explicativa X para el propósito de las predicciones fuera de la muestra de mi variable de respuesta, utilicé dos modelos: el modelo (a) que usaba todas las variables explicativas y el modelo (b) que usaba todas las variables excepto la variable X. Para ambos modelos, solo informo el rendimiento fuera de la muestra. Parece que ambos modelos funcionan casi igual de bien. En otras palabras, agregar la variable explicativa X no mejora las predicciones fuera de la muestra. Tenga en cuenta que también utilicé el modelo (a), es decir, el modelo con todas las variables explicativas, para encontrar que la variable explicativa X impacta significativamente mi variable de respuesta.
Mi pregunta ahora es: ¿cómo interpretar este hallazgo? La conclusión directa es que, aunque la variable X parece influir significativamente en mi variable de respuesta utilizando modelos inferenciales, no mejora las predicciones fuera de la muestra. Sin embargo, tengo problemas para explicar aún más este hallazgo. ¿Cómo puede ser esto posible y cuáles son algunas explicaciones para este hallazgo?
¡Gracias por adelantado!
Información adicional: con 'influencia significativa' quiero decir que 0 no está incluido en el intervalo de densidad posterior más alto del 95% de la estimación del parámetro (estoy usando un enfoque bayesiano). En términos frecuentistas, esto corresponde aproximadamente a tener un valor p inferior a 0,05. Estoy usando solo anteriores difusos (no informativos) para todos los parámetros de mis modelos. Mis datos tienen una estructura longitudinal y contienen alrededor de 7000 observaciones en total. Para las predicciones fuera de la muestra, utilicé el 90% de los datos para ajustar mis modelos y el 10% de los datos para evaluar los modelos usando múltiples repeticiones. Es decir, realicé la prueba de tren dividida varias veces y finalmente reporté las métricas de rendimiento promedio.
Respuestas:
Cuando un predictor particular es estadísticamente significativo no significa que también mejore considerablemente el rendimiento predictivo de un modelo. El rendimiento predictivo está más relacionado con el tamaño del efecto. Como un ejemplo, la función a continuación datos Simula de un modelo de regresión lineal con dos predictoresR2
x1
yx2
, y se ajusta a dos modelos, uno con ambosx1
yx2
, y uno conx1
solo. En la función puede cambiar el tamaño del efecto parax2
. La función informa los intervalos de confianza para los coeficientes dex1
yx2
, y los valores de los dos modelos como una medida del rendimiento predictivo.La función es:
Como ejemplo, para los valores predeterminados que obtenemos,
PorR2
x2
lo tanto, es significativo, y no incluirlo en el modelo tiene un gran impacto en el .Pero si establecemos el tamaño del efecto en 0.3, obtenemos:
El coeficiente sigue siendo significativo, pero la mejora en el es muy pequeña.R2
fuente
Esto es bastante normal en una regresión múltiple. La razón más común es que sus predictores están relacionados entre sí. En otras palabras, puede inferir X a partir de los valores de los otros predictores. Por lo tanto, si bien es útil para las predicciones si es el único predictor que tiene, una vez que tiene todos los demás predictores, no proporciona mucha información adicional. Puede verificar si este es el caso haciendo retroceder X en los otros predictores. También me referiría al capítulo sobre regresión lineal en el libro de texto gratuito en línea, Elementos de aprendizaje estadístico.
fuente