Una '' variable significativa '' que no mejora las predicciones fuera de muestra: ¿cómo interpretar?

10

Tengo una pregunta que creo que será bastante básica para muchos usuarios.

Estoy usando modelos de regresión lineal para (i) investigar la relación de varias variables explicativas y mi variable de respuesta y (ii) predecir mi variable de respuesta usando las variables explicativas.

Una variable explicativa particular X parece impactar significativamente mi variable de respuesta. Para probar el valor agregado de esta variable explicativa X para el propósito de las predicciones fuera de la muestra de mi variable de respuesta, utilicé dos modelos: el modelo (a) que usaba todas las variables explicativas y el modelo (b) que usaba todas las variables excepto la variable X. Para ambos modelos, solo informo el rendimiento fuera de la muestra. Parece que ambos modelos funcionan casi igual de bien. En otras palabras, agregar la variable explicativa X no mejora las predicciones fuera de la muestra. Tenga en cuenta que también utilicé el modelo (a), es decir, el modelo con todas las variables explicativas, para encontrar que la variable explicativa X impacta significativamente mi variable de respuesta.

Mi pregunta ahora es: ¿cómo interpretar este hallazgo? La conclusión directa es que, aunque la variable X parece influir significativamente en mi variable de respuesta utilizando modelos inferenciales, no mejora las predicciones fuera de la muestra. Sin embargo, tengo problemas para explicar aún más este hallazgo. ¿Cómo puede ser esto posible y cuáles son algunas explicaciones para este hallazgo?

¡Gracias por adelantado!

Información adicional: con 'influencia significativa' quiero decir que 0 no está incluido en el intervalo de densidad posterior más alto del 95% de la estimación del parámetro (estoy usando un enfoque bayesiano). En términos frecuentistas, esto corresponde aproximadamente a tener un valor p inferior a 0,05. Estoy usando solo anteriores difusos (no informativos) para todos los parámetros de mis modelos. Mis datos tienen una estructura longitudinal y contienen alrededor de 7000 observaciones en total. Para las predicciones fuera de la muestra, utilicé el 90% de los datos para ajustar mis modelos y el 10% de los datos para evaluar los modelos usando múltiples repeticiones. Es decir, realicé la prueba de tren dividida varias veces y finalmente reporté las métricas de rendimiento promedio.

dubvice
fuente
2
Debido a que está utilizando un enfoque bayesiano, sus resultados dependen tanto de su previo como de los datos. Debido a que la dependencia de lo anterior disminuye con el aumento de la cantidad de datos y aumenta en la medida en que los datos y el desacuerdo anterior, sería útil para usted proporcionar información tanto sobre la distribución previa, la cantidad de datos y cuán estrechamente se conforman los datos a la distribución previa.
whuber
1
@whuber Olvidé mencionar que solo estoy usando previos difusos (poco informativos). Por lo tanto, no siento que mi especificación previa tenga nada que ver con mis hallazgos. Estoy bastante seguro de que el ajuste de modelos de regresión lineal frecuentista dará como resultado exactamente los mismos resultados.
dubvice
Gracias, eso ayuda a descartar varias explicaciones posibles.
whuber
1
¿Está reajustando los modelos a los datos retenidos o está utilizando los modelos que ajusta a sus datos originales? En cualquier caso, un posible problema es que está cometiendo un error de Tipo II en los datos retenidos; quizás la variable sea relevante, pero originalmente tenía poca potencia (en cuyo caso probablemente esté sobreestimando el efecto que podría empeorar las predicciones). O la variable era irrelevante y cometió un error de Tipo I. Hay muchas razones por las que este tipo de cosas podrían suceder.
chico
1
He usado varias métricas: RSME, MAE y AUC (también estoy tratando de predecir si mi variable dependiente, que es continua, está por debajo de cierto umbral).
dubvice

Respuestas:

3

Cuando un predictor particular es estadísticamente significativo no significa que también mejore considerablemente el rendimiento predictivo de un modelo. El rendimiento predictivo está más relacionado con el tamaño del efecto. Como un ejemplo, la función a continuación datos Simula de un modelo de regresión lineal con dos predictores x1y x2, y se ajusta a dos modelos, uno con ambos x1y x2, y uno con x1solo. En la función puede cambiar el tamaño del efecto para x2. La función informa los intervalos de confianza para los coeficientes de x1y x2, y los valores de los dos modelos como una medida del rendimiento predictivo.R2

La función es:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

Como ejemplo, para los valores predeterminados que obtenemos,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

Por x2lo tanto, es significativo, y no incluirlo en el modelo tiene un gran impacto en el .R2

Pero si establecemos el tamaño del efecto en 0.3, obtenemos:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

El coeficiente sigue siendo significativo, pero la mejora en el es muy pequeña.R2

Dimitris Rizopoulos
fuente
La vaga dicotomía entre significación estadística y rendimiento predictivo es la ruina de mi vida analítica en más de un sentido. (+1 - y una bienvenida general a CV Prof.!)
usεr11852
-1

Esto es bastante normal en una regresión múltiple. La razón más común es que sus predictores están relacionados entre sí. En otras palabras, puede inferir X a partir de los valores de los otros predictores. Por lo tanto, si bien es útil para las predicciones si es el único predictor que tiene, una vez que tiene todos los demás predictores, no proporciona mucha información adicional. Puede verificar si este es el caso haciendo retroceder X en los otros predictores. También me referiría al capítulo sobre regresión lineal en el libro de texto gratuito en línea, Elementos de aprendizaje estadístico.

Denziloe
fuente
1
Parece que está describiendo una variable explicativa no significativa en lugar de abordar las circunstancias específicas descritas en la pregunta.
whuber
Estoy describiendo una variable explicativa que se relaciona significativamente con la respuesta por sí sola (es decir, en una regresión simple), que es lo que supongo que la pregunta significa "X parece impactar significativamente mi variable de respuesta".
Denziloe
Pero en ese caso, no habría encontrado que mi variable explicativa X impacta significativamente mi variable de respuesta ¿verdad? Tal vez no lo dejé claro en mi pregunta inicialmente, pero utilicé un modelo con todas las variables explicativas para encontrar que la variable explicativa X tiene una influencia significativa en mi variable de respuesta.
dubvice
3
X
1
Sí whuber, lo entendiste correctamente. Esto es lo que quiero decir. Espero haber aclarado esto lo suficientemente bien en mi pregunta.
dubvice