¿Por qué los valores p son engañosos después de realizar una selección por pasos?

Consideremos, por ejemplo, un modelo de regresión lineal. Escuché que, en la minería de datos, después de realizar una selección gradual basada en el criterio AIC, es engañoso mirar los valores p para probar la hipótesis nula de que cada coeficiente de regresión verdadero es cero. Escuché que uno debería considerar que todas las variables que quedan en el modelo tienen un verdadero coeficiente de regresión diferente de cero. ¿Alguien puede explicarme por qué? Gracias.

multiple-regression predictive-models data-mining stepwise-regression John M
fuente

Aquí hay más información. Las referencias citadas allí también son útiles.

S. Kolassa - Restablece a Mónica el

En teoríaticalecology.wordpress.com / 2018 / 05 / 03/… , muestro un código R que demuestra la inflación tipo I después de la selección de AIC. Tenga en cuenta que no importa si es gradual o global, el punto es que la selección del modelo es básicamente una prueba múltiple.

Florian Hartig

después de realizar una selección por pasos basada en el criterio AIC, es engañoso observar los valores p para probar la hipótesis nula de que cada coeficiente de regresión verdadero es cero.

De hecho, los valores p representan la probabilidad de ver una estadística de prueba al menos tan extrema como la que tiene, cuando la hipótesis nula es verdadera. Si $H_0$ es verdadero, el valor p debe tener una distribución uniforme.

Pero después de la selección por pasos (o de hecho, después de una variedad de otros enfoques para la selección del modelo), los valores p de los términos que permanecen en el modelo no tienen esa propiedad, incluso cuando sabemos que la hipótesis nula es verdadera.

Esto sucede porque elegimos las variables que tienen o tienden a tener valores p pequeños (según los criterios precisos que utilizamos). Esto significa que los valores p de las variables que quedan en el modelo suelen ser mucho más pequeños de lo que serían si hubiéramos ajustado un solo modelo. Tenga en cuenta que, en promedio, la selección elegirá modelos que parecen ajustarse incluso mejor que el modelo verdadero, si la clase de modelos incluye el modelo verdadero, o si la clase de modelos es lo suficientemente flexible como para aproximarse al modelo verdadero.

[Además y básicamente por la misma razón, los coeficientes que quedan están sesgados lejos de cero y sus errores estándar son bajos; esto a su vez afecta los intervalos de confianza y las predicciones también: nuestras predicciones serán demasiado limitadas, por ejemplo.]

Para ver estos efectos, podemos tomar una regresión múltiple donde algunos coeficientes son 0 y otros no, realizar un procedimiento paso a paso y luego, para aquellos modelos que contienen variables que tenían coeficientes cero, observar los valores p que resultan.

(En la misma simulación, puede ver las estimaciones y las desviaciones estándar de los coeficientes y descubrir las que corresponden a coeficientes distintos de cero también se ven afectados).

En resumen, no es apropiado considerar los valores p habituales como significativos.

Escuché que uno debería considerar todas las variables que quedan en el modelo como significativas en su lugar.

En cuanto a si todos los valores en el modelo después de paso a paso deben ser 'considerados como significativos', no estoy seguro de hasta qué punto es una forma útil de verlo. ¿Qué significa "significación" entonces?

Este es el resultado de ejecutar R stepAICcon la configuración predeterminada en 1000 muestras simuladas con n = 100 y diez variables candidatas (ninguna de las cuales está relacionada con la respuesta). En cada caso se contó el número de términos restantes en el modelo:

Solo el 15.5% del tiempo fue el modelo correcto elegido; El resto del tiempo, el modelo incluía términos que no eran diferentes de cero. Si en realidad es posible que haya variables de coeficiente cero en el conjunto de variables candidatas, es probable que tengamos varios términos en los que el coeficiente verdadero sea cero en nuestro modelo. Como resultado, no está claro que sea una buena idea considerarlos a todos como no nulos.

Glen_b -Reinstate a Monica
fuente

Con la frase "Escuché que uno debería considerar todas las variables que quedan en el modelo como significativas en su lugar" quise decir: "Escuché que uno debería considerar que todas las variables que quedan en el modelo tienen un coeficiente de regresión verdadero diferente de cero en su lugar"

John M

Bueno; He agregado los resultados de una simulación que habla de eso.

Glen_b -Reinstale a Monica el

k = 3

$k=3$

39

$39$

10 k

$10k$

@whuber de hecho, ver qué efecto tendría un Bonferroni (en una variedad de aspectos del problema) fue mi inclinación inmediata a completar la simulación anterior también, pero no es lo que la gente tiende a hacer de manera gradual, así que no me ocupé aquí. Me fascinaría oírte hablar sobre los métodos de selección de modelos. Espero aprender un poco.

Glen_b -Reinstale a Monica el

@Glen_b: (Citado de su respuesta) Esto significa que los valores p de las variables que quedan en el modelo suelen ser mucho más pequeños de lo que serían si hubiéramos ajustado un solo modelo, incluso "si el modelo que ajustamos es el que generó los datos, si el modelo verdadero es nulo o no ". ¿Puedes explicar un poco la parte resaltada? ¿Cómo puede ser que los valores p sean más pequeños en el modelo que tiene la misma especificación que el proceso de generación de datos (modelo verdadero)?

shani

¿Por qué los valores p son engañosos después de realizar una selección por pasos?

Respuestas: