¿Cómo funciona la "regresión por pasos"?

11

Usé el siguiente código R para ajustar un modelo probit:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

¿Quiero saber qué hace stepwisey qué hace backward/forwardexactamente y cómo seleccionar las variables?

Mahmoud
fuente
77
Algunos comentarios de Frank Harrell ( stats.stackexchange.com/users/4253/frank-harrell ) sobre por qué la regresión por pasos es mala: stata.com/support/faqs/statistics/stepwise-regression-problems
44
Además de los enlaces de BabakP, eche un vistazo a esta publicación del sitio.
COOLSerdash
3
Otra publicación sobre problemas con stepwise (y también hacia atrás y hacia adelante) es un artículo que escribí con David Cassell: Stopping Stepwise
Peter Flom - Reinstate Monica
@PeterFlom, para hacer referencia a este documento, tengo algunos problemas para entender la cita correcta. ¿Podría por favor enumerarlo aquí? Gracias.
doug.numbers
2
@ doug.numbers Se presentó en varios lugares y se publicó como parte de las actas de la conferencia. Si buscas en Google "Flom, Cassell, Stepwise", obtendrás los lugares donde se presentó y puedes formatearlo sin importar el formato de las citas a las presentaciones publicadas.
Peter Flom - Restablece a Monica

Respuestas:

10

Principio de selección gradual

  1. Usted ajusta un modelo con todas las variables que desee. Este es tu mejor modelo actual.
  2. Elimina una variable (o agrega una, entre las variables no utilizadas en el mejor modelo actual), y para cada una, ajusta el nuevo modelo y los compara con cada uno y con el original, de acuerdo con BIC (o cualquier otro criterio, como AIC ). Obtienes otro "mejor modelo actual".

Repite 2. hasta que no haya reducción de BIC. Solo tiene un mínimo local de BIC, lo que significa que es posible que no obtenga el mejor modelo entre todas las opciones posibles de subconjuntos de variables. Pero de todos modos, generalmente hay demasiados, por lo que esta es una forma de optimizar un poco, sin demasiado trabajo.

Vea también Regresión por pasos y Selección de modelo en Wikipedia.


fuente
5

La regresión escalonada básicamente se ajusta al modelo de regresión agregando / eliminando covariables una a la vez en función de un criterio específico (en su ejemplo anterior, el criterio se basaría en el BIC).

Al especificar hacia adelante, está diciendo Rque le gustaría comenzar con el modelo más simple (es decir, una covariable) y luego agregar una covariable de una en una, manteniendo solo las que dan como resultado una mejora en los modelos BIC.

Al especificar hacia atrás, está diciendo Rque desea comenzar con el modelo completo (es decir, el modelo con todas las covariables) y luego soltar las covariables, una vez, que dan como resultado una mejora en el BIC.

La regresión por pasos puede ser un procedimiento estadístico muy peligroso porque no es un procedimiento de selección de modelo óptimo. El método puede conducir a una selección de modelo muy pobre porque y no lo protege contra problemas tales como comparaciones múltiples.


fuente
Gracias. ¿Y qué hay de 'hacia atrás / adelante'?
Mahmoud
¿A qué te refieres con lo de atrás / adelante?
¡Uno de los métodos de stpewise () en R es 'hacia atrás / adelante'! ¿Es una combinación de ambos?
Mahmoud
2
Oh lo siento, ahora entiendo lo que estás preguntando. Sí, si especifica ambos, aplica tanto hacia adelante como hacia atrás y elige el que tenga el mejor criterio.