Estoy haciendo un modelo simple de eliminación hacia atrás basado en AIC donde algunas variables son variables categóricas con múltiples niveles. Estas variables se modelan como un conjunto de variables ficticias. Al hacer la eliminación hacia atrás, ¿debería eliminar todos los niveles de una variable juntos? ¿O debería tratar cada variable ficticia por separado? ¿Y por qué?
Como una pregunta relacionada, el paso en R maneja cada variable ficticia por separado cuando se realiza la eliminación hacia atrás. Si quisiera eliminar una variable categórica completa de una vez, ¿puedo hacerlo usando el paso? ¿O hay alternativas al paso que pueden manejar esto?
model-selection
nerdbound
fuente
fuente
Respuestas:
Creo que tendrías que eliminar toda la variable categórica. Imagine una regresión logística en la que intenta predecir si una persona tiene una enfermedad o no. El país de nacimiento podría tener un gran impacto en eso, por lo que debe incluirlo en su modelo. Si el origen estadounidense específico no tuvo ningún impacto en el AIC y lo descartó, ¿cómo calcularía para un estadounidense? R usa contrastes de referencia para los factores de forma predeterminada, por lo que creo que se calcularían en el nivel de referencia (por ejemplo, Botswana), si es que lo hacen. Eso probablemente no va a terminar bien ...y^
Una mejor opción sería clasificar de antemano las codificaciones razonables del país de nacimiento, colapsando en la región, el continente, etc. y encontrar cuál de ellas es la más adecuada para su modelo.
Por supuesto, hay muchas maneras de usar mal la selección de variables por pasos, así que asegúrese de hacerlo correctamente. Sin embargo, hay mucho sobre eso en este sitio; buscar "paso a paso" trae algunos buenos resultados. Esto es particularmente pertinente , con muchos buenos consejos en las respuestas.
fuente
En cuanto al ejemplo de países, creo que si se selecciona la variable ficticia para un país específico, significa que este país es un predictor en comparación con todos los demás países combinados (no es necesario crear una nueva variable binaria). El problema que tengo con mucha frecuencia son las variables ficticias que reflejan, por ejemplo, la gravedad de una enfermedad (como -, +, ++, +++). A veces se selecciona la variable ficticia para ++ pero no la variable ficticia para +++. En este caso, la reclasificación puede ser útil.
fuente