Los procedimientos comunes de selección de variables basadas en datos (por ejemplo, hacia adelante, hacia atrás, paso a paso, todos los subconjuntos) tienden a generar modelos con propiedades indeseables, que incluyen:
- Coeficientes sesgados lejos de cero.
- Errores estándar que son demasiado pequeños e intervalos de confianza que son demasiado estrechos.
- Pruebe las estadísticas y los valores p que no tienen el significado anunciado.
- Estimaciones de ajuste del modelo que son demasiado optimistas.
- Términos incluidos que pueden no tener sentido (p. Ej., Exclusión de términos de orden inferior).
Sin embargo, los procedimientos de selección variable persisten. Dados los problemas con la selección de variables, ¿por qué son necesarios estos procedimientos? ¿Qué motiva su uso?
Algunas propuestas para comenzar la discusión ...
- ¿El deseo de coeficientes de regresión interpretables? (¿Desorientado en un modelo con muchas vías intravenosas?)
- ¿Eliminar la varianza introducida por variables irrelevantes?
- ¿Eliminar las covarianzas / redundancias innecesarias entre las variables independientes?
- Reduzca el número de estimaciones de parámetros (problemas de potencia, tamaño de muestra)
¿Hay otros? ¿Los problemas abordados por las técnicas de selección variable son más o menos importantes que los problemas que presentan los procedimientos de selección variable? ¿Cuándo deberían ser utilizados? ¿Cuándo no deberían ser utilizados?
modeling
feature-selection
Brett
fuente
fuente
Respuestas:
La selección variable (sin penalización) solo empeora las cosas. La selección de variables casi no tiene posibilidades de encontrar las variables "correctas" y da como resultado grandes exageraciones de los efectos de las variables restantes y una gran subestimación de los errores estándar. Es un error creer que la selección de variables realizada de la manera habitual ayuda a evitar el problema "p grande n pequeña". La conclusión es que el modelo final es engañoso en todos los sentidos. Esto está relacionado con una declaración sorprendente que leí en un artículo de epidemiología: "No teníamos un tamaño de muestra adecuado para desarrollar un modelo multivariable, por lo que realizamos todas las pruebas posibles para tablas de 2x2".
Cada vez que el conjunto de datos en cuestión se usa para eliminar variables, mientras se usa Y para tomar la decisión, todas las cantidades estadísticas se distorsionarán. La selección de variables típica es un espejismo.
Editar : (Copiando comentarios desde abajo ocultos por el pliegue)
fuente
En primer lugar, las desventajas que mencionó son los efectos de la selección de funciones incorrecta , es decir, sobreajustado, inacabado o sobreimpulso.
Todos los niveles relevantes dan una idea de lo que realmente impulsa el proceso dado, así que tenga un valor explicativo. El nivel óptimo mínimo (por diseño) proporciona un modelo tan poco equipado que trabaja en datos tan despejados como sea posible.
El FS del mundo real solo quiere lograr uno de esos objetivos (generalmente el último).
fuente
La selección de variables se debe necesariamente a que la mayoría de los modelos no manejan bien una gran cantidad de variables irrelevantes. Estas variables solo introducirán ruido en su modelo, o peor aún, harán que se ajuste demasiado. Es una buena idea excluir estas variables del análisis.
Además, no puede incluir todas las variables que existen en cada análisis, porque hay un número infinito de ellas. En algún momento tienes que dibujar la línea, y es bueno hacerlo de manera rigurosa. De ahí toda la discusión sobre la selección de variables.
La mayoría de los problemas con la selección de variables pueden abordarse mediante validación cruzada o mediante el uso de un modelo con penalización incorporada y selección de características (como la red elástica para modelos lineales).
Si está interesado en algunos resultados empíricos relacionados con múltiples variables que causan un ajuste excesivo, consulte los resultados de la competencia Don't Overfit en Kaggle.
fuente