¿Cuál de las siguientes opciones de conjunto de pasos es la correcta al crear un modelo predictivo?
Opción 1:
Primero elimine los predictores más evidentemente malos, y preprocese el resto si es necesario, luego entrene varios modelos con validación cruzada, elija los mejores, identifique los mejores predictores que cada uno ha utilizado, luego vuelva a entrenar esos modelos solo con esos predictores y evalúe la precisión nuevamente con validación cruzada, luego elija el mejor y capacítelo en el conjunto de entrenamiento completo usando sus predictores clave y luego úselo para predecir el conjunto de prueba.
Opcion 2:
Primero elimine los predictores más evidentemente malos, luego preprocese el resto si es necesario, luego use una técnica de selección de características como la selección de características recursivas (por ejemplo, RFE con rf) con validación cruzada, por ejemplo, para identificar el número ideal de predictores clave y cuáles son estos predictores son, luego entrenar diferentes tipos de modelos con validación cruzada y ver cuál da la mejor precisión con los principales predictores identificados anteriormente. Luego entrene el mejor de esos modelos nuevamente con esos predictores en el conjunto de entrenamiento completo y luego úselo para predecir el conjunto de prueba.
Respuestas:
Encontré ambas opciones ligeramente defectuosas. Entonces, esto es generalmente (muy ampliamente) cómo se ve un flujo de trabajo de modelado predictivo:
fuente
El lugar donde la selección de características encuentra un lugar en su canalización depende del problema. Si conoce bien sus datos, puede seleccionar características basadas en este conocimiento manualmente. Si no lo hace, la experimentación con los modelos usando validación cruzada puede ser la mejor. La reducción de un número de características a priori con alguna técnica adicional como chi2 o PCA en realidad puede reducir la precisión del modelo.
En mi experiencia con la clasificación de texto con el clasificador SGD, por ejemplo, dejar las cien mil palabras codificadas como características binarias trajo mejores resultados en comparación con la reducción a unos pocos miles o cientos. El tiempo de entrenamiento es realmente más rápido con todas las funciones, ya que la selección de funciones es bastante lenta con mi conjunto de herramientas (sklearn) porque no es estocástico como SGD.
La multicolinealidad es algo a tener en cuenta, pero la interpretación de las características también puede ser importante.
Luego, las personas informan que obtienen el mejor resultado con conjuntos de modelos. Cada modelo captura una parte particular del espacio de información mejor que las demás. Eso también le impediría seleccionar las características antes de ajustar todos los modelos que incluiría en su conjunto.
fuente