Tuve una entrevista de trabajo para un puesto de ciencia de datos. Durante la entrevista, me preguntaron qué debo hacer para asegurarme de que el modelo no se ajuste demasiado. Mi primera respuesta fue utilizar la validación cruzada para evaluar el rendimiento del modelo. Sin embargo, el entrevistador dijo que incluso la validación cruzada no puede identificar un sobreajuste completo. Luego mencioné la regularización, pero el entrevistador dijo que esto podría ayudar a reducir el sobreajuste (lo que estoy de acuerdo), pero no a detectarlo. ¿Existen otras técnicas que se pueden usar para asegurarse de que un modelo no esté sobreajustado?
cross-validation
regularization
overfitting
jroberayalas
fuente
fuente
Respuestas:
Creo que al preguntar sobre el ajuste adecuado, el entrevistador estaba buscando la "respuesta del libro de texto" mientras seguías algunos pasos después de eso.
Un síntoma de sobreajuste es que el rendimiento del clasificador en el conjunto de trenes es mejor que el del conjunto de prueba. Me refiero a esta respuesta como la "respuesta del libro de texto", ya que es la respuesta común y una aproximación razonable.
Tenga en cuenta que esta respuesta tiene muchos extremos abiertos. Por ejemplo, ¿cuánta diferencia es el sobreajuste? . Además, una diferencia en el rendimiento entre los conjuntos de datos no se debe necesariamente al sobreajuste. Por otro lado, el sobreajuste no necesariamente resultará en una diferencia significativa en el rendimiento de los dos conjuntos de datos.
La validación cruzada es una técnica para evaluar el rendimiento de un alumno (por ejemplo, un árbol de decisión) en datos que no vio antes. Sin embargo, el sobreajuste se refiere a un modelo específico (por ejemplo, si "f1" entonces y no "f2" predicen True). Le mostrará la tendencia del alumno a sobreajustar estos datos, pero no responderá si su modelo específico está sobreajustado.
Para sobreajustar el modelo necesitará complejidad y eso es lo que ayuda a la regularización. Limita (o intercambia) la complejidad del modelo. Tenga en cuenta que otra fuente de sobreajuste es el tamaño del conjunto de hipótesis (puede considerarse el número de modelos posibles). Decidir de antemano utilizar un conjunto de hipótesis restringido es otra forma de evitar el sobreajuste.
fuente