Pregunta sobre el equilibrio de sesgo-varianza y los medios de optimización

7

Así que me preguntaba cómo, por ejemplo, uno puede optimizar mejor el modelo que están tratando de construir cuando se enfrentan a problemas presentados por un alto sesgo o una gran varianza. Ahora, por supuesto, puedes jugar con el parámetro de regularización para llegar a un final satisfactorio, pero me preguntaba si es posible hacer esto sin depender de la regularización.

Si b es el estimador de sesgo de un modelo yv de su varianza, ¿no tendría sentido tratar de minimizar b * v?

Zer0k
fuente

Respuestas:

8

Hay muchas formas en que el sesgo y la varianza se pueden minimizar y, a pesar del dicho popular, no siempre es una compensación.

Las dos razones principales para un alto sesgo son la capacidad insuficiente del modelo y la falta de ajuste porque la fase de entrenamiento no se completó. Por ejemplo, si tiene que resolver un problema muy complejo (p. Ej., Reconocimiento de imagen) y utiliza un modelo de baja capacidad (p. Ej., Regresión lineal), este modelo tendría un alto sesgo como resultado de que el modelo no pudiera comprender la complejidad de el problema.

La razón principal de la alta variación es el sobreajuste en el conjunto de entrenamiento.

Dicho esto, hay formas de reducir el sesgo y la varianza en un modelo de ML. Por ejemplo, la forma más fácil de lograr esto es obtener más datos (en algunos casos, incluso la ayuda de datos sintéticos).

Lo que tendemos a hacer en la práctica es:

  • Primero, aumentamos la capacidad del modelo para reducir la variación en el conjunto de entrenamiento tanto como sea posible. En otras palabras, queremos hacer que el modelo se sobreajuste (incluso alcanzar una pérdida de 0 en el conjunto de entrenamiento). Esto se hace porque queremos asegurarnos de que el modelo tenga la capacidad de comprender suficientemente los datos.

  • Luego tratamos de reducir el sesgo . Esto se hace a través de la regularización ( interrupción temprana , penalizaciones normativas , deserción , etc.)

Djib2011
fuente
1
Para ser claros, más datos no significan exclusivamente más ejemplos, pero podrían ser más características para los ejemplos actuales, ¿verdad?
Zer0k
44
Bueno, en realidad quise decir más ejemplos, pero estás en lo correcto si pudieras medir más características (significativas) para los ejemplos actuales que sin duda mejorarías el rendimiento de tu modelo.
Djib2011