Overfitting y Underfitting

Respuestas:

30

Trataré de responder de la manera más simple. Cada uno de esos problemas tiene su propio origen principal:

Sobreajuste: los datos son ruidosos, lo que significa que hay algunas desviaciones de la realidad (debido a errores de medición, factores influyentes al azar, variables no observadas y correlaciones de basura) que nos dificulta ver su verdadera relación con nuestros factores explicativos. Además, generalmente no está completo (no tenemos ejemplos de todo).

Como ejemplo, digamos que estoy tratando de clasificar a los niños y niñas en función de su altura, solo porque esa es la única información que tengo sobre ellos. Todos sabemos que, aunque los niños son más altos en promedio que las niñas, existe una gran región de superposición, lo que hace imposible separarlos perfectamente solo con esa información. Dependiendo de la densidad de los datos, un modelo suficientemente complejo podría lograr una mejor tasa de éxito en esta tarea de lo que es teóricamente posible en la capacitación.conjunto de datos porque podría dibujar límites que permiten que algunos puntos se mantengan solos por sí mismos. Entonces, si solo tenemos una persona que tiene 2.04 metros de altura y ella es una mujer, entonces la modelo podría dibujar un pequeño círculo alrededor de esa área, lo que significa que una persona aleatoria que tiene 2.04 metros de altura es más probable que sea una mujer.

La razón subyacente de todo esto es confiar demasiado en los datos de entrenamiento (y en el ejemplo, el modelo dice que como no hay un hombre con 2.04 de estatura, entonces solo es posible para las mujeres).

La falta de adaptación es el problema opuesto, en el que el modelo no reconoce las complejidades reales de nuestros datos (es decir, los cambios no aleatorios en nuestros datos). El modelo supone que el ruido es mayor de lo que realmente es y, por lo tanto, utiliza una forma demasiado simplista. Entonces, si el conjunto de datos tiene muchas más niñas que niños por cualquier razón, entonces el modelo podría clasificarlas a todas como niñas.

En este caso, el modelo no confiaba lo suficiente en los datos y simplemente asumió que las desviaciones son todo ruido (y en el ejemplo, el modelo supone que los niños simplemente no existen).

La conclusión es que enfrentamos estos problemas porque:

  • No tenemos información completa.
  • No sabemos qué tan ruidosos son los datos (no sabemos cuánto debemos confiar en ellos).
  • No sabemos de antemano la función subyacente que generó nuestros datos y, por lo tanto, la complejidad óptima del modelo.
Luis Da Silva
fuente
2
Bienvenido a CV. buena respuesta, lo que me da ganas de borrar mi respuesta ...
Haitao Du
1
Creo que la parte sobre "dibujar límites" y "círculos" es un poco confusa ...
Easymode44
Solo diría que el ejemplo de predicción de la estatura entre hombres y mujeres corresponde a un ajuste insuficiente más que a un ajuste excesivo.
Digio
6

El sobreajuste es cuando un modelo estima la variable que está modelando realmente bien en los datos originales, pero no se estima bien en un nuevo conjunto de datos (espera, validación cruzada, pronóstico, etc.). Tiene demasiadas variables o estimadores en su modelo (variables ficticias, etc.) y esto hace que su modelo se vuelva demasiado sensible al ruido en sus datos originales. Como resultado de sobreajustar el ruido en sus datos originales, el modelo predice mal.

La falta de ajuste es cuando un modelo no estima bien la variable ni en los datos originales ni en los nuevos. A su modelo le faltan algunas variables que son necesarias para estimar y predecir mejor el comportamiento de su variable dependiente.

El acto de equilibrio entre over y underfitting es desafiante y, a veces, sin una línea de meta clara. Al modelar series temporales de econometría, este problema se resuelve bastante bien con los modelos de regularización (LASSO, Ridge Regression, Elastic-Net) que se atienden específicamente para reducir el sobreajuste reduciendo respectivamente el número de variables en su modelo, reduciendo la sensibilidad de los coeficientes a sus datos, o una combinación de ambos.

Sympa
fuente
5

Quizás durante su investigación se encontró con la siguiente ecuación:

Error = IrreducibleError + Bias² + Variance.

¿Por qué enfrentamos estos dos problemas al entrenar un modelo?

El problema de aprendizaje en sí mismo es básicamente una compensación entre sesgo y varianza .

¿Cuáles son las principales razones para el sobreajuste y la falta de adaptación?

Corto: ruido.

Largo: El error irreducible : Errores de medición / fluctuaciones en los datos, así como la parte de la función objetivo que el modelo no puede representar. Volver a medir la variable objetivo o cambiar el espacio de hipótesis (es decir, seleccionar un modelo diferente) cambia este componente.

Editar (para vincular a las otras respuestas): el rendimiento del modelo como complejidad varía:

.

donde errorD es el error en toda la distribución D (en la práctica estimado con conjuntos de prueba).

Laksan Nathan
fuente
3
Creo que deberías definir tu terminología. OP no usa los términos "sesgo" o "varianza" en la pregunta, usted no usa los términos "sobreajuste" o "falta de ajuste" en su respuesta (excepto en una cita de la pregunta). Creo que esta sería una respuesta mucho más clara si explicas la relación entre estos términos.
Gregor
4

Casi todos los problemas estadísticos pueden expresarse de la siguiente forma:

  1. (y,x)f^y^=f^(x)

  2. f^ff

y=f(x)+ε

f^y^yf^εff

f^f~f

Si observa el problema estadístico de esta manera, ajustar el modelo siempre es un equilibrio entre el ajuste insuficiente y el ajuste excesivo, y cualquier solución siempre es un compromiso. Enfrentamos este problema porque nuestros datos son aleatorios y ruidosos.

mpiktas
fuente
2

¿Cuáles son las principales razones para el sobreajuste y la falta de adaptación?

Para el sobreajuste, el modelo es demasiado complejo para ajustarse bien a los datos de entrenamiento. Para la adaptación, el modelo es demasiado simple.

¿Por qué enfrentamos estos dos problemas al entrenar un modelo?

Es difícil elegir el modelo "correcto" y los parámetros para los datos.

Haitao Du
fuente
0

El sobreajuste y el subajuste son explicaciones básicamente inadecuadas de los datos por parte de un modelo hipotético y pueden verse como el modelo que sobreexplica o subexplica los datos. Esto se crea por la relación entre el modelo utilizado para explicar los datos y el modelo que genera los datos. En nuestro intento de explicar que no podemos acceder al modelo subyacente, nuestro juicio se guía por otro factor: las incertidumbres o las barras de error.

Cuando, en un intento de ajustar toda la variación, usamos un modelo que es demasiado complejo, estamos sobreajustando. Esto es creado por nosotros teniendo libre reinado en la elección del modelo y de acuerdo con demasiada importancia a las barras de error (o tratando de explicar toda la variabilidad, que es lo mismo). Cuando nos limitamos a un modelo que es demasiado simple para describir los datos, y no le damos suficiente importancia a las barras de error (o no explicamos la variabilidad), estamos subadaptados.

¿Cómo se pueden evitar estos dos? Modelos respaldados por información (no derivados de los datos sino del conocimiento previo del problema) e incertidumbres significativas.

pedrofigueira
fuente
0

En pocas palabras, el sobreajuste aparece como consecuencia de patrones que aparecen en su conjunto de datos de entrenamiento pero que no están presentes en toda la población (aparecieron por suerte) Si usa un modelo simple (piense en una regresión lineal, por ejemplo), existe el riesgo de sobreajuste es bajo, ya que el número de patrones posibles que puede detectar es pequeño y, por lo tanto, la posibilidad de que uno de los que se muestre al azar en la muestra tampoco sea tan grande. Un ejemplo de esto puede ocurrir si intenta estudiar correlaciones de 1,000,000 de variables en una población que toma una muestra de 100 individuos. Algunas de las características pueden presentar aleatoriamente una gran correlación de muestra a pesar de ser completamente independientes entre sí

Otra razón para el sobreajuste es el muestreo sesgado (los "patrones falsos de muestra" están ahí porque la muestra no es realmente aleatoria) Por ejemplo, si desea estudiar el tamaño promedio de un determinado tipo de hongo al salir y encontrarlos en la naturaleza , es probable que lo sobreestimes (los hongos más grandes son más fáciles de encontrar)

La falta de equipamiento es, por otro lado, un fenómeno bastante más simple. Puede significar dos cosas muy básicas: A) No tenemos suficientes datos para que el modelo aprenda el patrón de población o B) Nuestro modelo no es lo suficientemente poderoso como para reflejarlo.

y=ax+ϵϵ

y=x2+ϵ

David
fuente
0

Respuesta corta:

La razón principal para sobreajustar es usar un modelo complejo cuando tienes un pequeño conjunto de entrenamiento.

La razón principal de la falta de equipamiento es usar un modelo que es demasiado simple y no puede funcionar bien en el conjunto de entrenamiento.


¿Razón principal para sobreajustar?

  • Los modelos con alta capacidad pueden sobreajustar memorizando las propiedades del conjunto de entrenamiento que no les sirven bien en el conjunto de prueba.

-Deep Learning book, Goodfellow et al.

El objetivo del aprendizaje automático es entrenar un modelo en el conjunto de entrenamiento con la esperanza de que funcione igual de bien en los datos de prueba. Pero, ¿obtener un buen rendimiento en el conjunto de entrenamiento siempre se traduce en un buen rendimiento en el conjunto de prueba? No lo hará, porque sus datos de entrenamiento son limitados . Si tiene datos limitados, su modelo puede encontrar algunos patrones que funcionan para ese conjunto de entrenamiento limitado, pero esos patrones no se generalizan a otros casos (es decir, conjunto de pruebas). Esto se puede resolver mediante:

A- Proporcionar un conjunto de entrenamiento más grande al modelo para reducir la posibilidad de tener patrones arbitrarios en el conjunto de entrenamiento.

B- Usar un modelo más simple para que el modelo no pueda encontrar esos patrones arbitrarios en el conjunto de entrenamiento. Un modelo más complejo podrá encontrar patrones más complicados, por lo que necesita más datos para asegurarse de que su conjunto de entrenamiento sea lo suficientemente grande como para no contener patrones arbitrarios.

(por ejemplo, imagina que quieres enseñarle a un modelo a detectar barcos de camiones y tienes 10 imágenes de cada uno. Si la mayoría de los barcos en tus imágenes están en el agua, tu modelo podría aprender a clasificar cualquier imagen con un fondo azul como barco) en lugar de aprender cómo se ve un barco. Ahora, si tuvieras 10,000 imágenes de barcos y camiones, es más probable que tu conjunto de entrenamiento contenga barcos y camiones en una variedad de fondos y tu modelo ya no puede confiar solo en el fondo azul).

¿Motivo principal de la falta de equipamiento?

  • El ajuste insuficiente ocurre cuando el modelo no puede obtener un valor de error suficientemente bajo en el conjunto de entrenamiento.

  • Los modelos con baja capacidad pueden tener dificultades para adaptarse al conjunto de entrenamiento.

-Deep Learning book, Goodfellow et al.

El ajuste insuficiente ocurre cuando su modelo no es lo suficientemente bueno como para aprender el conjunto de entrenamiento, lo que significa que su modelo es demasiado simple. Cada vez que comenzamos a resolver un problema, queremos un modelo que sea al menos capaz de obtener un buen rendimiento en el conjunto de entrenamiento, y luego comenzamos a pensar en reducir el sobreajuste. En general, la solución a la falta de equipamiento es bastante sencilla: utilice un modelo más complejo.

Soroush
fuente
0

Considere un ejemplo donde tenemos una ecuación de hipótesis / modelo,

y=q*X+c,

donde X = lista de características, y = etiqueta yq y c son los coeficientes que tenemos que entrenar.

Si obtenemos los valores de coeficiente de manera que sea lo suficientemente grande y comencemos a suprimir el valor de las características (es decir, X) en tal caso, siempre obtenemos el valor constante de y, independientemente de cualquier valor de X. Esto se llama modelo altamente sesgado o poco ajustado.

Considere otro ejemplo de hipótesis compleja,

y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.

Después de identificar el mejor valor de coeficientes, es posible que para los datos de entrenamiento, podamos obtener la pérdida mínima. Es solo porque hicimos nuestro modelo tan complejo y estrechamente acoplado que se comportó muy bien con los datos de entrenamiento. Mientras que con los datos no vistos, podemos obtener resultados bastante opuestos. Esto se llama modelo altamente variado o sobreajustado.

El modelo sesgado necesita más complejidad en la selección del modelo, mientras que el modelo altamente variado necesita una complejidad menor en la selección del modelo. La técnica de regularización puede ayudarnos a identificar el nivel adecuado de complejidad del modelo y, a través de esta técnica, podemos superar ambos problemas.

vipin bansal
fuente
Puede usar el formato matemático en su respuesta. Más información: math.meta.stackexchange.com/questions/5020/…
Sycorax dice Reinstate Monica