En el libro PRML de Bishop, dice que el sobreajuste es un problema con la Estimación de máxima verosimilitud (MLE), y Bayesian puede evitarlo.
Pero creo que el sobreajuste es un problema más sobre la selección del modelo, no sobre el método utilizado para hacer la estimación de parámetros. Es decir, supongamos que tengo un conjunto de datos , que se genera a través de f ( x ) = s i n ( x ) , , ahora podría elegir diferentes modelos H i para ajustar los datos y descubrir cuál es el mejor. Y los modelos bajo consideración son polinomios con diferentes órdenes, H 1 es el orden 1,es el orden 2,es el orden 9.
Ahora trato de ajustar los datos con cada uno de los 3 modelos, cada modelo tiene sus parámetros, denotados como para .w i H i
Usando ML, tendré una estimación puntual de los parámetros del modelo , y es demasiado simple y siempre ajustará los datos, mientras que es demasiado complejo y sobreajustará los datos, solo se ajustará bien a los datos.H 1 H 3 H 2
Mis preguntas son
1) El modelo sobreajustará los datos, pero no creo que sea el problema de ML, sino el problema del modelo per se. Porque, usando ML para no da como resultado un sobreajuste. Estoy en lo cierto?H 1 , H 2
2) En comparación con Bayesian, ML tiene algunas desventajas, ya que solo da la estimación puntual de los parámetros del modelo , y es demasiado confiado. Mientras que Bayesian no se basa solo en el valor más probable del parámetro, sino en todos los valores posibles de los parámetros dados los datos observados , ¿verdad?D
3) ¿Por qué Bayesian puede evitar o disminuir el sobreajuste? Según tengo entendido, podemos usar Bayesiano para la comparación de modelos, es decir, dados los datos , podríamos encontrar la probabilidad marginal (o evidencia del modelo) para cada modelo en consideración, y luego elegir el que tenga la mayor probabilidad marginal, correcto ? Si es así, ¿por qué es eso?
fuente
Como respuesta general, si está utilizando modelos de regresión de tipo "mínimos cuadrados", realmente no hay mucha diferencia entre bayes y ML, a menos que utilice un previo informativo para los parámetros de regresión. En respuesta a detalles:
3) El enfoque bayesiano puede evitar el sobreajuste solo para los previos adecuados. Esto funciona de manera similar a los términos de penalización que ve en algunos algoritmos de ajuste. Por ejemplo, penalización L2 = normal anterior, penalización L1 = laplace anterior.
fuente
fuente