Bayesiano vs MLE, problema de sobreajuste

12

En el libro PRML de Bishop, dice que el sobreajuste es un problema con la Estimación de máxima verosimilitud (MLE), y Bayesian puede evitarlo.

Pero creo que el sobreajuste es un problema más sobre la selección del modelo, no sobre el método utilizado para hacer la estimación de parámetros. Es decir, supongamos que tengo un conjunto de datos , que se genera a través de f ( x ) = s i n ( x ) ,D , ahora podría elegir diferentes modelos H i para ajustar los datos y descubrir cuál es el mejor. Y los modelos bajo consideración son polinomios con diferentes órdenes, H 1 es el orden 1,es el orden 2,es el orden 9.

f(x)=sin(x),x[0,1]
HiH1H2H3

Ahora trato de ajustar los datos con cada uno de los 3 modelos, cada modelo tiene sus parámetros, denotados como para .w i H iDwiHi

Usando ML, tendré una estimación puntual de los parámetros del modelo , y es demasiado simple y siempre ajustará los datos, mientras que es demasiado complejo y sobreajustará los datos, solo se ajustará bien a los datos.H 1 H 3 H 2wH1H3H2

Mis preguntas son

1) El modelo sobreajustará los datos, pero no creo que sea el problema de ML, sino el problema del modelo per se. Porque, usando ML para no da como resultado un sobreajuste. Estoy en lo cierto?H 1 , H 2H3H1,H2

2) En comparación con Bayesian, ML tiene algunas desventajas, ya que solo da la estimación puntual de los parámetros del modelo , y es demasiado confiado. Mientras que Bayesian no se basa solo en el valor más probable del parámetro, sino en todos los valores posibles de los parámetros dados los datos observados , ¿verdad?DwD

3) ¿Por qué Bayesian puede evitar o disminuir el sobreajuste? Según tengo entendido, podemos usar Bayesiano para la comparación de modelos, es decir, dados los datos , podríamos encontrar la probabilidad marginal (o evidencia del modelo) para cada modelo en consideración, y luego elegir el que tenga la mayor probabilidad marginal, correcto ? Si es así, ¿por qué es eso?D

aguacate
fuente

Respuestas:

19

La optimización es la raíz de todo mal en las estadísticas. Cada vez que toma decisiones sobre su modelo al optimizar algún criterio adecuado evaluado en una muestra finita de datos, corre el riesgo de sobreajustar el criterio, es decir, reducir la estadística más allá del punto donde se obtienen mejoras en el rendimiento de generalización y la reducción en cambio, se obtiene explotando las peculiaridades de la muestra de datos, por ejemplo, ruido). La razón por la que el método bayesiano funciona mejor es que no optimizas nada, sino que marginas (integras) todas las opciones posibles. El problema radica en la elección de creencias previas con respecto al modelo, por lo que un problema ha desaparecido, pero otro aparece en su lugar.1


1 Esto incluye maximizar la evidencia (probabilidad marginal) en un entorno bayesiano. Para ver un ejemplo de esto, vea los resultados para los clasificadores del Proceso Gaussiano en mi artículo, donde la optimización de la probabilidad marginal empeora el modelo si tiene demasiados hiperparámetros (la selección de notas de acuerdo con la probabilidad marginal tenderá a favorecer los modelos con mucha hipervelocidad -parámetros como resultado de esta forma de sobreajuste).

GC Cawley y NLC Talbot, Ajuste excesivo en la selección del modelo y posterior sesgo de selección en la evaluación del rendimiento, Journal of Machine Learning Research, 2010. Research, vol. 11, págs. 2079-2107, julio de 2010. ( pdf )

Dikran Marsupial
fuente
+1, muchas gracias, leeré tu periódico y veré si tengo más preguntas ;-)
aguacate
1
Solo para señalar aquí que la optimización generalmente puede considerarse como una integración aproximada: el método de Laplace es un ejemplo de esto. La optimización generalmente falla cuando no es una buena aproximación a la integración, de ahí que REML sea generalmente mejor que ML.
probabilityislogic
@probabilityislogic, no estoy seguro de entender, ML es un poco como MAP, no se realiza ninguna integración. Usar la aproximación de Laplace (en la forma en que lo he visto usado) es optimizar en el sentido de que optimizas una aproximación a la función que deseas integrar e integrar en su lugar, pero todavía hay integración.
Dikran Marsupial
1
@dikran marsupial: quizás una mejor manera de explicarlo es que la integración a menudo se aproxima bien estimando un parámetro por ML y restringiendo que ese parámetro sea igual a su MLE. La aproximación de Laplace proporciona un "factor de corrección" a esta intuición, de la misma manera que lo hace REML.
probabilityislogic
@probabilityislogic gracias por la respuesta, ¡lo pensaré!
Dikran Marsupial
7

Como respuesta general, si está utilizando modelos de regresión de tipo "mínimos cuadrados", realmente no hay mucha diferencia entre bayes y ML, a menos que utilice un previo informativo para los parámetros de regresión. En respuesta a detalles:

H9H1

x

3) El enfoque bayesiano puede evitar el sobreajuste solo para los previos adecuados. Esto funciona de manera similar a los términos de penalización que ve en algunos algoritmos de ajuste. Por ejemplo, penalización L2 = normal anterior, penalización L1 = laplace anterior.

probabilidadislogica
fuente
H9
H
H9
4

H1H2H3

2H1

l1

Youloush
fuente
Una hipótesis simple (por ejemplo, h1, h2) con muestras de entrenamiento insuficientes sería un ejemplo de ajuste insuficiente (para cv) y no ajuste excesivo debido al sesgo del modelo en los pocos ejemplos de entrenamiento dados.
yekta