Validación cruzada frente a Bayes empírico para estimar hiperparámetros

20

Dado un modelo jerárquico , quiero un proceso de dos etapas que se ajuste al modelo. Primero, arregle un puñado de hiperparámetros , y luego haga inferencia bayesiana en el resto de los parámetros . Para arreglar los hiperparámetros, estoy considerando dos opciones.θ ϕp(x|ϕ,θ)θϕ

  1. Utilice Empirical Bayes (EB) y maximice la probabilidad marginal (integrando el resto del modelo que contiene parámetros dimensionales altos).p(all data|θ)
  2. Utilice técnicas de validación cruzada (CV) como la validación cruzada de plegado para elegir que maximice la probabilidad .θ p ( datos de prueba | datos de entrenamiento , θ )kθp(test data|training data,θ)

La ventaja de EB es que puedo usar todos los datos a la vez, mientras que para CV necesito calcular (potencialmente) la probabilidad del modelo varias veces y buscar . El rendimiento de EB y CV es comparable en muchos casos (*) y, a menudo, EB es más rápido de estimar.θ

Pregunta: ¿Existe una base teórica que vincule los dos (por ejemplo, EB y CV son iguales en el límite de datos grandes)? ¿O vincula EB a algún criterio de generalización como el riesgo empírico? ¿Alguien puede señalar un buen material de referencia?


(*) Como ilustración, aquí hay una figura del Aprendizaje automático de Murphy , Sección 7.6.4, donde dice que para la regresión de cresta ambos procedimientos arrojan resultados muy similares:

murphy - bayes empíricos vs CV

Murphy también dice que la principal ventaja práctica del Bayes empírico (lo llama "procedimiento de evidencia") sobre CV es cuando consta de muchos hiperparámetros (por ejemplo, penalización separada para cada característica, como en la determinación automática de relevancia o ARD). Allí no es posible usar CV en absoluto.θ

Memming
fuente
θ
@NeilG maximiza la suma de la probabilidad de datos predictivos marginales logarítmicos en conjuntos de validación cruzada (k está integrado).
Memming
1
k
2
Gran pregunta Me tomé la libertad de agregar una figura del libro de texto de Murphy a su pregunta para ilustrar su punto sobre dos procedimientos que a menudo son comparables. Espero que no te importe esta adición.
ameba dice Reinstate Monica

Respuestas:

16

Dudo que haya un vínculo teórico que diga que el CV y ​​la maximización de la evidencia son asintóticamente equivalentes ya que la evidencia nos dice la probabilidad de los datos dados los supuestos del modelo . Por lo tanto, si el modelo está mal especificado, entonces la evidencia puede no ser confiable. La validación cruzada, por otro lado, proporciona una estimación de la probabilidad de los datos, ya sea que los supuestos de modelado sean correctos o no. Esto significa que la evidencia puede ser una mejor guía si los supuestos de modelado son correctos utilizando menos datos, pero la validación cruzada será robusta contra la especificación errónea del modelo. El CV es asintóticamente imparcial, pero supongo que la evidencia no lo es, a menos que los supuestos del modelo sean exactamente correctos.

Esta es esencialmente mi intuición / experiencia; También me interesaría saber acerca de la investigación sobre esto.

Tenga en cuenta que para muchos modelos (p. Ej., Regresión de cresta, procesos gaussianos, regresión de cresta del núcleo / LS-SVM, etc.), la validación cruzada de dejar uno se puede realizar al menos tan eficientemente como estimar la evidencia, por lo que no necesariamente hay un cálculo ventaja allí.

Anexo: Tanto la probabilidad marginal como las estimaciones de rendimiento de validación cruzada se evalúan sobre una muestra finita de datos y, por lo tanto, siempre existe la posibilidad de un ajuste excesivo si un modelo se ajusta optimizando cualquiera de los criterios. Para muestras pequeñas, la diferencia en la varianza de los dos criterios puede decidir cuál funciona mejor. Ver mi papel

Gavin C. Cawley, Nicola LC Talbot, "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento", Journal of Machine Learning Research, 11 (julio): 2079-2107, 2010. ( pdf )

Dikran Marsupial
fuente
¿Por qué dice que el CV es robusto contra un modelo mal especificado? En su caso, no existe tal protección ya que la validación cruzada está buscando en el mismo espacio en el que EB está calculando una probabilidad. Si sus supuestos de modelado son incorrectos, la validación cruzada no lo salvará.
Neil G
1
ϕϕθ
ps He estado realizando un análisis para evitar el sobreajuste en redes neuronales con regularización bayesiana donde los parámetros de regularización se ajustan a través de la maximización de probabilidad marginal. Hay situaciones en las que esto funciona muy mal (peor que no tener ninguna regularización). Esto parece ser un problema de especificación errónea del modelo.
Dikran Marsupial
Puede obtener el mismo "indicador de rendimiento de generalización" comprobando la probabilidad logarítmica total de los datos dada la distribución estimada devuelta por EB (que será igual a la entropía de esa distribución). No hay forma de vencerlo en este caso porque es la solución analítica a este problema. No veo por qué la validación cruzada tendría sentido cuando se puede calcular una probabilidad de EB.
Neil G
2
@probabilityislogic, no estoy muy seguro de a qué te estás enfrentando (¡un problema indudablemente a mi fin!; o). Sin embargo, puedo decirle por experiencia práctica que el problema es muy real. He estado trabajando en problemas en la selección de modelos durante varios años, y me he encontrado con muchos problemas en los que maximizar la probabilidad marginal resulta ser una muy mala idea. La validación cruzada funciona igual de bien para la mayoría de los conjuntos de datos, pero donde funciona mal rara vez funciona de manera catastrófica como a veces la maximización de evidencia.
Dikran Marsupial