Dado un modelo jerárquico , quiero un proceso de dos etapas que se ajuste al modelo. Primero, arregle un puñado de hiperparámetros , y luego haga inferencia bayesiana en el resto de los parámetros . Para arreglar los hiperparámetros, estoy considerando dos opciones.θ ϕ
- Utilice Empirical Bayes (EB) y maximice la probabilidad marginal (integrando el resto del modelo que contiene parámetros dimensionales altos).
- Utilice técnicas de validación cruzada (CV) como la validación cruzada de plegado para elegir que maximice la probabilidad .θ p ( datos de prueba | datos de entrenamiento , θ )
La ventaja de EB es que puedo usar todos los datos a la vez, mientras que para CV necesito calcular (potencialmente) la probabilidad del modelo varias veces y buscar . El rendimiento de EB y CV es comparable en muchos casos (*) y, a menudo, EB es más rápido de estimar.
Pregunta: ¿Existe una base teórica que vincule los dos (por ejemplo, EB y CV son iguales en el límite de datos grandes)? ¿O vincula EB a algún criterio de generalización como el riesgo empírico? ¿Alguien puede señalar un buen material de referencia?
(*) Como ilustración, aquí hay una figura del Aprendizaje automático de Murphy , Sección 7.6.4, donde dice que para la regresión de cresta ambos procedimientos arrojan resultados muy similares:
Murphy también dice que la principal ventaja práctica del Bayes empírico (lo llama "procedimiento de evidencia") sobre CV es cuando consta de muchos hiperparámetros (por ejemplo, penalización separada para cada característica, como en la determinación automática de relevancia o ARD). Allí no es posible usar CV en absoluto.
Respuestas:
Dudo que haya un vínculo teórico que diga que el CV y la maximización de la evidencia son asintóticamente equivalentes ya que la evidencia nos dice la probabilidad de los datos dados los supuestos del modelo . Por lo tanto, si el modelo está mal especificado, entonces la evidencia puede no ser confiable. La validación cruzada, por otro lado, proporciona una estimación de la probabilidad de los datos, ya sea que los supuestos de modelado sean correctos o no. Esto significa que la evidencia puede ser una mejor guía si los supuestos de modelado son correctos utilizando menos datos, pero la validación cruzada será robusta contra la especificación errónea del modelo. El CV es asintóticamente imparcial, pero supongo que la evidencia no lo es, a menos que los supuestos del modelo sean exactamente correctos.
Esta es esencialmente mi intuición / experiencia; También me interesaría saber acerca de la investigación sobre esto.
Tenga en cuenta que para muchos modelos (p. Ej., Regresión de cresta, procesos gaussianos, regresión de cresta del núcleo / LS-SVM, etc.), la validación cruzada de dejar uno se puede realizar al menos tan eficientemente como estimar la evidencia, por lo que no necesariamente hay un cálculo ventaja allí.
Anexo: Tanto la probabilidad marginal como las estimaciones de rendimiento de validación cruzada se evalúan sobre una muestra finita de datos y, por lo tanto, siempre existe la posibilidad de un ajuste excesivo si un modelo se ajusta optimizando cualquiera de los criterios. Para muestras pequeñas, la diferencia en la varianza de los dos criterios puede decidir cuál funciona mejor. Ver mi papel
Gavin C. Cawley, Nicola LC Talbot, "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento", Journal of Machine Learning Research, 11 (julio): 2079-2107, 2010. ( pdf )
fuente
fuente