Cuando trato de seleccionar entre varios modelos o la cantidad de características a incluir, digamos predicción, puedo pensar en dos enfoques.
- Divida los datos en conjuntos de entrenamiento y prueba. Mejor aún, use bootstrapping o k-fold cross-validation. Entrene en el conjunto de entrenamiento cada vez y calcule el error sobre el conjunto de prueba. Trazar error de prueba vs. número de parámetros. Por lo general, obtienes algo como esto:
- Calcule la probabilidad del modelo integrando los valores de los parámetros. es decir, calcule , y grafique esto en función del número de parámetros. Entonces obtenemos algo como esto:
Entonces mis preguntas son:
- ¿Son adecuados estos enfoques para resolver este problema (decidir cuántos parámetros incluir en su modelo o seleccionar entre varios modelos)?
- ¿Son equivalentes? Probablemente no. ¿Darán el mismo modelo óptimo bajo ciertos supuestos o en la práctica?
- Además de la diferencia filosófica habitual de especificar el conocimiento previo en modelos bayesianos, etc., ¿cuáles son los pros y los contras de cada enfoque? ¿Cuál elegirías?
Actualización: También encontré la pregunta relacionada sobre la comparación de AIC y BIC. Parece que mi método 1 es asintóticamente equivalente a AIC y el método 2 está asintóticamente relacionado con BIC. Pero también leí allí que BIC es equivalente a Leave-One-Out CV. Eso significaría que el mínimo de error de entrenamiento y el máximo de probabilidad bayesiana son equivalentes cuando LOO CV es equivalente a K-fold CV. Un artículo quizás muy interesante " Una teoría asintótica para la selección del modelo lineal " de Jun Shao se relaciona con estos temas.
bayesian
model-selection
cross-validation
feature-selection
highBandWidth
fuente
fuente
Respuestas:
Cualquiera de los dos podría ser, sí. Si está interesado en obtener un modelo que prediga mejor, fuera de la lista de modelos que considera, el enfoque de división / validación cruzada puede hacerlo bien. Si está interesado en saber cuál de los modelos (en su lista de modelos putativos) es realmente el que genera sus datos, entonces el segundo enfoque (evaluar la probabilidad posterior de los modelos) es lo que desea.
No, no son en general equivalentes. Por ejemplo, el uso de AIC (Un criterio de información, por Akaike) para elegir el 'mejor' modelo corresponde a la validación cruzada, aproximadamente. El uso de BIC (criterio de información bayesiano) corresponde al uso de las probabilidades posteriores, nuevamente aproximadamente. Estos no son el mismo criterio, por lo que uno debería esperar que conduzcan a diferentes opciones, en general. Se pueden dar las mismas respuestas - cada vez que el modelo que predice mejor también pasa a ser la verdad - pero en muchas situaciones el modelo que mejor se adapte es en realidad uno que overfits, que conduce a un desacuerdo entre los enfoques.
¿Están de acuerdo en la práctica? Depende de lo que implique su 'práctica'. Pruébalo en ambos sentidos y descúbrelo.
fuente
¡La optimización es la raíz de todo mal en las estadísticas! ; o)
Cada vez que intente seleccionar un modelo basado en un criterio que se evalúa en una muestra finita de datos, presentará el riesgo de sobreajustar el criterio de selección del modelo y terminará con un modelo peor de lo que comenzó. Tanto la validación cruzada como la probabilidad marginal son criterios de selección de modelo razonables, pero ambos dependen de una muestra finita de datos (como lo son AIC y BIC; la penalidad de complejidad puede ayudar, pero no resuelve este problema). He encontrado que esto es un problema sustancial en el aprendizaje automático, vea
Desde el punto de vista bayesiano, es mejor integrar todas las opciones y parámetros del modelo. Si no optimizas o eliges nada, entonces es más difícil ajustar demasiado. La desventaja es que terminas con integrales difíciles, que a menudo deben resolverse con MCMC. Si desea el mejor rendimiento predictivo, sugeriría un enfoque totalmente bayesiano; Si desea comprender los datos, a menudo es útil elegir el mejor modelo. Sin embargo, si vuelve a muestrear los datos y termina con un modelo diferente cada vez, significa que el procedimiento de ajuste es inestable y ninguno de los modelos es confiable para comprender los datos.
Tenga en cuenta que una diferencia importante entre la validación cruzada y la evidencia es que el valor de la probabilidad marginal supone que el modelo no está mal especificado (esencialmente la forma básica del modelo es apropiada) y puede dar resultados engañosos si lo es. La validación cruzada no hace tal suposición, lo que significa que puede ser un poco más robusta.
fuente