Digamos que tengo dos métodos de aprendizaje para un problema de clasificación , y , y que calculo su rendimiento de generalización con algo como validación cruzada repetida o bootstrapping. De este proceso obtengo una distribución de puntajes y para cada método a través de estas repeticiones (por ejemplo, la distribución de valores ROC AUC para cada modelo).B P B
Mirando estas distribuciones, podría ser que pero que (es decir, el rendimiento de generalización esperado de es mayor que , pero que hay más incertidumbre sobre esta estimación).σ A ≥ σ B A B
Creo que esto se llama el dilema sesgo-varianza en la regresión.
¿Qué métodos matemáticos puedo usar para comparar y y eventualmente tomar una decisión informada sobre qué modelo usar?P B
Nota: En aras de la simplicidad, me refiero a dos métodos y aquí, pero estoy interesado en los métodos que se pueden utilizar para comparar la distribución de puntajes de ~ 1000 métodos de aprendizaje (por ejemplo, de una búsqueda de cuadrícula) y eventualmente hacer una decisión final sobre qué modelo usar.B
fuente
Respuestas:
Si solo hay dos métodos, A y B, calcularía la probabilidad de que, para una partición arbitraria de entrenamiento / prueba, el error (según alguna métrica de rendimiento adecuada) para el modelo A fuera menor que el error para el modelo B. Si esta probabilidad eran mayores que 0.5, elegiría el modelo A y, de lo contrario, el modelo B (cf. ¿Prueba U de Mann-Whitney?) Sin embargo, sospecho firmemente que terminará eligiendo el modelo con la media más baja a menos que las distribuciones de la estadística de rendimiento sean muy diferentes -simétrico.
Por otro lado, para la búsqueda de cuadrícula, la situación es un poco diferente, ya que en realidad no está comparando diferentes métodos, sino que ajusta los (hiper) parámetros del mismo modelo para que se ajusten a una muestra finita de datos (en este caso indirectamente a través de la cruz -validación). He descubierto que este tipo de ajuste puede ser muy propenso al sobreajuste, vea mi artículo
Gavin C. Cawley, Nicola LC Talbot, "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento", Journal of Machine Learning Research, 11 (julio): 2079-2107, 2010. ( www )
Tengo un artículo en revisión que muestra que probablemente sea mejor usar una cuadrícula relativamente gruesa para máquinas kernel (por ejemplo, SVM) para evitar un ajuste excesivo del criterio de selección del modelo. Otro enfoque (que no he investigado, ¡así que advertencia lector!) Sería elegir el modelo con el error más alto que no sea estadísticamente inferior al mejor modelo encontrado en la búsqueda de cuadrícula (aunque puede ser un enfoque bastante pesimista, especialmente para pequeños conjuntos de datos).
Sin embargo, la solución real probablemente no sea optimizar los parámetros mediante la búsqueda de cuadrícula, sino promediar los valores de los parámetros, ya sea en un enfoque bayesiano o simplemente como un método de conjunto. Si no optimizas, ¡es más difícil ajustar demasiado!
fuente
"average over the parameter values"
Creo que entiendo cómo hacer esto a través de un método de conjunto (por ejemplo, construir la salida del conjunto como el promedio de las salidas del clasificador), pero no estoy seguro de cómo hacerlo con un enfoque bayesiano cuando se trabaja con un modelo discriminatorio. Entiendo la teoría de un enfoque completamente bayesiano (es decir, evitar estimaciones puntuales y marginar los parámetros para construir el posterior final), pero, suponiendo que mi previo en los parámetros sea uniforme, ¿no sería esto equivalente a construir el conjunto de promedios? ?