¿Cuál es el método de muestreo más apropiado para evaluar el rendimiento de un clasificador en un conjunto de datos en particular y compararlo con otros clasificadores? La validación cruzada parece ser una práctica estándar, pero he leído que métodos como .632 bootstrap son una mejor opción.
Como seguimiento: ¿La elección de la métrica de rendimiento afecta la respuesta (si uso AUC en lugar de precisión)?
Mi objetivo final es poder decir con cierta confianza que un método de aprendizaje automático es superior a otro para un conjunto de datos en particular.
Respuestas:
Una diferencia importante en la forma habitual en que se aplican los métodos de validación cruzada y fuera de bootstrap es que la mayoría de las personas aplica la validación cruzada solo una vez (es decir, cada caso se prueba exactamente una vez), mientras que la validación fuera de bootstrap se realiza con un gran número de repeticiones / iteraciones. En esa situación, la validación cruzada está sujeta a una mayor variación debido a la inestabilidad del modelo. Sin embargo, eso puede evitarse mediante, por ejemplo, la validación cruzada repetida / repetida de pliegues. Si se hace eso, al menos para los conjuntos de datos espectroscópicos con los que he estado trabajando, el error total de ambos esquemas de remuestreo parece ser el mismo en la práctica.k
Se desaconseja la validación cruzada de dejar uno fuera, ya que no hay posibilidad de reducir la varianza del tipo de inestabilidad del modelo y hay algunos clasificadores y problemas en los que exhibe un sesgo pesimista enorme.
.632 bootstrap hace un trabajo razonable siempre que el error de remuestreo que se mezcla no esté sesgado de manera demasiado optimista. (Por ejemplo, para los datos con los que trabajo, matrices muy anchas con muchas variantes, no funciona muy bien ya que los modelos son propensos a un sobreajuste grave). Esto significa también que evitaría usar .632 bootstrap para comparar modelos de complejidad variable. Con .632+ bootstrap no tengo experiencia: si se produce un sobreajuste y se detecta correctamente, será igual a la estimación original fuera de bootstrap, por lo que me quedo con la validación cruzada iterativa / repetida para mis datos.
Literatura:
(Un clásico )
Dougherty y Braga-Neto tienen varias publicaciones sobre el tema , por ej.
Dougherty, ER et al. : Rendimiento de los estimadores de error para la clasificación de la bioinformática actual, 2010, 5, 53-67
Beleites, C. et al. : Reducción de la variación en la estimación del error de clasificación usando conjuntos de datos dispersos Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Tenemos una comparación de hacer validación cruzada solo una vez o iterar / repetir, y comparar eso con fuera de arranque y .632 bootstrap también para datos particularmente amplios con multicolinealidades.
Kim, J.-H .: Estimación de la tasa de error de clasificación: validación cruzada repetida, retención y arranque repetidos, Análisis de datos y estadísticas computacionales, 2009, 53, 3735 - 374k
También encuentra que la validación cruzada repetida repetida y fuera de arranque tienen un rendimiento similar (en lugar de hacer la validación cruzada solo una vez).
Elección de métrica:
la precisión (de la cual @FrankHarrell le dirá que es una mala elección ya que no es una regla de puntuación adecuada ) está sujeta a una gran variación porque cuenta cada caso como completamente correcto o completamente incorrecto, incluso si el clasificador predijo, por ejemplo, solo 60 % de probabilidad posterior de que el caso de prueba pertenezca a la clase en cuestión. Una regla de puntuación adecuada es, por ejemplo, la puntuación de Brier, que está estrechamente relacionada con el error cuadrático medio en la regresión.
Analoga de error cuadrático medio está disponible para proporciones como precisión, sensibilidad, especificidad, valores predictivos: Beleites, C. et al. : Validación de modelos de clasificación blanda utilizando membresías de clase parcial: un concepto extendido de sensibilidad & Co. aplicado a la clasificación de tejidos de astrocitoma, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (página de resumen que también proporciona un enlace a la preimpresión)
Use una prueba emparejada para evaluar eso. Para comparar proporciones, eche un vistazo a la prueba de McNemar.
La respuesta a esto se verá afectada por la elección de la métrica. Como las medidas de error de tipo regresión no tienen el paso de "endurecimiento" de cortar las decisiones con un umbral, a menudo tienen menos variación que sus contrapartes de clasificación. Las métricas como la precisión que son básicamente proporciones necesitarán un gran número de casos de prueba para establecer la superioridad de un clasificador sobre otro.
Fleiss: "Métodos estadísticos para tasas y proporciones" da ejemplos (y tablas) para la comparación no proporcional de proporciones. Para darle una idea de lo que quiero decir con "tamaños de muestra enormes", eche un vistazo a la imagen en mi respuesta a esta otra pregunta . Las pruebas pareadas como las de McNemar necesitan menos casos de prueba, pero el IIRC aún se encuentra en la mejor mitad del caso (?) Del tamaño de muestra necesario para la prueba no pareada.
Para caracterizar el rendimiento de un clasificador (endurecido), generalmente necesita una curva de trabajo de al menos dos valores, como ROC (sensibilidad frente a especificidad) o similares.
Raramente uso la precisión general o AUC, ya que mis aplicaciones generalmente tienen restricciones, por ejemplo, que la sensibilidad es más importante que la especificidad, o que se deben cumplir ciertos límites en estas medidas. Si opta por las características de suma de "número único", asegúrese de que el punto de trabajo de los modelos que está mirando esté realmente en un rango razonable.
Para obtener precisión y otras medidas de rendimiento que resumen el rendimiento de varias clases según las etiquetas de referencia, asegúrese de tener en cuenta la frecuencia relativa de las clases que encontrará en la aplicación, que no es necesariamente la misma que en su datos de entrenamiento o prueba.
Provost, F. et al. : El caso contra la estimación de precisión para comparar algoritmos de inducción en las actas de la decimoquinta conferencia internacional sobre aprendizaje automático, 1998
editar: comparar múltiples clasificadores
He estado pensando en este problema por un tiempo, pero aún no llegué a una solución (ni conocí a nadie que tuviera una solución).
Esto es lo que tengo hasta ahora:
El problema es que te encuentras rápidamente en una situación de comparación múltiple masiva.
Sin embargo, puede decir que para las aplicaciones que tengo a mano, las comparaciones múltiples realmente no empeoran las cosas, porque rara vez tengo suficientes casos de prueba para permitir incluso una sola comparación ...
Creo que el ajuste de los hiperparámetros del modelo es una versión especializada del problema general de comparación de modelos, que puede ser más fácil de abordar desde el principio. Sin embargo, hay rumores de que la calidad de los modelos depende mucho de la experiencia de quien los construye, posiblemente incluso más que de la elección del tipo de modelo.
Por el momento, decidí que "la optimización es la raíz de todo mal", y tomé un enfoque muy diferente:
decido tanto como sea posible por el conocimiento experto sobre el problema en cuestión. En realidad, eso permite reducir un poco las cosas, por lo que a menudo puedo evitar la comparación de modelos. Cuando tengo que comparar modelos, trato de ser muy abierto y claro para recordarle a la gente sobre la incertidumbre de la estimación del rendimiento y que la comparación de modelos múltiples en particular es AFAIK todavía un problema sin resolver.
Edición 2: pruebas emparejadas
fuente
Necesita modificaciones en el bootstrap (.632, .632+) solo porque la investigación original utilizó una regla discontinua de puntaje inadecuada (proporción clasificada correctamente). Para otros puntajes de precisión, el bootstrap de optimismo ordinario tiende a funcionar bien. Para obtener más información, consulte http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_T
Las reglas de puntuación inadecuadas lo engañan en la elección de las características y sus pesos. En otras palabras, todo lo que puede salir mal saldrá mal.
fuente
De 'Modelado predictivo aplicado., Khun. Johnson . p.78
"Ningún método de remuestreo es uniformemente mejor que otro; la elección debe hacerse teniendo en cuenta varios factores. Si el tamaño de la muestra es pequeño, recomendamos utilizar la validación cruzada repetida 10 veces por varias razones; las propiedades de sesgo y varianza son buenas, y dado el tamaño de la muestra, los costos computacionales no son grandes. Si el objetivo es elegir entre modelos, en lugar de obtener el mejor indicador de rendimiento, se puede hacer un caso sólido para usar uno de los procedimientos de arranque ya que estos tienen una variación muy baja. Para tamaños de muestra grandes, las diferencias entre los métodos de remuestreo se vuelven menos pronunciadas y la eficiencia computacional aumenta el rendimiento ". pags. 78
Además, dada la elección de dos resultados similares, generalmente se prefiere el modelo más interpretable. Como ejemplo (del mismo texto), usando 10 veces el CV, un clasificador SVM tenía una estimación de precisión del 75% con resultados de remuestreo entre 66 y 82%. Se utilizaron los mismos parámetros en un clasificador de regresión logística con una precisión del 74,9% y el mismo rango de muestreo. Se podría preferir el modelo de regresión logística más simple, ya que es más fácil interpretar los resultados.
fuente