Estoy trabajando en un problema de clasificación que calcula una métrica de similitud entre dos imágenes de rayos X de entrada. Si las imágenes son de la misma persona (etiqueta de "derecho"), se calculará una métrica más alta; las imágenes de entrada de dos personas diferentes (etiqueta de "incorrecto") darán como resultado una métrica más baja.
Utilicé una validación cruzada estratificada de 10 veces para calcular la probabilidad de clasificación errónea. Mi tamaño de muestra actual es de alrededor de 40 coincidencias correctas y 80 coincidencias incorrectas, donde cada punto de datos es la métrica calculada. Tengo una probabilidad de clasificación errónea de 0.00, pero necesito algún tipo de intervalo de confianza / análisis de error al respecto.
Estaba buscando usar un intervalo de confianza de proporción binomial (donde usaría los resultados de la validación cruzada como un etiquetado correcto o un etiquetado incorrecto para mi número de éxitos). Sin embargo, uno de los supuestos detrás del análisis binomial es la misma probabilidad de éxito para cada ensayo, y no estoy seguro de si se puede considerar que el método detrás de la clasificación de "correcto" o "incorrecto" en la validación cruzada La misma probabilidad de éxito.
El único otro análisis que se me ocurre es repetir la validación cruzada X veces y calcular la media / desviación estándar del error de clasificación, pero no estoy seguro de si esto es apropiado, ya que estaría reutilizando los datos de mi tamaño de muestra relativamente pequeño varias veces.
¿Alguna idea? Estoy usando MATLAB para todos mis análisis, y tengo la caja de herramientas Estadísticas. Agradecería cualquier y toda la ayuda!
Respuestas:
Influencia de la inestabilidad en las predicciones de diferentes modelos sustitutos
Bueno, generalmente esa equivalencia es una suposición que también es necesaria para permitirle agrupar los resultados de los diferentes modelos sustitutos.
En la práctica, su intuición de que esta suposición puede ser violada es a menudo cierta. Pero puedes medir si este es el caso. Ahí es donde encuentro útil la validación cruzada iterativa: la estabilidad de las predicciones para el mismo caso por diferentes modelos sustitutos le permite juzgar si los modelos son equivalentes (predicciones estables) o no.
También puede calcular el rendimiento para cada iteración (bloque de 3 filas en el dibujo). Cualquier variación entre estos significa que no se cumple el supuesto de que los modelos sustitutos son equivalentes (entre sí y, además, con el "gran modelo" construido en todos los casos). Pero esto también te dice cuánta inestabilidad tienes. Para la proporción binomial, creo que siempre que el rendimiento real sea el mismo (es decir, independiente de si siempre se predicen erróneamente los mismos casos o si se predice erróneamente el mismo número pero diferentes casos). No sé si uno podría asumir sensatamente una distribución particular para el rendimiento de los modelos sustitutos. Pero creo que, en cualquier caso, es una ventaja sobre los informes comunes de errores de clasificación si informas de esa inestabilidad.k k
El dibujo es una versión más nueva de la fig. 5 en este documento: Beleites, C. y Salzer, R .: Evaluación y mejora de la estabilidad de modelos quimiométricos en situaciones de pequeño tamaño de muestra, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Tenga en cuenta que cuando escribimos el documento aún no me había dado cuenta de las diferentes fuentes de variación que expliqué aquí, tenga esto en cuenta. Por lo tanto, creo que la argumentaciónpara una estimación efectiva del tamaño de la muestra dado que no es correcto, a pesar de que la conclusión de la aplicación de que diferentes tipos de tejido dentro de cada paciente contribuyen con tanta información general como un nuevo paciente con un tipo de tejido dado probablemente todavía sea válida (tengo un tipo totalmente diferente de evidencia que también apunta de esa manera). Sin embargo, todavía no estoy completamente seguro de esto (ni de cómo hacerlo mejor y así poder verificar), y este problema no está relacionado con su pregunta.
¿Qué rendimiento usar para el intervalo de confianza binomial?
Hasta ahora, he estado usando el rendimiento promedio observado. También podría usar el peor rendimiento observado: cuanto más cercano sea el rendimiento observado a 0.5, mayor será la varianza y, por lo tanto, el intervalo de confianza. Por lo tanto, los intervalos de confianza del rendimiento observado más cercano a 0.5 le dan un "margen de seguridad" conservador.
Tenga en cuenta que algunos métodos para calcular los intervalos de confianza binomiales también funcionan si el número observado de éxitos no es un número entero. Utilizo la "integración de la probabilidad posterior bayesiana" como se describe en
Ross, TD: Intervalos de confianza precisos para la proporción binomial y la estimación de la tasa de Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(No lo sé para Matlab, pero en R puedes usar
binom::binom.bayes
ambos parámetros de forma establecidos en 1).Ver también: Bengio, Y. y Grandvalet, Y .: No hay un estimador imparcial de la varianza de la validación cruzada del pliegue en K, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Pensar más en estas cosas está en mi lista de tareas de investigación ..., pero como vengo de la ciencia experimental, me gusta complementar las conclusiones teóricas y de simulación con datos experimentales, lo cual es difícil aquí, ya que necesitaría un gran conjunto de casos independientes para pruebas de referencia)
Actualización: ¿está justificado asumir una distribución biomial?
fuente
Creo que su idea de repetir la validación cruzada muchas veces es correcta.
Repita su CV, digamos 1000 veces, cada vez dividiendo sus datos en 10 partes (para CV 10 veces) de una manera diferente ( no mezcle las etiquetas). Obtendrá 1000 estimaciones de la precisión de la clasificación. Por supuesto, reutilizará los mismos datos, por lo que estas 1000 estimaciones no serán independientes. Pero esto es similar al procedimiento bootstrap: puede tomar la desviación estándar sobre estas precisiones como el error estándar de la media de su estimador de precisión general. O un intervalo de percentil del 95% como el intervalo de confianza del 95%.
Alternativamente, puede combinar el bucle de validación cruzada y el bucle bootstrap, y simplemente seleccionar al azar (quizás al azar estratificado) el 10% de sus datos como un conjunto de prueba, y hacerlo 1000 veces. El mismo razonamiento que el anterior se aplica aquí también. Sin embargo, esto dará como resultado una mayor variación sobre las repeticiones, por lo que creo que el procedimiento anterior es mejor.
Si su tasa de clasificación errónea es 0.00, su clasificador comete cero errores y si esto sucede en cada iteración de arranque, obtendrá un intervalo de confianza amplio de cero. Pero esto simplemente significaría que su clasificador es bastante perfecto, muy bueno para usted.
fuente
El error de clasificación es tanto discontinuo como una regla de puntuación incorrecta. Tiene baja precisión, y la optimización selecciona las características incorrectas y les da los pesos incorrectos.
fuente