TLDR:
Mi conjunto de datos es bastante pequeño (120) muestras. Mientras realizo la validación cruzada 10 veces, ¿debería:
¿Recolecta las salidas de cada pliegue de prueba, las concatena en un vector y luego calcula el error en este vector completo de predicciones (120 muestras)?
O debería lugar calcular el error en las salidas que recibo en cada pliegue (con 12 muestras por veces) y, a continuación, obtener mi estimación de error final como el promedio de las estimaciones de error de plegado 10?
¿Hay algún artículo científico que defienda las diferencias entre estas técnicas?
Antecedentes: relación potencial con las puntuaciones macro / micro en la clasificación de etiquetas múltiples:
Creo que esta pregunta puede estar relacionada con la diferencia entre los promedios micro y macro que a menudo se usan en una tarea de clasificación de etiquetas múltiples (por ejemplo, 5 etiquetas).
En la configuración de múltiples etiquetas, los puntajes de micro promedio se calculan haciendo una tabla de contingencia agregada de verdadero positivo, falso positivo, verdadero negativo, falso negativo para las 5 predicciones de clasificador en 120 muestras. Esta tabla de contingencia luego se usa para calcular la micro precisión, el micro recuerdo y la micro medida f. Entonces, cuando tenemos 120 muestras y cinco clasificadores, las micro medidas se calculan en 600 predicciones (120 muestras * 5 etiquetas).
Cuando se utiliza la variante Macro , se calculan las medidas (precisión, recuperación, etc.) de forma independiente en cada etiqueta y, finalmente, se promedian estas medidas.
La idea detrás de la diferencia entre las estimaciones de micro vs macro puede extenderse a lo que se puede hacer en una configuración de pliegue en K en un problema de clasificación binaria. Para 10 veces, podemos promediar más de 10 valores ( medida macro ) o concatenar los 10 experimentos y calcular las micro medidas.
Antecedentes: ejemplo ampliado:
El siguiente ejemplo ilustra la pregunta. Digamos que tenemos 12 muestras de prueba y tenemos 10 pliegues:
- Pliegue 1 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
- Pliegue 2 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
- Pliegue 3 : TP = 4, FP = 0, TN = 8 Precisión = 1.0
- Pliegue 4 : TP = 0, FP = 12, Precisión = 0
- Pliegue 5 .. Pliegue 10 : Todos tienen el mismo TP = 0, FP = 12 y Precisión = 0
donde usé la siguiente notación:
TP = # de verdaderos positivos, FP = # falso positivo, TN = # de verdaderos negativos
Los resultados son:
- Precisión promedio en 10 pliegues = 3/10 = 0.3
- Precisión en la concatenación de las predicciones de los 10 pliegues = TP / TP + FP = 12/12 + 84 = 0.125
¡Tenga en cuenta que los valores 0.3 y 0.125 son muy diferentes !
fuente
Respuestas:
La diferencia descrita es falsa en mi humilde opinión.
Lo observará solo si la distribución de casos verdaderamente positivos (es decir, el método de referencia dice que es un caso positivo) es muy desigual en los pliegues (como en el ejemplo) y el número de casos de prueba relevantes (el denominador de la medida de rendimiento de lo que estamos hablando, aquí lo verdaderamente positivo) no se tiene en cuenta al promediar los promedios de pliegue.
editar: la pregunta original también preguntó sobre iterar / repetir la validación:
Estabas pidiendo artículos científicos :
preprint
Subestimación de la varianza En última instancia, su conjunto de datos tiene un tamaño de muestra finito (n = 120), independientemente de cuántas iteraciones de bootstrap o validación cruzada realice.
Tiene (al menos) 2 fuentes de variación en los resultados de validación de remuestreo (validación cruzada y fuera de arranque):
Si sus modelos son estables, entonces
fuente
Debes hacer score (concatenación). Es un error común en el campo que la media (puntajes) es la mejor manera. Puede introducir más sesgos en su estimación, especialmente en clases raras, como en su caso. Aquí hay un documento que respalda esto:
http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf
En el documento, usan "Favg" en lugar de su "media (puntajes)" y "Ftp, fp" en lugar de su "puntaje (concatenación)"
Ejemplo de juguete:
Imagine que tiene una validación cruzada de 10 veces y una clase que aparece 10 veces, y está asignada para que aparezca una vez en cada doblez. Además, la clase siempre se predice correctamente, pero hay un solo falso positivo en los datos. El pliegue de prueba que contiene el falso positivo tendrá un 50% de precisión, mientras que todos los demás pliegues tendrán un 100%. Entonces, promedio (puntajes) = 95%. Por otro lado, el puntaje (concatenación) es 10/11, aproximadamente el 91%.
Si suponemos que la población real está bien representada por los datos, y que los 10 clasificadores de validación cruzada representan bien el clasificador final, entonces la precisión del mundo real sería del 91%, y la estimación promedio (puntajes) del 95% está sesgada .
En la práctica, no querrá hacer esas suposiciones. En cambio, puede usar estadísticas de distribución para estimar la confianza, permutando aleatoriamente los datos y volviendo a calcular la puntuación (concatenación) varias veces, así como el arranque.
fuente