Cuando utilizo k-fold CV para seleccionar entre los modelos de regresión, generalmente calculo el error CV por separado para cada modelo, junto con su error estándar SE, y selecciono el modelo más simple dentro de 1 SE del modelo con el error CV más bajo (el 1 regla de error estándar, ver por ejemplo aquí ). Sin embargo, recientemente me han dicho que de esta manera estoy sobreestimando la variabilidad, y que en el caso específico de seleccionar entre dos modelos A y B, realmente debería proceder de una manera diferente:
- para cada pliegue de longitud N K , calcule las diferencias puntuales entre las predicciones de los dos modelos. Luego calcule la diferencia cuadrática media para el pliegue M S D K = √
- promedio través de pliegues como de costumbre, y use este error de diferencia CV (junto con su error estándar) como estimador del error de generalización.
Preguntas:
- ¿Tiene sentido esto para ti? Sé que hay razones teóricas detrás del uso del error CV como estimador del error de generalización (no sé cuáles son estas razones, ¡pero sé que existen!). No tengo idea si hay razones teóricas detrás del uso de este error CV de "diferencia".
- No sé si esto se puede generalizar a las comparaciones de más de dos modelos. Calcular las diferencias para todos los pares de modelos parece arriesgado (¿comparaciones múltiples?): ¿Qué haría si tuviera más de dos modelos?
EDITAR: mi fórmula está totalmente equivocada, la métrica correcta se describe aquí y es mucho más complicada. Bueno, ¡estoy feliz de haber preguntado aquí antes de aplicar la fórmula a ciegas! Agradezco a @Bay por ayudarme a entender con su respuesta iluminadora. La medida correcta descrita es bastante experimental, por lo que me atendré a mi caballo de trabajo de confianza, ¡el error CV!