Selección de modelo original (?) Con CV plegable

9

Cuando utilizo k-fold CV para seleccionar entre los modelos de regresión, generalmente calculo el error CV por separado para cada modelo, junto con su error estándar SE, y selecciono el modelo más simple dentro de 1 SE del modelo con el error CV más bajo (el 1 regla de error estándar, ver por ejemplo aquí ). Sin embargo, recientemente me han dicho que de esta manera estoy sobreestimando la variabilidad, y que en el caso específico de seleccionar entre dos modelos A y B, realmente debería proceder de una manera diferente:

  • para cada pliegue de longitud N K , calcule las diferencias puntuales entre las predicciones de los dos modelos. Luego calcule la diferencia cuadrática media para el pliegue M S D K = KNK
    MSDK=i=1NK(y^Aiy^Bi)2NK
  • promedio través de pliegues como de costumbre, y use este error de diferencia CV (junto con su error estándar) como estimador del error de generalización.MSDK

Preguntas:

  1. ¿Tiene sentido esto para ti? Sé que hay razones teóricas detrás del uso del error CV como estimador del error de generalización (no sé cuáles son estas razones, ¡pero sé que existen!). No tengo idea si hay razones teóricas detrás del uso de este error CV de "diferencia".
  2. No sé si esto se puede generalizar a las comparaciones de más de dos modelos. Calcular las diferencias para todos los pares de modelos parece arriesgado (¿comparaciones múltiples?): ¿Qué haría si tuviera más de dos modelos?

EDITAR: mi fórmula está totalmente equivocada, la métrica correcta se describe aquí y es mucho más complicada. Bueno, ¡estoy feliz de haber preguntado aquí antes de aplicar la fórmula a ciegas! Agradezco a @Bay por ayudarme a entender con su respuesta iluminadora. La medida correcta descrita es bastante experimental, por lo que me atendré a mi caballo de trabajo de confianza, ¡el error CV!

DeltaIV
fuente

Respuestas:

2

MSDK

Por ejemplo, podría llegar a un par de predictores tontos:

y^A(x,θ)=1+x,1θ

y^B(x,θ):=1+x,1θ2

θMSDK

Eché un vistazo al enlace, pero no vi tu MSDKMSDK


Respuesta al comentario de OP

La fórmula presentada en su comentario requiere un poco de contexto:

  1. Es una medida de precisión bayesiana, en el sentido de que elpd es la densidad predictiva logarítmica logarítmica esperada , bastante bocado, pero básicamente, es la suma de los valores esperados del logaritmo de la densidad predictiva posterior evaluada en cada punto de datos bajo algún predictivo previo densidad que se estima mediante validación cruzada.
  2. La medida anterior (elpd) se calcula utilizando la validación cruzada de omisión, donde la densidad predictiva se toma en el punto omitido.
  3. Lo que está haciendo su fórmula (19) es calcular el error estándar de la diferencia en la precisión predictiva (medida usando elpd) entre dos modelos. La idea es que la diferencia en elpd es asintóticamente normal, por lo que el error estándar tiene un significado inferencial (y puede usarse para probar si la diferencia subyacente es cero), o si el Modelo A tiene un error de predicción menor que el Modelo B.

Por lo tanto, hay muchas partes móviles en esta medida: debe haber ejecutado un algoritmo de muestreo MCMC para obtener puntos de la densidad del parámetro posterior. Luego debe integrarlo para obtener densidades predictivas. Luego debe tomar los valores esperados de cada uno de estos (en muchos sorteos). Es todo un proceso, pero al final se supone que da un error estándar útil.

Nota: En el tercer párrafo completo debajo de la ecuación (19), los autores afirman que se necesita más investigación para determinar si este enfoque funciona bien para la comparación de modelos ... por lo tanto, aún no está bien probado (altamente experimental). Por lo tanto, básicamente confía en la utilidad de este método hasta que los estudios de seguimiento verifiquen que identifica de manera confiable el mejor modelo (en términos de elpd ).


fuente
se(elpd^LOOAelpd^LOOB)
@DeltaIV Ok ... Revisaré la sección referenciada e intentaré desempaquetar esa fórmula para ti.
1
@DeltaIV ok, he tenido un cambio para revisar. He ampliado mi publicación. Este parece ser un método muy experimental (y no verificado) para comparar dos modelos de predicción. Tendría cuidado al usarlo a menos que pueda verificar su rendimiento con sus propios estudios de Monte Carlo (es decir, ¿puede elegir el modelo más predictivo cuando conoce la respuesta correcta?).