Métodos de muestreo de Caret

20

Estoy usando la biblioteca careten R para probar varios procedimientos de modelado.

El trainControlobjeto permite especificar un método de remuestreo. Los métodos se describen en la documentación de la sección 2.3 e incluyen: boot, boot632, cv, LOOCV, LGOCV, repeatedcvy oob. Aunque algunos de estos son fáciles de inferir, no todos estos métodos están claramente definidos.

¿Cuáles son los procedimientos correspondientes a estos métodos de remuestreo?

Ram Ahluwalia
fuente
El enlace de documentación está roto. Use esto en su lugar.
vikas

Respuestas:

20

Ok, aquí está mi intento:

  • arranque - bootstrap
  • boot632 - 0.632 bootstrap
  • cv - validación cruzada, probablemente esto se refiere a la validación cruzada K-fold .
  • LOOCV: validación cruzada de dejar uno fuera, también conocida como Jacknife.
  • LGOCV: validación cruzada de abandono de grupo, variante de LOOCV para datos jerárquicos.
  • repetidocv: es probable que la validación de submuestreo aleatorio se repita , es decir, la división para entrenar y probar los datos se realiza de forma aleatoria.
  • oob: se refiere a la estimación fuera de bolsa propuesta por Breiman , que además está relacionada con la agregación de arranque . (El archivo en el enlace no es un archivo ps, sino un archivo ps.Z, cámbiele el nombre y luego intente abrirlo).
mpiktas
fuente
1
Creo que LGOCV se divide al azar entre un conjunto de entrenamiento y un conjunto de validación, repetido n veces. Entonces, en lugar del caso ordinario de dividir datos entre el tren y la espera (construir el modelo en el tren y validar en espera) una vez, este proceso se repite muchas veces.
B_Miner
3
También creo que el CV repetido es una validación cruzada k-fold, realizada varias veces.
B_Miner
Es difícil de creer que esto no esté documentado en alguna parte.
Andrew
4

La repeatedcvrepetición de la validación cruzada 10 veces es segura, de acuerdo con la presentación de Max Kuhn. El esquema de remuestreo predeterminado es el bootstrap.

Un buen archivo que puede consultar sobre los métodos de remuestreo es el modelado predictivo con R y el paquete caret ( pdf ). Max presentó esto en "useR! 2013".

tigergopro
fuente