Caret: validación cruzada K-fold repetida frente a validación cruzada K-fold anidada, n veces repetidas

El paquete caret es una biblioteca R brillante para construir múltiples modelos de aprendizaje automático y tiene varias funciones para la construcción y evaluación de modelos. Para el ajuste de parámetros y la capacitación de modelos, el paquete caret ofrece 'repetido cv' como uno de los métodos.

Como buena práctica, el ajuste de parámetros se puede realizar utilizando una validación cruzada K-fold anidada que funciona de la siguiente manera:

Particionar el conjunto de entrenamiento en subconjuntos 'K'
En cada iteración, tome los subconjuntos 'K menos 1' para el entrenamiento del modelo y mantenga 1 subconjunto (conjunto de espera) para la prueba del modelo.
Particione aún más el conjunto de entrenamiento 'K menos 1' en subconjuntos 'K', y use iterativamente el nuevo subconjunto 'K menos 1' y el 'conjunto de validación' para el ajuste de parámetros (búsqueda de cuadrícula). El mejor parámetro identificado en este paso se utiliza para probar el conjunto de retención en el paso 2.

Por otro lado, supongo que la validación cruzada repetida de K-fold podría repetir los pasos 1 y 2 tantas veces como elijamos para encontrar la varianza del modelo.

Sin embargo, siguiendo el algoritmo en el manual de caret parece que el método 'repetido cv' también podría realizar una validación cruzada K-fold anidada, además de repetir la validación cruzada.

Mis preguntas son:

¿Es correcto mi conocimiento sobre el método caret 'repetidocv'?
Si no es así, ¿podría dar un ejemplo del uso de la validación cruzada K-fold anidada, con el método 'repetidocv' utilizando el paquete caret?

Editar:

Las diferentes estrategias de validación cruzada se explican y comparan en este artículo de metodología.

Krstajic D, Buturovic LJ, Leahy DE y Thomas S : dificultades de validación cruzada al seleccionar y evaluar los modelos de regresión y clasificación . Journal of Cheminformatics 2014 6 (1): 10. doi: 10.1186 / 1758-2946-6-10

Estoy interesado en "Algoritmo 2: validación cruzada anidada estratificada repetida" y "Algoritmo 3: validación cruzada repetida de búsqueda de cuadrícula para selección de variables y ajuste de parámetros" usando el paquete caret.

cross-validation caret Mani
fuente

Respuestas:

No hay nada malo con el algoritmo (anidado) presentado, y de hecho, probablemente funcionaría bien con una solidez decente para el problema de la variación de sesgo en diferentes conjuntos de datos. Sin embargo, nunca dijo que el lector debería asumir que las funciones que estaba utilizando son las más "óptimas", por lo que si eso es desconocido, hay algunos problemas de selección de funciones que primero deben abordarse.

CARACTERÍSTICA / SELECCIÓN DE PARÁMETROS

$wrapper$ $filter$ que emplea un método diferente que está muy alejado del clasificador / modelo, como un intento de minimizar el sesgo de selección de características (parámetros). Busque el ajuste frente al filtrado y el sesgo de selección durante la selección de funciones (GJ McLachlan).

$\mathcal{D}_1$ $\mathcal{D}_2$ $n=50$ $\pi=0.1n, 0.2n, 0,3n, 0.4n, 0.5n$

OPTIMIZACIÓN / MINIMIZACIÓN

Parece que realmente está resolviendo un problema de optimización o minimización para la aproximación de funciones, por ejemplo, $y=f(x_1, x_2, \ldots, x_j)$ , donde, por ejemplo, se utiliza la regresión o un modelo predictivo con parámetros y $y$ se escala continuamente. Dado esto, y dada la necesidad de minimizar el sesgo en sus predicciones (sesgo de selección, sesgo-varianza, fuga de información de objetos de prueba en objetos de entrenamiento, etc.), podría considerar el uso de CV durante el uso de métodos de inteligencia de enjambre, como optimización de enjambre de partículas (PSO), optimización de colonias de hormigas, etc. PSO (ver Kennedy y Eberhart, 1995) agrega parámetros para el intercambio de información social y cultural entre partículas a medida que vuelan a través del espacio de parámetros durante el aprendizaje. Una vez que se familiarice con los métodos de inteligencia de enjambre, verá que puede superar muchos sesgos en la determinación de parámetros. Por último, no sé si existe un enfoque de bosque aleatorio (RF, ver Breiman, Journal of Machine Learning) para la aproximación de funciones, pero si existe,

JoleT
fuente