Dejando a un lado las consideraciones de poder de cálculo, ¿hay alguna razón para creer que aumentar el número de pliegues en la validación cruzada conduce a una mejor selección / validación del modelo (es decir, cuanto mayor sea el número de pliegues, mejor)?
Llevando el argumento al extremo, ¿la validación cruzada de dejar uno fuera necesariamente conduce a mejores modelos que la validación cruzada -fold?
Algunos antecedentes sobre esta pregunta: estoy trabajando en un problema con muy pocas instancias (p. Ej., 10 positivos y 10 negativos), y me temo que mis modelos pueden no generalizarse bien / se adaptarían con tan poca información.
cross-validation
bias-variance-tradeoff
Amelio Vazquez-Reina
fuente
fuente
Respuestas:
La validación cruzada Leave-one-out generalmente no conduce a un mejor rendimiento que K-fold, y es más probable que sea peor , ya que tiene una variación relativamente alta (es decir, su valor cambia más para diferentes muestras de datos que el valor para k-fold validación cruzada). Esto es malo en un criterio de selección de modelo, ya que significa que el criterio de selección de modelo puede optimizarse de manera que simplemente explote la variación aleatoria en la muestra particular de datos, en lugar de realizar mejoras genuinas en el rendimiento, es decir, es más probable que se ajuste demasiado El criterio de selección del modelo. La razón por la cual la validación cruzada de dejar uno fuera se usa en la práctica es que para muchos modelos se puede evaluar de manera muy económica como un subproducto de la adaptación del modelo.
Si el gasto computacional no es principalmente un problema, un mejor enfoque es realizar una validación cruzada k-fold repetida, donde el procedimiento de validación cruzada k-fold se repite con diferentes particiones aleatorias en k subconjuntos disjuntos cada vez. Esto reduce la varianza.
Si solo tiene 20 patrones, es muy probable que experimente un ajuste excesivo del criterio de selección del modelo, que es un obstáculo muy descuidado en las estadísticas y el aprendizaje automático (enchufe descarado: vea mi artículo sobre el tema). Puede que sea mejor elegir un modelo relativamente simple e intentar no optimizarlo de manera muy agresiva, o adoptar un enfoque bayesiano y promediar todas las opciones de modelos, ponderadas por su plausibilidad. La optimización en mi humilde opinión es la raíz de todo mal en las estadísticas, por lo que es mejor no optimizar si no es necesario, y optimizar con precaución siempre que lo haga.
Tenga en cuenta también que si va a realizar la selección del modelo, debe usar algo como la validación cruzada anidada si también necesita una estimación del rendimiento (es decir, debe considerar la selección del modelo como parte integral del procedimiento de ajuste del modelo y validar de forma cruzada que también).
fuente
Elegir el número K se pliega considerando la curva de aprendizaje
Me gustaría argumentar que elegir el número apropiado de pliegues depende mucho de la forma y posición de la curva de aprendizaje, principalmente debido a su impacto en el sesgo . Este argumento, que se extiende al CV de dejar uno afuera, está tomado en gran parte del libro "Elementos del aprendizaje estadístico", capítulo 7.10, página 243.K
Para discusiones sobre el impacto de en la varianza ver aquíK
Una visualización intuitiva con un ejemplo de juguete.
Para comprender este argumento visualmente, considere el siguiente ejemplo de juguete donde estamos ajustando un polinomio de grado 4 a una curva senoidal ruidosa:
Intuitivamente y visualmente, esperamos que este modelo funcione mal para pequeños conjuntos de datos debido al sobreajuste. Este comportamiento se refleja en la curva de aprendizaje donde graficamos error cuadrático medio frente al tamaño del entrenamiento junto con 1 desviación estándar. Tenga en cuenta que elegí trazar 1 - MSE aquí para reproducir la ilustración utilizada en ESL página 243±1− ±
Discutiendo el argumento
El rendimiento del modelo mejora significativamente a medida que el tamaño del entrenamiento aumenta a 50 observaciones. Aumentar aún más el número a 200, por ejemplo, solo trae pequeños beneficios. Considere los siguientes dos casos:
Si nuestro conjunto de entrenamiento tuviera 200 observaciones, la validación cruzada veces estimaría el rendimiento sobre un tamaño de entrenamiento de 160, que es prácticamente el mismo que el rendimiento para el tamaño del conjunto de entrenamiento 200. Por lo tanto, la validación cruzada no sufriría demasiados sesgos y aumentaría a valores mayores no traerán mucho beneficio ( gráfico de la izquierda )K5 K
Sin embargo, si el conjunto de entrenamiento tenía observaciones, la validación cruzada veces estimaría el rendimiento del modelo sobre conjuntos de entrenamiento de tamaño 40, y desde la curva de aprendizaje esto conduciría a un resultado sesgado. Por lo tanto, aumentar en este caso tenderá a reducir el sesgo. ( diagrama de la derecha ).5 K50 5 K
[Actualización] - Comentarios sobre la metodología
Puede encontrar el código para esta simulación aquí . El enfoque fue el siguiente:
Un enfoque alternativo es no volver a muestrear un nuevo conjunto de datos en cada iteración y, en su lugar, reorganizar el mismo conjunto de datos cada vez. Esto parece dar resultados similares.
fuente