Me han dicho que es beneficioso usar la validación cruzada estratificada, especialmente cuando las clases de respuesta no están equilibradas. Si un propósito de la validación cruzada es ayudar a explicar la aleatoriedad de nuestra muestra de datos de entrenamiento original, seguramente hacer que cada pliegue tenga la misma distribución de clase funcionaría en contra de esto a menos que esté seguro de que su conjunto de entrenamiento original tenía una distribución de clase representativa.
¿Mi lógica es defectuosa?
EDITAR Me interesa saber si este método daña el bien de CV. Puedo ver por qué es necesario si tiene una muestra pequeña / clases muy desequilibradas / ambas para evitar no tener un solo representante de la clase menor en un pliegue.
El documento Manzanas a manzanas en los estudios de validación cruzada: trampas en la medición del rendimiento del clasificador presenta bien el caso de la estratificación, pero todos los argumentos parecen equivaler a 'La estratificación proporciona una salvaguarda y más consistencia', pero no se requeriría una salvaguarda suficiente datos.
Es la respuesta simplemente "Lo usamos por necesidad, ya que rara vez tenemos suficientes datos". ?
fuente
Quizás puedas pensarlo de esta manera. Digamos que tiene un conjunto de datos donde hay 100 muestras, 90 en la clase 'A' y 10 en la clase 'B'. En este diseño muy desequilibrado, si haces grupos aleatorios normales, podrías terminar construyendo modelos en muy pocos (¡o NUNCA!) De la clase 'B'. Si está construyendo un modelo que está capacitado en datos donde hay tan pocos, o incluso ninguno, de la otra clase, ¿cómo podría esperar que prediga el grupo más raro de manera efectiva? La validación cruzada estratificada permite la aleatorización, pero también asegura que estos conjuntos de datos no balanceados tengan algunas de ambas clases.
Para calmar las preocupaciones sobre el uso de CV estratificado con conjuntos de datos más 'equilibrados', veamos un ejemplo usando el código R.
Como puede ver, en un conjunto de datos que está bien equilibrado, los pliegues tendrán una distribución similar por azar. Por lo tanto, el CV estratificado es simplemente una medida de garantía en estas circunstancias. Sin embargo, para abordar la varianza, deberá observar las distribuciones de cada pliegue. En algunas circunstancias (incluso a partir de 50-50), podría tener pliegues que tienen divisiones de 30-70 por azar (¡puede ejecutar el código anterior y ver que esto realmente sucede!). Esto podría conducir a un modelo de peor desempeño porque no tenía suficiente de una clase para predecirlo con precisión, aumentando así la varianza CV general. Obviamente, esto es más importante cuando tiene muestras 'limitadas' donde es más probable que tenga diferencias muy extremas en la distribución.
Ahora con conjuntos de datos muy grandes, la estratificación puede no ser necesaria porque los pliegues serán lo suficientemente grandes como para contener al menos una buena proporción de la clase 'más rara'. Sin embargo, realmente no hay pérdida computacional ni razón real para renunciar a la estratificación si sus muestras están desequilibradas, sin importar cuántos datos tenga en mi opinión personal.
fuente
stratifcation is generally a better scheme, both in terms of bias and variance, when compared to regular cross-validation
. No existe un esquema de muestreo perfecto, pero en diseños desequilibrados, la estratificación es un buen enfoque.