Beneficios del muestreo estratificado versus aleatorio para generar datos de entrenamiento en clasificación

Me gustaría saber si existen algunas / algunas ventajas de usar el muestreo estratificado en lugar del muestreo aleatorio, al dividir el conjunto de datos original en un conjunto de entrenamiento y prueba para la clasificación.

Además, ¿el muestreo estratificado introduce más sesgos en el clasificador que el muestreo aleatorio?

$\frac{2}{3}$

[1] Chawla, Nitesh V. y col. " SMOTE: técnica de sobremuestreo de minorías sintéticas " . Journal of Artificial Intelligence Research 16 (2002): 321-357.

classification cross-validation random-forest train stratification gc5
fuente

Respuestas:

El muestreo estratificado tiene como objetivo dividir un conjunto de datos para que cada división sea similar con respecto a algo.

En una configuración de clasificación, a menudo se elige para garantizar que el tren y los conjuntos de prueba tengan aproximadamente el mismo porcentaje de muestras de cada clase objetivo que el conjunto completo.

Como resultado, si el conjunto de datos tiene una gran cantidad de cada clase, el muestreo estratificado es casi lo mismo que el muestreo aleatorio. Pero si una clase no está muy representada en el conjunto de datos, lo que puede ser el caso en su conjunto de datos ya que planea sobremuestrear la clase minoritaria, entonces el muestreo estratificado puede producir una distribución de clase objetivo diferente en el tren y los conjuntos de prueba de lo que es aleatorio el muestreo puede rendir.

Tenga en cuenta que el muestreo estratificado también puede diseñarse para distribuir equitativamente algunas características en el próximo tren y conjuntos de prueba. Por ejemplo, si cada muestra representa a un individuo y una característica es la edad, a veces es útil tener la misma distribución de edad tanto en el tren como en el conjunto de prueba.

FYI:

Franck Dernoncourt
fuente