Estoy tratando de ajustar una regresión logística donde hay una gran diferencia en el número de puntos de datos en cualquier grupo (70 Vs 10,000). Un amigo estadístico mío me ha dicho que este es un problema conocido con la regresión logística y que para ese tipo de números excede los datos y, básicamente, no funciona. Cuando comparto los datos y los comparo con el modelo, es bastante obvio que este es definitivamente el caso.
Me pregunto si alguien conoce un método mejor / más flexible para ajustar este tipo de datos de respuesta binaria.
(Por cierto, no soy un estadístico, ¡así que ve con calma!)
modeling
logistic
binary-data
Stacey_bio
fuente
fuente
Respuestas:
El hecho de que no funcione no proviene del tamaño desequilibrado de los grupos, sino de la pequeñez de uno de los grupos. Reducir la muestra del grupo más grande está bien, pero no ayuda con el sobreajuste. (Por cierto, hay una manera fácil y elegante de corregir las predicciones del modelo de muestreo disminuido, agregando ± log (r) a los términos lineales donde r es la relación de muestreo disminuido).
Si el problema es realmente el sobreajuste, debe disminuir el número de variables o regularizar el modelo.
fuente
Este problema surge en prácticamente todos los enfoques de clasificación, ya sea regresión logística, clasificación de vectores de soporte o clasificación de Naive Bayes. Hay dos problemas entrelazados:
Un modelo entrenado en un conjunto de datos desequilibrado puede sobreajustar en el sentido de adquirir un sesgo a favor de la clase mayoritaria.
Al evaluar este modelo en un conjunto de datos de prueba con el mismo grado de desequilibrio, la precisión de la clasificación puede ser una medida de rendimiento enormemente engañosa.
La literatura sobre estos temas ha presentado tres estrategias de solución:
Puede restablecer el equilibrio en el conjunto de entrenamiento submuestreando la clase grande o sobremuestreando la clase pequeña, para evitar que surjan sesgos en primer lugar (vea la respuesta de @grotos).
Alternativamente, puede modificar los costos de clasificación errónea para evitar que el modelo adquiera un sesgo en primer lugar.
Una salvaguarda adicional es reemplazar la precisión por la llamada precisión equilibrada . Se define como la media aritmética de las precisiones específicas de la clase, donde y representa la precisión obtenida en ejemplos positivos y negativos, respectivamente. Si el clasificador se desempeña igualmente bien en cualquiera de las clases, este término se reduce a la precisión convencional (es decir, el número de predicciones correctas dividido por el número total de predicciones). Por el contrario, si la precisión convencional está por encima del azar solamenteϕ:=12(π++π−), π+ π− debido a que el clasificador aprovecha un conjunto de pruebas desequilibradas, la precisión equilibrada, según corresponda, se reducirá al azar (vea el esquema a continuación que he tomado de mi respuesta a una pregunta relacionada ).
Como se detalla en mi respuesta anterior, recomendaría considerar al menos dos de los enfoques anteriores en conjunto. Por ejemplo, podría sobremuestrear su clase minoritaria para evitar que su clasificador adquiera un sesgo a favor de la clase mayoritaria. Después de esto, al evaluar el rendimiento de su clasificador, puede reemplazar la precisión por la precisión equilibrada.
fuente
¿Se refiere a la distribución de la respuesta, es decir, tiene 70 casos de "SÍ" y 10000 de "NO"?
Si es así, ese es un problema común en las aplicaciones de minería de datos. Imagine una base de datos con 1,000,000 de instancias, donde solo alrededor de 1,000 casos son "SÍ". La tasa de respuesta del 1% e incluso menos es algo común en un modelo predictivo de negocios. Y si elige una muestra para entrenar un modelo que es un gran problema, especialmente con la evaluación de la estabilidad de un modelo dado.
Lo que hacemos es elegir una muestra con diferentes proporciones. En el ejemplo mencionado anteriormente, eso sería 1000 casos de "SÍ" y, por ejemplo, 9000 casos de "NO". Este enfoque da modelos más estables. Sin embargo, debe probarse en una muestra real (que con 1,000,000 de filas).
Lo he probado con modelos de minería de datos, como regresión logística, árboles de decisión, etc. Sin embargo, no lo he usado con modelos estadísticos "adecuados" [1].
Puede buscarlo como "sobremuestreo en estadísticas", el primer resultado es bastante bueno: http://www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf
[1] "adecuado" en el sentido de "no minería de datos".
fuente
Si desea una técnica de clasificación que sea insensible a la proporción relativa de ejemplos de diferentes clases, las máquinas de vectores de soporte tienen esa propiedad al igual que los árboles de decisión.
fuente