Versión flexible de regresión logística.

8

Estoy tratando de ajustar una regresión logística donde hay una gran diferencia en el número de puntos de datos en cualquier grupo (70 Vs 10,000). Un amigo estadístico mío me ha dicho que este es un problema conocido con la regresión logística y que para ese tipo de números excede los datos y, básicamente, no funciona. Cuando comparto los datos y los comparo con el modelo, es bastante obvio que este es definitivamente el caso.

Me pregunto si alguien conoce un método mejor / más flexible para ajustar este tipo de datos de respuesta binaria.

(Por cierto, no soy un estadístico, ¡así que ve con calma!)

modeling logistic binary-data Stacey_bio
fuente

Por dos grupos, ¿quiere decir grupos definidos por su respuesta binaria? Si es así, debe pensar en el problema de regresión logística como un problema de clasificación. Para un grupo, tiene mucha información para encontrar variables que predicen la categoría. Pero dado que el segundo grupo tiene solo 70 observaciones, tiene menos información para ver qué hace que el segundo grupo sea diferente del primero. Para este tipo de problema, el problema es el pequeño tamaño de la muestra en el grupo 2 y no el desequilibrio. Si tuviera 700 vs 100,000, el desequilibrio sería el mismo, pero el problema no sería tan difícil.

Michael R. Chernick

2

Así que creo que el problema del sobreajuste es el problema clásico de usar demasiadas funciones con muy pocos datos. La única cura para el sobreajuste es reducir el número de características o aumentar el tamaño de la muestra. Encontrar otra metodología no ayudará.

Michael R. Chernick

"¿Por dos grupos quieres decir grupos definidos por su respuesta binaria?" - ¡Si!

Stacey_bio

¿Alguna sugerencia sobre dónde podría comenzar si abordo esto como un problema de clasificación? ¿Hay algún método establecido que pueda usar que alguien pueda conocer? ¡Gracias!

Stacey_bio

Esencialmente, lo que creo que estoy buscando es un método de "clasificación binaria probabilística" que sea adecuado para este tipo de datos. Sería genial si hubiera algún tipo de método establecido (estadístico o no)

Stacey_bio 05 de

4

El hecho de que no funcione no proviene del tamaño desequilibrado de los grupos, sino de la pequeñez de uno de los grupos. Reducir la muestra del grupo más grande está bien, pero no ayuda con el sobreajuste. (Por cierto, hay una manera fácil y elegante de corregir las predicciones del modelo de muestreo disminuido, agregando ± log (r) a los términos lineales donde r es la relación de muestreo disminuido).

Si el problema es realmente el sobreajuste, debe disminuir el número de variables o regularizar el modelo.

scellus
fuente

4

Este problema surge en prácticamente todos los enfoques de clasificación, ya sea regresión logística, clasificación de vectores de soporte o clasificación de Naive Bayes. Hay dos problemas entrelazados:

Un modelo entrenado en un conjunto de datos desequilibrado puede sobreajustar en el sentido de adquirir un sesgo a favor de la clase mayoritaria.
Al evaluar este modelo en un conjunto de datos de prueba con el mismo grado de desequilibrio, la precisión de la clasificación puede ser una medida de rendimiento enormemente engañosa.

La literatura sobre estos temas ha presentado tres estrategias de solución:

Puede restablecer el equilibrio en el conjunto de entrenamiento submuestreando la clase grande o sobremuestreando la clase pequeña, para evitar que surjan sesgos en primer lugar (vea la respuesta de @grotos).
Alternativamente, puede modificar los costos de clasificación errónea para evitar que el modelo adquiera un sesgo en primer lugar.
Una salvaguarda adicional es reemplazar la precisión por la llamada precisión equilibrada . Se define como la media aritmética de las precisiones específicas de la clase, donde y representa la precisión obtenida en ejemplos positivos y negativos, respectivamente. Si el clasificador se desempeña igualmente bien en cualquiera de las clases, este término se reduce a la precisión convencional (es decir, el número de predicciones correctas dividido por el número total de predicciones). Por el contrario, si la precisión convencional está por encima del azar solamente $\phi := \frac{1}{2}\left(\pi^+ + \pi^-\right),$ $\pi^+$ $\pi^-$ debido a que el clasificador aprovecha un conjunto de pruebas desequilibradas, la precisión equilibrada, según corresponda, se reducirá al azar (vea el esquema a continuación que he tomado de mi respuesta a una pregunta relacionada ).

Precisión versus precisión equilibrada

Como se detalla en mi respuesta anterior, recomendaría considerar al menos dos de los enfoques anteriores en conjunto. Por ejemplo, podría sobremuestrear su clase minoritaria para evitar que su clasificador adquiera un sesgo a favor de la clase mayoritaria. Después de esto, al evaluar el rendimiento de su clasificador, puede reemplazar la precisión por la precisión equilibrada.

Kay Brodersen
fuente

0

¿Se refiere a la distribución de la respuesta, es decir, tiene 70 casos de "SÍ" y 10000 de "NO"?

Si es así, ese es un problema común en las aplicaciones de minería de datos. Imagine una base de datos con 1,000,000 de instancias, donde solo alrededor de 1,000 casos son "SÍ". La tasa de respuesta del 1% e incluso menos es algo común en un modelo predictivo de negocios. Y si elige una muestra para entrenar un modelo que es un gran problema, especialmente con la evaluación de la estabilidad de un modelo dado.

Lo que hacemos es elegir una muestra con diferentes proporciones. En el ejemplo mencionado anteriormente, eso sería 1000 casos de "SÍ" y, por ejemplo, 9000 casos de "NO". Este enfoque da modelos más estables. Sin embargo, debe probarse en una muestra real (que con 1,000,000 de filas).

Lo he probado con modelos de minería de datos, como regresión logística, árboles de decisión, etc. Sin embargo, no lo he usado con modelos estadísticos "adecuados" [1].

Puede buscarlo como "sobremuestreo en estadísticas", el primer resultado es bastante bueno: http://www.statssa.gov.za/isi2009/ScientificProgramme/IPMS/1621.pdf

[1] "adecuado" en el sentido de "no minería de datos".

grotos
fuente

0

Si desea una técnica de clasificación que sea insensible a la proporción relativa de ejemplos de diferentes clases, las máquinas de vectores de soporte tienen esa propiedad al igual que los árboles de decisión.

fgregg
fuente

Versión flexible de regresión logística.

Respuestas: