Estoy usando una versión estándar de regresión logística para ajustar mis variables de entrada a las variables de salida binarias.
Sin embargo, en mi problema, las salidas negativas (0s) superan con creces a las salidas positivas (1s). La relación es 20: 1. Entonces, cuando entreno un clasificador, parece que incluso las características que sugieren fuertemente la posibilidad de una salida positiva todavía tienen valores muy bajos (altamente negativos) para sus parámetros correspondientes. Me parece que esto sucede porque hay demasiados ejemplos negativos que arrastran los parámetros en su dirección.
Entonces me pregunto si puedo agregar pesos (digamos usando 20 en lugar de 1) para los ejemplos positivos. ¿Es probable que esto se beneficie en absoluto? Y si es así, ¿cómo debo agregar los pesos (en las ecuaciones a continuación).
La función de costo tiene el siguiente aspecto:
El gradiente de esta función de costo (wrt ) es:
Aquí = número de casos de prueba, = matriz de características, = vector de salida, = función sigmoide, = parámetros que estamos tratando de aprender.
Finalmente corro el descenso de gradiente para encontrar el más bajo posible. La implementación parece ejecutarse correctamente.
fuente
Respuestas:
Eso ya no sería la máxima probabilidad. Una distribución tan extrema de solo presenta problemas si está utilizando un clasificador, es decir, si está calculando la proporción clasificada correctamente, una regla de puntuación incorrecta. Las estimaciones de probabilidad de la probabilidad máxima estándar son válidas. Si el número total de "positivos" es menor que 15 veces el número de variables candidatas, la estimación de máxima probabilidad penalizada puede estar en orden.Y
fuente
En casos como este, a menudo es mejor usar un enlace flexible, en lugar del enlace logístico, que puede capturar esta asimetría. Por ejemplo, un sesgo normal, GEV , sinh-arcsinh , y las referencias allí. Hay muchos otros, pero no puedo publicar más de 2 enlaces.
fuente