Estoy construyendo un modelo de propensión utilizando la regresión logística para un cliente de servicios públicos. Mi preocupación es que, de la muestra total, mis cuentas "malas" son solo del 5%, y el resto son buenas. Estoy prediciendo 'malo'.
- ¿El resultado será sesgado?
- ¿Cuál es la óptima 'mala a buena proporción' para construir un buen modelo?
Respuestas:
No estuve de acuerdo con las otras respuestas en los comentarios, por lo que es justo que dé las mías. Sea la respuesta (cuentas buenas / malas) y X las covariables.Y X
Para la regresión logística, el modelo es el siguiente:
Piense en cómo se podrían recopilar los datos:
Ambos son bien que el modelo anterior, ya que sólo está modelando la distribución de . Estos se llamarían un estudio prospectivo .YEl | X
Alternativamente:
(También puede seleccionar los datos basados en y ciertas variables de : este sería un estudio estratificado de casos y controles, y es mucho más complicado trabajar con él, por lo que no lo abordaré aquí).XY X
Hay un buen resultado de la epidemiología (ver Prentice y Pyke (1979) ) que para un estudio de casos y controles, las estimaciones de probabilidad máxima para se pueden encontrar por regresión logística, es decir, utilizando el modelo prospectivo para datos retrospectivos.β
Entonces, ¿cómo es esto relevante para su problema?
Bueno, significa que si puede recopilar más datos, puede mirar las cuentas malas y seguir utilizando la regresión logística para estimar las (pero necesitaría ajustar el α para tener en cuenta la sobrerrepresentación ) Digamos que cuesta $ 1 por cada cuenta adicional, entonces esto podría ser más rentable que simplemente mirar todas las cuentas.βyo α
Pero, por otro lado, si ya tiene TODOS los datos posibles, no tiene sentido estratificar: simplemente estaría desechando datos (dando peores estimaciones), y luego se quedaría con el problema de tratar de estimar .α
fuente
Asintóticamente, la relación de patrones positivos a negativos es esencialmente irrelevante. El problema surge principalmente cuando tienes muy pocas muestras de la clase minoritaria para describir adecuadamente su distribución estadística. Ampliar el conjunto de datos generalmente resuelve el problema (cuando eso es posible).
Si esto no es posible, lo mejor que puede hacer es volver a muestrear los datos para obtener un conjunto de datos equilibrado, y luego aplicar un ajuste multiplicativo a la salida del clasificador para compensar la diferencia entre el conjunto de entrenamiento y las frecuencias de clase relativa operativas. Si bien puede calcular el factor de ajuste óptimo (asintóticamente), en la práctica es mejor ajustar el ajuste mediante validación cruzada (ya que estamos tratando con un caso práctico finito en lugar de uno asintótico).
En este tipo de situación, a menudo utilizo un comité de modelos, donde cada uno está capacitado en todos los patrones minoritarios y una muestra aleatoria diferente de los patrones mayoritarios del mismo tamaño que los patrones minoritarios. Esto protege contra la mala suerte en la selección de un solo subconjunto de los patrones mayoritarios.
fuente
En teoría, podrá discriminar mejor si las proporciones de "bueno" y "malo" son más o menos similares en tamaño. Es posible que pueda avanzar hacia esto mediante un muestreo estratificado, sobremuestreando casos malos y luego volviendo a pesar para volver a las proporciones verdaderas más adelante.
Esto conlleva algunos riesgos. En particular, es probable que su modelo etiquete a las personas como "potencialmente malas", presumiblemente aquellas que pueden no pagar sus facturas de servicios públicos cuando vencen. Es importante que se reconozca correctamente el impacto de los errores al hacer esto: en particular, cuántos "buenos clientes" serán etiquetados como "potencialmente malos" por el modelo, y es menos probable que obtenga un nuevo peso incorrecto si no ha distorsionado su modelo por muestreo estratificado.
fuente
¿Importa ahora que tenga una baja proporción de fallas (cuentas incobrables)? En realidad no, siempre y cuando sus datos de muestra estén equilibrados, como algunas personas ya señalaron. Sin embargo, si sus datos no están equilibrados, obtener más datos puede ser casi inútil si hay algunos efectos de selección que no está teniendo en cuenta. En este caso, debe usar la coincidencia, pero la falta de equilibrio puede hacer que la coincidencia sea bastante inútil. Otra estrategia es tratar de encontrar un experimento natural, por lo que puede usar una variable instrumental o un diseño de regresión de incontinencia.
Por último, pero no menos importante, si tiene una muestra equilibrada o no hay sesgo de selección, es posible que le preocupe el hecho de que la cuenta incorrecta es rara. No creo que el 5% sea raro, pero por si acaso, eche un vistazo al documento de Gary King sobre la ejecución de una logística de eventos raros. En el paquete Zelig, en R, puede ejecutar una logística de eventos raros.
fuente
Bien, entonces trabajo en Detección de Fraudes para que este tipo de problema no sea nuevo para mí. Creo que la comunidad de aprendizaje automático tiene mucho que decir sobre los datos no balanceados (ya que en las clases no están balanceados). Así que hay un par de estrategias fáciles que creo que ya se han mencionado, y un par de ideas ingeniosas, y alguna forma de salir. Ni siquiera voy a pretender saber lo que esto significa para los asintóticos de su problema, pero siempre parece darme resultados razonables en la regresión logística. Puede haber un papel allí en alguna parte, aunque no estoy seguro.
Aquí están tus opciones tal como las veo:
En cualquier caso, he usado todos estos métodos, pero creo que lo más simple es volver a ponderar el problema para la regresión logística de todos modos. Sin embargo, una cosa que puede hacer para verificar su modelo es tomar:
-Intercept/beta
Ese debería ser el límite de decisión (50% de probabilidad de estar en cualquiera de las clases) en una variable dada ceteris paribus . Si no tiene sentido, por ejemplo, el límite de decisión es un número negativo en una variable que es estrictamente positivo, entonces tiene un sesgo en su regresión logística que debe corregirse.
fuente