¿Está sesgada una regresión logística cuando la variable de resultado se divide 5% - 95%?

10

Estoy construyendo un modelo de propensión utilizando la regresión logística para un cliente de servicios públicos. Mi preocupación es que, de la muestra total, mis cuentas "malas" son solo del 5%, y el resto son buenas. Estoy prediciendo 'malo'.

  • ¿El resultado será sesgado?
  • ¿Cuál es la óptima 'mala a buena proporción' para construir un buen modelo?
navaneeth
fuente
Creo que siempre es mejor tener un 50% de productos y un 50% de males según la regla general. La salida del modelo no debe estar sesgada en la muestra.

Respuestas:

7

No estuve de acuerdo con las otras respuestas en los comentarios, por lo que es justo que dé las mías. Sea la respuesta (cuentas buenas / malas) y X las covariables.YX

Para la regresión logística, el modelo es el siguiente:

log(p(Y=1|X=x)p(Y=0|X=x))=α+i=1kxiβi

Piense en cómo se podrían recopilar los datos:

  • Puede seleccionar las observaciones al azar de alguna "población" hipotética
  • Puede seleccionar los datos en función de y ver qué valores de ocurren.YXY

Ambos son bien que el modelo anterior, ya que sólo está modelando la distribución de . Estos se llamarían un estudio prospectivo .Y|X

Alternativamente:

  • Puede seleccionar las observaciones basadas en (digamos 100 de cada una) y ver la prevalencia relativa de (es decir, está estratificando en ). Esto se llama un estudio retrospectivo o de casos y controles .X YYXY

(También puede seleccionar los datos basados ​​en y ciertas variables de : este sería un estudio estratificado de casos y controles, y es mucho más complicado trabajar con él, por lo que no lo abordaré aquí).XYX

Hay un buen resultado de la epidemiología (ver Prentice y Pyke (1979) ) que para un estudio de casos y controles, las estimaciones de probabilidad máxima para se pueden encontrar por regresión logística, es decir, utilizando el modelo prospectivo para datos retrospectivos.β

Entonces, ¿cómo es esto relevante para su problema?

Bueno, significa que si puede recopilar más datos, puede mirar las cuentas malas y seguir utilizando la regresión logística para estimar las (pero necesitaría ajustar el α para tener en cuenta la sobrerrepresentación ) Digamos que cuesta $ 1 por cada cuenta adicional, entonces esto podría ser más rentable que simplemente mirar todas las cuentas.βiα

Pero, por otro lado, si ya tiene TODOS los datos posibles, no tiene sentido estratificar: simplemente estaría desechando datos (dando peores estimaciones), y luego se quedaría con el problema de tratar de estimar .α

Simon Byrne
fuente
Sin embargo, esto solo es cierto si tiene suficientes datos para representar adecuadamente la clase minoritaria (que generalmente es el problema donde hay un gran desequilibrio de clase; el problema es el desequilibrio per se, pero que no tiene suficientes muestras de la minoría clase). En ese caso, la ponderación diferencial basada en la validación cruzada de las clases positivas y negativas, el ajuste de alfa o el ajuste multiplicativo (todo el IIRC equivalente) sería una buena idea para impulsar la clase minoritaria. Estratificar los datos sería un equivalente barato y alegre.
Dikran Marsupial
@Dikran: No veo cómo nada de esto no es cierto en ese caso: no tienes que representar a la clase minoritaria, solo necesitas representar la diferencia relativa a la mayoría. Si no tiene suficientes datos para eso, descartar las observaciones de la mayoría no ayudará.
Simon Byrne
@ Simon, estoy de acuerdo con usted en que la estratificación no es una buena idea a menos que no quiera ajustar alfa, volver a pesar los patrones o ajustar la salida del modelo. Como dije, el problema con el desequilibrio de clase no es el desequilibrio per se, sino que no hay datos suficientes para que la clase minoritaria defina adecuadamente la "diferencia relativa con la mayoría". Cuando eso sucede, en promedio sesga la salida hacia la clase mayoritaria y, por lo tanto, hacer algo para compensar ese sesgo es útil. La estratificación es una forma de hacerlo, pero no es la mejor.
Dikran Marsupial
@ Simon, por cierto, gracias por la referencia de Prentice y Pyke, parece útil.
Dikran Marsupial
1
@Dikran: Bien puede estar sesgado para otros modelos, pero NO para la regresión logística, ese es el punto.
Simon Byrne
3

Asintóticamente, la relación de patrones positivos a negativos es esencialmente irrelevante. El problema surge principalmente cuando tienes muy pocas muestras de la clase minoritaria para describir adecuadamente su distribución estadística. Ampliar el conjunto de datos generalmente resuelve el problema (cuando eso es posible).

Si esto no es posible, lo mejor que puede hacer es volver a muestrear los datos para obtener un conjunto de datos equilibrado, y luego aplicar un ajuste multiplicativo a la salida del clasificador para compensar la diferencia entre el conjunto de entrenamiento y las frecuencias de clase relativa operativas. Si bien puede calcular el factor de ajuste óptimo (asintóticamente), en la práctica es mejor ajustar el ajuste mediante validación cruzada (ya que estamos tratando con un caso práctico finito en lugar de uno asintótico).

En este tipo de situación, a menudo utilizo un comité de modelos, donde cada uno está capacitado en todos los patrones minoritarios y una muestra aleatoria diferente de los patrones mayoritarios del mismo tamaño que los patrones minoritarios. Esto protege contra la mala suerte en la selección de un solo subconjunto de los patrones mayoritarios.

Dikran Marsupial
fuente
2
¿Pero es esto pertinente a la regresión logística? No necesitamos describir la distribución estadística de ninguna de las clases, solo las razones de probabilidades relativas (vea mi comentario a @Henry).
Simon Byrne
Quizás en un ejemplo univariante, pero si tiene más de una variable explicativa, entonces necesita información sobre la distribución de patrones para orientar correctamente al "discriminante".
Dikran Marsupial
¿No sería mejor aplicar el ajuste multiplicativo en el espacio de probabilidades de registro antes de aplicar la función logística?
rm999 05 de
IIRC, el ajuste asintéticamente óptimo es multiplicar por la proporción de las frecuencias de clase operativas a las del conjunto de entrenamiento, esto se basa en la regla de Bayes, por lo que se aplica a las probabilidades en lugar de la proporción de probabilidades logarítmicas. Sin embargo, como solo estamos tratando de corregir una deficiencia matemáticamente insoluble en la estimación, probablemente no importa demasiado cómo se realiza el ajuste, en realidad es solo un "factor de fraude".
Dikran Marsupial
@Dikran: No entiendo a qué te refieres con orientar correctamente al "discriminante". Incluso en el caso multivariante, la regresión logística todavía solo calcula las razones de probabilidades relativas.
Simon Byrne
1

En teoría, podrá discriminar mejor si las proporciones de "bueno" y "malo" son más o menos similares en tamaño. Es posible que pueda avanzar hacia esto mediante un muestreo estratificado, sobremuestreando casos malos y luego volviendo a pesar para volver a las proporciones verdaderas más adelante.

Esto conlleva algunos riesgos. En particular, es probable que su modelo etiquete a las personas como "potencialmente malas", presumiblemente aquellas que pueden no pagar sus facturas de servicios públicos cuando vencen. Es importante que se reconozca correctamente el impacto de los errores al hacer esto: en particular, cuántos "buenos clientes" serán etiquetados como "potencialmente malos" por el modelo, y es menos probable que obtenga un nuevo peso incorrecto si no ha distorsionado su modelo por muestreo estratificado.

Enrique
fuente
En realidad, no creo que esto sea cierto para la regresión logística: el parámetro de odds ratio (que realiza la discriminación) es invariante para la estratificación en la variable de respuesta. Es por eso que puede usarse para estudios de casos y controles.
Simon Byrne
@Simon: No estoy en desacuerdo con tu comentario sobre la razón de posibilidades, pero he visto que la gente no toma esto correctamente para las consecuencias para la población después del muestreo estratificado cuando lo hicieron en otros casos. Por ejemplo, si encuentra que las personas para las cuales el factor A es verdadero tienen el doble de probabilidades de ser "malas" que aquellas sin factor A, esto no debería cambiar con el muestreo estratificado, pero si desea saber qué proporción de la población será afectado innecesariamente si se dirige a aquellos con factor A, entonces necesita sopesar cuidadosamente la información de sus muestras.
Henry
lo siento, no fue con lo que no estaba de acuerdo. Fue la primera parte: una consecuencia de la invariancia es que una vez que tiene los datos, no tiene sentido estratificar, simplemente está tirando los datos. (la historia es diferente cuando se trata del costo de recopilar datos, de ahí la existencia de estudios de casos y controles).
Simon Byrne
@Simon: Cuando dices "estudio de casos y controles", ¿quieres decir que originalmente planeas tomar una muestra de casos "malos" y una muestra de casos "buenos"? ¿Con una mayor proporción de casos "malos" que la pequeña proporción de la población? Si es así, eso es lo que pretendía por "muestreo estratificado, sobremuestreo de casos malos" en mi respuesta.
Henry
Sí, eso es precisamente lo que quise decir también. La pregunta parecía indicar que ya tienen datos, por lo tanto, no tendría sentido estratificar.
Simon Byrne
0

yyopagyopagyo

yyoBernoulli(pagyo)
pagyo=logit-1(una+si1X1+...+sinorteXnorte)
logit-1=Exp(X)1+Exp(X)

¿Importa ahora que tenga una baja proporción de fallas (cuentas incobrables)? En realidad no, siempre y cuando sus datos de muestra estén equilibrados, como algunas personas ya señalaron. Sin embargo, si sus datos no están equilibrados, obtener más datos puede ser casi inútil si hay algunos efectos de selección que no está teniendo en cuenta. En este caso, debe usar la coincidencia, pero la falta de equilibrio puede hacer que la coincidencia sea bastante inútil. Otra estrategia es tratar de encontrar un experimento natural, por lo que puede usar una variable instrumental o un diseño de regresión de incontinencia.

Por último, pero no menos importante, si tiene una muestra equilibrada o no hay sesgo de selección, es posible que le preocupe el hecho de que la cuenta incorrecta es rara. No creo que el 5% sea raro, pero por si acaso, eche un vistazo al documento de Gary King sobre la ejecución de una logística de eventos raros. En el paquete Zelig, en R, puede ejecutar una logística de eventos raros.

Manoel Galdino
fuente
0

Bien, entonces trabajo en Detección de Fraudes para que este tipo de problema no sea nuevo para mí. Creo que la comunidad de aprendizaje automático tiene mucho que decir sobre los datos no balanceados (ya que en las clases no están balanceados). Así que hay un par de estrategias fáciles que creo que ya se han mencionado, y un par de ideas ingeniosas, y alguna forma de salir. Ni siquiera voy a pretender saber lo que esto significa para los asintóticos de su problema, pero siempre parece darme resultados razonables en la regresión logística. Puede haber un papel allí en alguna parte, aunque no estoy seguro.

Aquí están tus opciones tal como las veo:

  1. Sobremuestrear la clase minoritaria. Esto equivale a muestrear la clase minoritaria con reemplazo hasta que tenga el mismo número de observaciones que la clase mayoritaria. Hay maneras elegantes de hacer esto para que pueda hacer cosas como alterar los valores de observación, para que tenga valores cercanos al original pero no sean copias perfectas, etc.
  2. Por ejemplo, aquí es donde tomas una submuestra de la clase mayoritaria. Nuevamente, hay formas sofisticadas de hacer esto para eliminar muestras mayoritarias que son las más cercanas a las muestras minoritarias, utilizando algoritmos vecinos más cercanos, etc.
  3. Reponde las clases. Para la regresión logística, esto es lo que hago. Esencialmente, está cambiando la función de pérdida para penalizar un caso de minoría mal clasificado mucho más que una clase de mayoría mal clasificada. Pero, de nuevo, técnicamente no estás haciendo la máxima probabilidad.
  4. Simular datos Muchas ideas geniales con las que he jugado aquí. Puede usar SMOTE para generar datos, redes adversas generativas, codificadores automáticos que usan la parte generativa, estimadores de densidad del núcleo para extraer nuevas muestras.

En cualquier caso, he usado todos estos métodos, pero creo que lo más simple es volver a ponderar el problema para la regresión logística de todos modos. Sin embargo, una cosa que puede hacer para verificar su modelo es tomar:

-Intercept/beta

Ese debería ser el límite de decisión (50% de probabilidad de estar en cualquiera de las clases) en una variable dada ceteris paribus . Si no tiene sentido, por ejemplo, el límite de decisión es un número negativo en una variable que es estrictamente positivo, entonces tiene un sesgo en su regresión logística que debe corregirse.

Ryan
fuente