¿Por qué el corte P> 0.5 no es "óptimo" para la regresión logística?

13

PREFACIO: No me importan los méritos de usar un límite o no, ni cómo se debe elegir un límite. Mi pregunta es puramente matemática y debido a la curiosidad.

La regresión logística modela la probabilidad condicional posterior de la clase A versus la clase B y se ajusta a un hiperplano donde las probabilidades condicionales posteriores son iguales. Entonces, en teoría, entendí que un punto de clasificación de 0.5 minimizará los errores totales independientemente del equilibrio establecido, ya que modela la probabilidad posterior (suponiendo que encuentre constantemente la misma relación de clase).

En mi ejemplo de la vida real, obtengo muy poca precisión usando P> 0.5 como mi punto de corte de clasificación (aproximadamente 51% de precisión). Sin embargo, cuando miré el AUC está por encima de 0,99. Así que miré algunos valores de corte diferentes y descubrí que P> 0.6 me dio un 98% de precisión (90% para la clase más pequeña y 99% para la clase más grande), solo el 2% de los casos se clasificaron erróneamente.

Las clases están muy desequilibradas (1: 9) y es un problema de alta dimensión. Sin embargo, asigné las clases por igual a cada conjunto de validación cruzada para que no haya una diferencia entre el equilibrio de clases entre el ajuste del modelo y la predicción. También intenté usar los mismos datos del ajuste del modelo y en las predicciones y ocurrió el mismo problema.

Estoy interesado en la razón por la cual 0.5 no minimizaría los errores, pensé que esto sería por diseño si el modelo se ajusta minimizando la pérdida de entropía cruzada.

¿Alguien tiene algún comentario sobre por qué sucede esto? ¿Se debe a la penalización añadida? ¿Alguien puede explicar qué está sucediendo?

felix000
fuente
2
Ver stats.stackexchange.com/search?q=user%3A4253+cutoff
Scortchi - Restablecer Monica
Scortchi, ¿podrías ser un poco más específico en cuanto a qué pregunta sobre los puntos de corte crees que es relevante? No vi la pregunta o respuesta relevante antes de publicar, ni ahora.
felix000
Lo siento, no quise decir que todos respondieron a su pregunta, pero pensé que todos eran relevantes al sugerir que no se utilizara la precisión en ningún punto de corte como medida de rendimiento, o al menos no un punto de corte arbitrario no calculado a partir de una utilidad función.
Scortchi - Restablece a Monica

Respuestas:

16

No tiene que obtener categorías predichas de un modelo de regresión logística. Puede estar bien quedarse con las probabilidades pronosticadas. Si lo hace llegar categorías previstas, se debe no utilizar esa información para hacer otra cosa que digamos 'esta observación es mejor clasificado en esta categoría' nada. Por ejemplo, no debe usar 'precisión' / porcentaje correcto para seleccionar un modelo.

Dicho esto, rara vez será el límite óptimo para clasificar las observaciones. Para tener una idea intuitiva de cómo podría suceder esto, imagine que tenía con observaciones en la categoría positiva. Un modelo simple de solo intercepción podría tener fácilmente falsos negativos cuando usa como punto de corte. Por otro lado, si acaba de llamar a todo positivo, tendría falso positivo, pero correcto. .50N=1009949.50199%

En términos más generales, la regresión logística está tratando de ajustar la probabilidad real positiva para las observaciones en función de variables explicativas. No está tratando de maximizar la precisión centrando las probabilidades pronosticadas alrededor del límite de . Si su muestra no es positiva, simplemente no hay razón para que maximice el porcentaje correcto..5050%.50

gung - Restablece a Monica
fuente
Hola, gracias por su explicación, sin embargo, no entiendo el ejemplo con el modelo de solo intercepción. Con el modelo de solo intercepción, tendrá 0.99 para cualquier ejemplo y, por lo tanto, tendrá el 99% de precisión al tomar cualquier valor umbral.
abcdaire
0

Creo que podría deberse a múltiples razones:

  1. Puede haber no linealidad en sus datos, por lo que agregar linealmente los pesos no siempre puede dar como resultado probabilidades correctas
  2. Las variables son una mezcla de buenos predictores y predictores débiles, por lo que la población puntuada que ronda los 0,5 se debe a predictores débiles o menos efecto de predictores fuertes. A medida que avanzas, obtienes personas para quienes el efecto de los predictores es fuerte

Por lo tanto, es posible que en algún momento tenga que jugar con el valor de corte para maximizar el rendimiento deseado, como precisión, precisión, etc. Debido a que la mayoría de las veces las poblaciones no son muy homogéneas.

usuario124690
fuente