PREFACIO: No me importan los méritos de usar un límite o no, ni cómo se debe elegir un límite. Mi pregunta es puramente matemática y debido a la curiosidad.
La regresión logística modela la probabilidad condicional posterior de la clase A versus la clase B y se ajusta a un hiperplano donde las probabilidades condicionales posteriores son iguales. Entonces, en teoría, entendí que un punto de clasificación de 0.5 minimizará los errores totales independientemente del equilibrio establecido, ya que modela la probabilidad posterior (suponiendo que encuentre constantemente la misma relación de clase).
En mi ejemplo de la vida real, obtengo muy poca precisión usando P> 0.5 como mi punto de corte de clasificación (aproximadamente 51% de precisión). Sin embargo, cuando miré el AUC está por encima de 0,99. Así que miré algunos valores de corte diferentes y descubrí que P> 0.6 me dio un 98% de precisión (90% para la clase más pequeña y 99% para la clase más grande), solo el 2% de los casos se clasificaron erróneamente.
Las clases están muy desequilibradas (1: 9) y es un problema de alta dimensión. Sin embargo, asigné las clases por igual a cada conjunto de validación cruzada para que no haya una diferencia entre el equilibrio de clases entre el ajuste del modelo y la predicción. También intenté usar los mismos datos del ajuste del modelo y en las predicciones y ocurrió el mismo problema.
Estoy interesado en la razón por la cual 0.5 no minimizaría los errores, pensé que esto sería por diseño si el modelo se ajusta minimizando la pérdida de entropía cruzada.
¿Alguien tiene algún comentario sobre por qué sucede esto? ¿Se debe a la penalización añadida? ¿Alguien puede explicar qué está sucediendo?
Respuestas:
No tiene que obtener categorías predichas de un modelo de regresión logística. Puede estar bien quedarse con las probabilidades pronosticadas. Si lo hace llegar categorías previstas, se debe no utilizar esa información para hacer otra cosa que digamos 'esta observación es mejor clasificado en esta categoría' nada. Por ejemplo, no debe usar 'precisión' / porcentaje correcto para seleccionar un modelo.
Dicho esto, rara vez será el límite óptimo para clasificar las observaciones. Para tener una idea intuitiva de cómo podría suceder esto, imagine que tenía con observaciones en la categoría positiva. Un modelo simple de solo intercepción podría tener fácilmente falsos negativos cuando usa como punto de corte. Por otro lado, si acaba de llamar a todo positivo, tendría falso positivo, pero correcto..50 norte= 100 99 49 .50 1 99 %
En términos más generales, la regresión logística está tratando de ajustar la probabilidad real positiva para las observaciones en función de variables explicativas. No está tratando de maximizar la precisión centrando las probabilidades pronosticadas alrededor del límite de . Si su muestra no es positiva, simplemente no hay razón para que maximice el porcentaje correcto..50 50 % .50
fuente
Creo que podría deberse a múltiples razones:
Por lo tanto, es posible que en algún momento tenga que jugar con el valor de corte para maximizar el rendimiento deseado, como precisión, precisión, etc. Debido a que la mayoría de las veces las poblaciones no son muy homogéneas.
fuente