¿Por qué la regresión logística está bien calibrada y cómo arruinar su calibración?

9

En los documentos de aprendizaje de scikit sobre calibración de probabilidad, comparan la regresión logística con otros métodos y observan que el bosque aleatorio está menos calibrado que la regresión logística.

¿Por qué la regresión logística está bien calibrada? ¿Cómo podría uno arruinar la calibración de una regresión logística (no es que uno quisiera hacerlo, solo como un ejercicio)?

usuario0
fuente

Respuestas:

4

Aunque esta pregunta y su primera respuesta parecen centrarse en cuestiones teóricas de la calibración del modelo de regresión logística, la cuestión de:

¿Cómo podría uno arruinar la calibración de una regresión logística ...?

merece cierta atención con respecto a las aplicaciones del mundo real, para futuros lectores de esta página. No debemos olvidar que el modelo de regresión logística debe estar bien especificado y que este problema puede ser particularmente problemático para la regresión logística.

Primero, si las probabilidades de registro de la pertenencia a una clase no están relacionadas linealmente con los predictores incluidos en el modelo, entonces no estarán bien calibrados. El capítulo 10 de Harrell sobre Regresión logística binaria dedica unas 20 páginas a la "Evaluación del ajuste del modelo" para que uno pueda aprovechar la "imparcialidad asintótica del estimador de máxima verosimilitud", como lo expresó @whuber.

En segundo lugar, la especificación del modelo es un problema particular en la regresión logística, ya que tiene un sesgo variable omitido inherente que puede ser sorprendente para aquellos con antecedentes en regresión lineal ordinaria. Como dice esa página:

Las variables omitidas sesgarán los coeficientes de las variables incluidas, incluso si las variables omitidas no están correlacionadas con las variables incluidas.

Esa página también tiene una explicación útil de por qué es de esperar este comportamiento, con una explicación teórica para modelos probit relacionados, analíticamente manejables. Entonces, a menos que sepa que ha incluido todos los predictores relacionados con la membresía de la clase, en la práctica puede encontrarse con peligros de especificación errónea y calibración deficiente.

Con respecto a la especificación del modelo, es muy posible que los métodos basados ​​en árboles como el bosque aleatorio, que no asumen linealidad en un rango completo de valores de predictores e inherentemente brinden la posibilidad de encontrar e incluir interacciones entre predictores, terminen con un mejor rendimiento. modelo calibrado en la práctica que un modelo de regresión logística que no tiene suficientemente en cuenta los términos de interacción o la no linealidad. Con respecto al sesgo de variables omitidas, no me queda claro si algún método para evaluar las probabilidades de pertenencia a una clase puede abordar ese problema adecuadamente.

EdM
fuente
5

La regresión logística es un método de clasificación que básicamente aprende una función de probabilidad sobre el espacio de entrada ajustando los parámetros . Si las probabilidades predichas se aprenden con la función de pérdida apropiada, entonces la regresión logística tiene el potencial de aprender una estimación imparcial de las probabilidades de eventos binarios, siempre que tenga capacidad suficiente (características de entrada).πθ(x)θ

La pérdida de registro permite tal estimación imparcial. Considere el hecho de que la función de pérdida de registro es simplemente la probabilidad de registro negativa de una distribución de Bernoulli . La estimación de máxima verosimilitud para es imparcial dado un conjunto de observaciones para la variable . En el caso de la clasificación sobre algún espacio de entrada , uno puede imaginar tener una distribución de Bernoulli para todos los puntos en . Muy a menudo, solo tendrá 1 observación por distribución de Bernoulli, que se encuentra en . Aplicación conjunta de la estimación de máxima verosimilitud para todas las distribuciones de Bernoulli observadaszBer(p)pzXXyixiyiBer(π(xi))aplicará varias restricciones a . Dado que todas estas restricciones conducen a estimaciones imparciales, y siempre que la función sea ​​lo suficientemente flexible como para ajustarse a la verdadera función de probabilidad subyacente , el procedimiento de aprendizaje es consistente y convergerá al modelo óptimo a medida que obtenga Más datos. Por lo tanto, limitar la capacidad del modelo (menos características, por ejemplo) puede dificultar la calibración de una regresión logística al aumentar la distancia entre el mejor modelo que se puede aprender y el modelo verdadero.πθπθπ

Usar un modelo de observación incorrecto con la regresión logística conducirá a probabilidades no calibradas. Modelar eventos binarios con una distribución normal es inapropiado y no debe usarse en combinación con regresión logística. La función de pérdida correspondiente al modelo de observación de distribución normal es el error cuadrático medio. Por lo tanto, el uso de una pérdida de MSE dificultaría su calibración.

cortax
fuente
2
¡Con cuidado llamando a la regresión logística un método de clasificación en este sitio! Gracias por la respuesta. ¿Parece que está dando a entender que el objetivo de pérdida de registro es el motivo de la calibración (suponiendo que el modelo sea lo suficientemente flexible)?
usuario0
1
Un seguimiento - usted dice que la calibración requiere una estimación imparcial de la probabilidad - por lo tanto, la penalización arruina la calibración?
usuario0
«LogisticRegression devuelve predicciones bien calibradas por defecto, ya que optimiza directamente la pérdida de registro» - scikit-learn.org/stable/modules/calibration.html
cortax
Por definición, penalización o regularización, es una inyección de sesgo que a menudo busca reducir la varianza del estimador. Una regularización masiva puede dominar la parte de datos de la función objetivo, y definitivamente arruinar la calibración.
cortax
2
La cita de scikit-learn sobre "optimiza la pérdida de registros" no es una explicación efectiva, porque no hay una conexión necesaria entre esto y ser imparcial. A menos que me equivoque, la respuesta correcta a la pregunta deberá invocar la imparcialidad asintótica del estimador de máxima verosimilitud típicamente utilizado en los procedimientos de regresión logística.
whuber