Usar MSE en lugar de pérdida de registro en regresión logística

9

Supongamos que reemplazamos la función de pérdida de la regresión logística (que normalmente es log-verosimilitud) con el MSE. Es decir, que la razón de probabilidad logarítmica sea una función lineal de los parámetros, pero minimice la suma de las diferencias al cuadrado entre la probabilidad estimada y el resultado (codificado como 0/1):

Iniciar sesiónpags1-pags=β0 0+β1X1+...+βnorteXnorte

y minimice lugar de .(yyo-pagsyo)2[yyoIniciar sesiónpagsyo+(1-yyo)Iniciar sesión(1-pagsyo)]

Por supuesto, entiendo por qué la probabilidad de registro tiene sentido bajo algunos supuestos. Pero en el aprendizaje automático, donde generalmente no se hacen suposiciones, ¿cuál es la razón intuitiva por la cual el MSE es completamente irracional? (¿O hay situaciones en las que MSE podría tener sentido?).

max
fuente
Puede usar MSE como criterio de optimización, pero en ese caso no debe optimizarlo con la máxima probabilidad sino con una variante de descenso de gradiente. Esto es básicamente lo que hace el perceptrón lineal.
Digio

Respuestas:

12

La respuesta corta es que la teoría de probabilidad existe para guiarnos hacia soluciones óptimas, y maximizar algo más que la probabilidad, probabilidad penalizada o densidad bayesiana posterior da como resultado estimadores subóptimos. En segundo lugar, minimizar la suma de los errores al cuadrado conduce a estimaciones imparciales de probabilidades verdaderas. Aquí no desea estimaciones imparciales, porque tener esas estimaciones puede ser negativo o mayor que uno. Para restringir adecuadamente las estimaciones se requiere obtener estimaciones ligeramente sesgadas (hacia el centro) en general, en la escala de probabilidad (no de logit).

No crea que los métodos de aprendizaje automático no hacen suposiciones. Este problema tiene poco que ver con el aprendizaje automático.

Tenga en cuenta que una proporción individual es una estimación imparcial de la probabilidad real, por lo tanto, un modelo logístico binario con solo una intersección proporciona una estimación imparcial. Un modelo logístico binario con un único predictor que tiene categorías mutuamente excluyentes proporcionará estimaciones de probabilidades no sesgadas. Creo que un modelo que capitaliza los supuestos de aditividad y permite al usuario solicitar estimaciones fuera del rango de datos (por ejemplo, un único predictor continuo) tendrá un pequeño sesgo en la escala de probabilidad para respetar el restricción.kk[0 0,1]

Frank Harrell
fuente
4

Aunque la respuesta de Frank Harrell es correcta, creo que pierde el alcance de la pregunta. La respuesta a su pregunta es , MSE tendría sentido en un escenario no paramétrico de ML. El equivalente ML de regresión logística es el perceptrón lineal, que no hace suposiciones y hace uso MSE como una función de coste. Utiliza el descenso de gradiente en línea para el entrenamiento de parámetros y, dado que resuelve un problema de optimización convexa, las estimaciones de los parámetros deben estar en el nivel óptimo global. La principal diferencia entre los dos métodos es que con el enfoque no paramétrico no obtienes intervalos de confianza y valores p y, por lo tanto, no puedes usar tu modelo para inferencia, solo puedes usarlo para predicción.

El perceptrón lineal no hace suposiciones probabilísticas. Existe la suposición sobre los datos de que es linealmente separable, pero esto no es una suposición sobre el modelo. El MSE podría verse afectado en teoría por la heterocedasticidad, pero en la práctica este efecto es anulado por la función de activación.

Digio
fuente