¿Una regresión logística que maximiza la probabilidad necesariamente también maximiza el AUC sobre los modelos lineales?

Dado un conjunto de datos con resultados binarios algunas matrices de predicción , el modelo de regresión logística estándar estima los coeficientes que maximizan la probabilidad binomial. Cuando es rango completo, es único; cuando la separación perfecta no está presente, es finita. $y\in\{0,1\}^n$ $X\in\mathbb{R}^{n\times p}$ $\beta_{MLE}$ $X$ $\beta_{MLE}$

¿Este modelo de máxima verosimilitud también maximiza el AUC ROC (también conocido como $c$ estadística), o existe algún coeficiente estimado $\beta_{AUC} \neq \beta_{MLE}$ que obtendrá un AUC ROC más alto? Si es cierto que el MLE no necesariamente maximiza el AUC ROC, entonces otra forma de ver esta pregunta es "¿Existe una alternativa a la maximización de probabilidad que siempre maximizará el AUC ROC de una regresión logística?"

Supongo que los modelos son iguales: no estamos agregando o eliminando predictores en $X$ , o cambiando la especificación del modelo, y supongo que los modelos de maximización de probabilidad y maximización de AUC están utilizando la misma función de enlace.

logistic maximum-likelihood auc Sycorax dice reinstalar a Mónica
fuente

¿Seguramente si, por ejemplo, alguna función de enlace genera un mejor ajuste que un logit? Aparte de eso, buena pregunta, si el proceso de generación de datos se puede asumir como logit.

β_{AUC} \neq β_{MLE}

$\beta_{\text{AUC}} \neq \beta_{\text{MLE}}$

Nutle

Buena pregunta pero considera esto. ROC y AUC se utilizan para comparar dos modelos diferentes, por lo que si una solución para la estimación MLE de cualquier modelo es única, esto significa que puede obtener un AUC diferente solo si cambia la especificación del modelo actual y estima un nuevo modelo diferente modelo a través de MLE. Entonces, en este punto, otra pregunta sería: ¿existe algún otro método de estimación "mejor" (algoritmo de maximización ecc) que no sea el MLE simple aplicable al mismo modelo de modo que obtenga diferentes estimaciones de los coeficientes que conducen a nuevas "mejores" versiones beta? con mayor AUC?

Viernes

@Nutle exactamente, esa sería una especificación diferente

1 de

@ Fr1 Sí, eso es lo que significa único. Lo que estoy insinuando en mi pregunta es algo así como "¿qué pasa si hay alguna alternativa al MLE que logra un AUC más alto?" Si es cierto que hay un modelo lineal diferente (un modelo distinto del MLE) que logra un AUC más alto, entonces sería interesante saberlo.

Sycorax dice Reinstate Monica el

@Sycorax, ¿qué más asumimos? :) Las suposiciones son importantes, ya que si conocemos el verdadero DGP con el enlace y las variables utilizadas, el MLE es la estadística imparcial más potente y uniforme.

Nutle

Respuestas:

No es el caso de que $\beta_{MLE} = \beta_{AUC}$ .

Para ilustrar esto, considere que AUC puede escribirse como

$P(\hat y_1 > \hat y_0 | y_1 = 1, y_0 = 0)$

En otras palabras, el orden de las predicciones es lo único que afecta a las AUC . Este no es el caso con la función de probabilidad. Entonces, como ejercicio mental, supongamos que tenemos un solo predictor y en nuestro conjunto de datos, no vemos una separación perfecta (es decir, $\beta_{MLE}$ es finito). Ahora, si simplemente tomamos el valor del predictor más grande y lo incrementamos en una pequeña cantidad, cambiaremos la probabilidad de esta solución, pero no cambiará el AUC, ya que el orden debería seguir siendo el mismo. Por lo tanto, si el antiguo MLE maximiza el AUC, seguirá maximizando el AUC después de cambiar el predictor, pero ya no maximizará la probabilidad.

Por lo tanto, como mínimo, no es el caso de que $\beta_{AUC}$ no sea único; cualquier $\beta$ que conserva el orden de las estimaciones logra exactamente el mismo AUC. En general, ya que el AUC es sensible a los diferentes aspectos de los datos, yo creo que debemos ser capaces de encontrar un caso en el que $\beta_{MLE}$ no maximiza $\beta_{AUC}$ . De hecho, me aventuraría a suponer que esto sucede con alta probabilidad.

EDITAR (mover comentario a respuesta)

El siguiente paso es demostrar que el MLE no necesariamente maximiza el AUC (que aún no se ha probado). Uno puede hacer esto tomando algo como los predictores 1, 2, 3, 4, 5, 6, $x$ (con $x > 6$ ) con resultados 0, 0, 0, 1, 1, 1, 0. Cualquier valor positivo de $\beta$ será maximizar el AUC (independientemente del valor de $x$ ), pero podemos elegir una $x$ suficientemente grande como para que $\beta_{MLE} < 0$ .

Acantilado
fuente

(+1) ¡Ah! Por supuesto, dado que se trata de ordenar, podríamos cambiar arbitrariamente la intersección que obviamente debe cambiar el valor de probabilidad, pero el orden debe ser el mismo porque ninguno de los coeficientes de la característica ha cambiado, por lo que el AUC permanecerá fijo.

Sycorax dice Reinstate Monica el

+1. Sin embargo, ¿funciona el ejemplo de edición con

? Si necesitamos tomar

suficientemente grande para que esto funcione con

grande , ¿no la probabilidad de que tales valores existan rápidamente converja a 0, para algún logit fijo?

n \to \infty

$n \rightarrow \infty$

x

$x$

n

$n$

Nutle

@Nutle: bueno, depende de lo que quieras decir con

. Si tomamos

copias (predictores + resultados) de mi conjunto de datos de juguetes, entonces sí, el resultado se mantendría. Sin embargo, si tomamos

copias de ese conjunto de predictores, y los datos realmente provienen de un modelo de regresión logística, eso casi nunca sucedería (como usted señala). Sin embargo, tenga en cuenta que algo similar a esto podría suceder con alta probabilidad si la relación entre los predictores realmente no siguiera un modelo de regresión logística.

n \to \infty

$n \rightarrow \infty$

n

$n$

n

$n$

Cliff AB

Sí, gracias, estaba hablando del tamaño. Entonces, suponiendo que se conozca una distribución de cola tan pesada, ¿se mantendría el ejemplo si la estimación de MLE se ajustara para la distribución verdadera? Lo que quiero decir es que si la probabilidad de que tal

exista para cualquier muestra

no se acerque a 0, ¿no debería la estimación MLE reaccionar en consecuencia y no actuar como lo haría con un valor atípico? Lo siento si no estoy del todo claro aquí con la redacción

x

$x$

n

$n$

Nutle