Pregunta filosófica sobre regresión logística: ¿por qué no se entrena el valor umbral óptimo?

13

Por lo general, en la regresión logística, ajustamos un modelo y obtenemos algunas predicciones sobre el conjunto de entrenamiento. Luego validamos de manera cruzada esas predicciones de entrenamiento (algo así como aquí ) y decidimos el valor umbral óptimo basado en algo como la curva ROC.

¿Por qué no incorporamos la validación cruzada del umbral en el modelo real y formamos todo el proceso de principio a fin?

EstadísticasSorceress
fuente

Respuestas:

19

Un umbral no está entrenado con el modelo porque la regresión logística no es un clasificador (cf., ¿Por qué la regresión logística no se llama clasificación logística? ). Es un modelo para estimar el parámetro, pag , que gobierna el comportamiento de la distribución de Bernoulli. Es decir, está asumiendo que la distribución de respuesta, condicional en las covariables, es Bernoulli, por lo que desea estimar cómo cambia el parámetro que controla esa variable en función de las covariables. Es un modelo de probabilidad directa solamente . Por supuesto, puede usarse posteriormente como un clasificador, y a veces lo es en ciertos contextos, pero sigue siendo un modelo de probabilidad.

gung - Restablece a Monica
fuente
1
Bien, entiendo esa parte de la teoría (¡gracias por esa elocuente explicación!) Pero ¿por qué no podemos incorporar el aspecto de la clasificación en el modelo? Es decir, ¿por qué no podemos encontrar p, luego encontrar el umbral y entrenar todo de principio a fin para minimizar algunas pérdidas?
EstadísticasSorceress
44
Ciertamente podría (la respuesta de @ Sycorax habla de esa posibilidad). Pero debido a que eso no es lo que es LR en sí mismo, sino más bien un aumento ad hoc, necesitaría codificar el esquema de optimización completo usted mismo. Tenga en cuenta, por cierto, que Frank Harrell ha señalado que el proceso conducirá a lo que podría considerarse un modelo inferior según muchos estándares.
gung - Restablecer Monica
1
Hmm Leí la respuesta aceptada en la pregunta relacionada aquí , y estoy de acuerdo con ella en teoría, pero a veces en las aplicaciones de clasificación de aprendizaje automático no nos interesan los tipos de error relativo, solo nos preocupa la "clasificación correcta". En ese caso, ¿podría entrenar de principio a fin como lo describo?
EstadísticasSorceress
44
Como dije, puedes configurar tu propia optimización personalizada que entrenará al modelo y seleccionará el umbral simultáneamente. Solo tiene que hacerlo usted mismo y es probable que el modelo final sea más pobre para la mayoría de los estándares.
gung - Restablece a Monica
1
@StatsSorceress "... a veces en la clasificación de aprendizaje automático ...". Debe haber un gran énfasis en algunas veces . Es difícil imaginar un proyecto donde la precisión sea ​​la respuesta correcta. En mi experiencia, siempre implica precisión y recuerdo de una clase minoritaria.
Wayne
14

Se debe a que el umbral óptimo no es solo una función de la tasa positiva verdadera (TPR), la tasa de falsos positivos (FPR), la precisión o cualquier otra cosa. El otro ingrediente crucial es el costo y la recompensa de las decisiones correctas e incorrectas .

Si su objetivo es un resfriado común, su respuesta a una prueba positiva es recetar dos aspirinas, y el costo de un verdadero positivo no tratado es un dolor innecesario de dos días de dolor de cabeza, entonces su umbral de decisión óptima (¡no clasificación!) Es bastante diferente a si su objetivo es alguna enfermedad potencialmente mortal, y su decisión es (a) algún procedimiento relativamente simple como una apendicectomía, o (b) una intervención importante como meses de quimioterapia! Y tenga en cuenta que aunque su variable objetivo puede ser binaria (enferma / saludable), sus decisiones pueden tener más valores (envíe a casa con dos aspirinas / realice más pruebas / ingrese al hospital y observe / opere de inmediato).

En pocas palabras: si conoce su estructura de costos y todas las diferentes decisiones, ciertamente puede entrenar un sistema de soporte de decisiones (DSS) directamente, que incluye una clasificación o predicción probabilística. Sin embargo, argumentaría firmemente que discretizar las predicciones o clasificaciones a través de umbrales no es la forma correcta de hacerlo.

Vea también mi respuesta al hilo anterior "Umbral de probabilidad de clasificación" . O esta respuesta mía . O que uno .

Stephan Kolassa
fuente
4

Dejando a un lado las preocupaciones filosóficas, esto causaría dificultades computacionales.

La razón es que las funciones con salida continua son relativamente fáciles de optimizar. Busca la dirección donde aumenta la función y luego va por ese camino. Si modificamos nuestra función de pérdida para incluir el paso de "corte", nuestra salida se vuelve discreta y, por lo tanto, nuestra función de pérdida también es discreta. Ahora, cuando modificamos los parámetros de nuestra función logística en "un poco" y modificamos conjuntamente el valor de corte en "un poco", nuestra pérdida da un valor idéntico y la optimización se vuelve difícil. Por supuesto, no es imposible (hay todo un campo de estudio en optimización discreta ) pero la optimización continua es, con mucho,El problema más fácil de resolver cuando está optimizando muchos parámetros. Convenientemente, una vez que el modelo logístico se ha ajustado, encontrar el punto de corte óptimo, aunque sigue siendo un problema de salida discreto, ahora solo está en una variable, y solo podemos hacer una búsqueda en la cuadrícula, o algo similar, que es totalmente viable en una variable.

Scott
fuente
3

Independientemente del modelo subyacente, podemos calcular las distribuciones de muestreo de TPR y FPR en un umbral. Esto implica que podemos caracterizar la variabilidad en TPR y FPR en algún umbral, y podemos volver a una compensación de tasa de error deseada.

Una curva ROC es un poco engañosa porque lo único que controlas es el umbral, sin embargo, el gráfico muestra TPR y FPR, que son funciones del umbral. Además, el TPR y el FPR son estadísticas , por lo que están sujetos a los caprichos del muestreo aleatorio. Esto implica que si tuviera que repetir el procedimiento (por ejemplo, mediante validación cruzada), podría obtener un FPR y un TPR diferentes en algún valor umbral específico.

Sin embargo, si podemos estimar la variabilidad en el TPR y el FPR, no es necesario repetir el procedimiento ROC. Simplemente seleccionamos un umbral tal que los puntos finales de un intervalo de confianza (con cierto ancho) sean aceptables. Es decir, elija el modelo de modo que el FPR esté plausiblemente por debajo de algún máximo especificado por el investigador, y / o el TPR esté plausiblemente por encima de un mínimo especificado por el investigador. Si su modelo no puede alcanzar sus objetivos, tendrá que construir un modelo mejor.

Por supuesto, qué valores de TPR y FPR son tolerables en su uso dependerá del contexto.

Para obtener más información, consulte Curvas ROC para datos continuos de Wojtek J. Krzanowski y David J. Hand.

Sycorax dice reinstalar a Mónica
fuente
Esto realmente no responde a mi pregunta, pero es una muy buena descripción de las curvas ROC.
StatsSorceress
¿De qué manera esto no responde a tu pregunta? ¿Cuál es su pregunta, si no se pregunta cómo elegir un umbral para la clasificación?
Sycorax dice Reinstate Monica el
2
No conozco ningún procedimiento estadístico que funcione de esa manera. ¿Por qué es una buena idea esta rueda cuadrada? ¿Qué problema soluciona?
Sycorax dice Reinstate Monica el
1
"¿Cómo elijo un umbral de una manera que reduzca el tiempo de entrenamiento?" parece una pregunta muy diferente a la de tu publicación original.
Sycorax dice Reinstate Monica el
1
De todos modos, no veo cómo esto ahorra tiempo. Hacer una curva ROC no es la parte más costosa de estimar un modelo, por lo que mover la elección del umbral al paso de optimización parece ad hoc e innecesario.
Sycorax dice Reinstate Monica el
-2

Por lo general, en la investigación biomédica, no utilizamos un conjunto de capacitación, solo aplicamos la regresión logística en el conjunto de datos completo para ver qué predictores son factores de riesgo significativos para el resultado que estamos analizando; o mirar un predictor de interés mientras se controla el efecto de otros posibles predictores en el resultado.
No estoy muy seguro de lo que quiere decir con valores umbral, pero hay varios parámetros que uno puede tratar de optimizar: AUC, valores de corte para una dicotomización de una variable predictora continua, valores predictivos positivos y negativos, intervalos de confianza y valores p, tasas de falsos positivos y falsos negativos. La regresión logística analiza una población de sujetos y evalúa la fuerza y ​​la dirección causal de los factores de riesgo que contribuyen al resultado de interés en esa población. También es posible "ejecutarlo en reversa", por así decirlo, y determinar el riesgo de un individuo del resultado dados los factores de riesgo que tiene el individuo. La regresión logística asigna a cada individuo un riesgo del resultado, en función de sus factores de riesgo individuales, y por defecto es 0.5. Si un sujeto ' Si la probabilidad de obtener el resultado (basado en todos los datos y temas en su modelo) es 0.5 o superior, predice que tendrá el resultado; si está por debajo de 0.5, entonces predice que no lo hará. Pero puede ajustar este nivel de corte, por ejemplo, para señalar a más personas que podrían estar en riesgo de tener el resultado, aunque al precio de que el modelo prediga más falsos positivos. Puede ajustar este nivel de corte para optimizar las decisiones de detección con el fin de predecir qué individuos se les recomendaría tener un seguimiento médico adicional, por ejemplo; y para construir su valor predictivo positivo, valor predictivo negativo y tasas de falso negativo y falso positivo para una prueba de detección basada en el modelo de regresión logística. Puede desarrollar el modelo en la mitad de su conjunto de datos y probarlo en la otra mitad, pero no Realmente no es necesario (y al hacerlo, reducirá sus datos de 'entrenamiento' a la mitad y, por lo tanto, reducirá el poder de encontrar predictores significativos en el modelo) Entonces sí, puedes 'entrenar todo de principio a fin'. Por supuesto, en la investigación biomédica, desearía validarlo en otra población, otro conjunto de datos antes de decir que sus resultados pueden generalizarse a una población más amplia. Otro enfoque es utilizar un enfoque de tipo bootstrapping donde ejecute su modelo en una submuestra de su población de estudio, luego reemplace a esos sujetos nuevamente en el grupo y repita con otra muestra, muchas veces (generalmente 1000 veces). Si obtiene resultados significativos la mayoría de las veces prescritas (por ejemplo, el 95% del tiempo), su modelo puede considerarse validado, al menos según sus propios datos. Pero, de nuevo, cuanto menor sea la población de estudio en la que ejecuta su modelo, menos probable será que algunos predictores sean factores de riesgo estadísticamente significativos para el resultado. Esto es especialmente cierto para los estudios biomédicos con un número limitado de participantes.
Usar la mitad de sus datos para 'entrenar' su modelo y luego 'validarlo' en la otra mitad es una carga innecesaria. No lo hace para pruebas t o regresión lineal, entonces ¿por qué hacerlo en regresión logística? Lo máximo que puede hacer es dejarle decir 'sí, funciona', pero si usa su conjunto de datos completo, entonces lo determina de todos modos. Romper sus datos en conjuntos de datos más pequeños corre el riesgo de no detectar factores de riesgo significativos en la población de estudio (O la población de validación) cuando de hecho están presentes, debido al pequeño tamaño de la muestra, tener demasiados predictores para el tamaño de su estudio y la posibilidad que su 'muestra de validación' no mostrará asociaciones solo por casualidad. La lógica detrás del enfoque 'entrenar y luego validar' parece ser que si los factores de riesgo que identifica como significativos no son lo suficientemente fuertes, entonces no serán estadísticamente significativos cuando se modelen en la mitad de sus datos elegidos al azar. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. No sea estadísticamente significativo cuando se modele en una mitad de sus datos elegida al azar. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. No sea estadísticamente significativo cuando se modele en una mitad de sus datos elegida al azar. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. s la magnitud de los factores de riesgo Y su significancia estadística que determinan su importancia y por esa razón es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. s la magnitud de los factores de riesgo Y su significancia estadística que determinan su importancia y por esa razón es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio.

Jeremy
fuente