Tengo 100,000 observaciones (9 variables indicadoras ficticias) con 1000 positivos. La regresión logística debería funcionar bien en este caso, pero la probabilidad de corte me desconcierta.
En la literatura común, elegimos 50% de corte para predecir 1s y 0s. No puedo hacer esto ya que mi modelo da un valor máximo de ~ 1%. Por lo tanto, un umbral puede estar en 0.007 o en algún lugar a su alrededor.
Entiendo las ROC
curvas y cómo el área debajo de la curva puede ayudarme a elegir entre dos modelos LR para el mismo conjunto de datos. Sin embargo, ROC no me ayuda a elegir una probabilidad de corte óptima que pueda usarse para probar el modelo con datos fuera de la muestra.
¿Debo simplemente usar un valor de corte que minimice el misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Agregado -> Para una tasa de eventos tan baja, mis tasas de clasificación errónea se ven afectadas por una gran cantidad de falsos positivos. Si bien la tasa general parece buena, ya que el tamaño total del universo también es grande, pero mi modelo no debería tener tantos falsos positivos (ya que es un modelo de retorno de la inversión). 5/10 coeff son significativos.
Respuestas:
No estoy de acuerdo con que un límite del 50% sea inherentemente válido o esté respaldado por la literatura. El único caso en el que tal corte podría estar justificado es en un diseño de casos y controles donde la prevalencia del resultado es exactamente del 50%, pero aun así la elección estaría sujeta a algunas condiciones. Creo que la razón principal para la elección del punto de corte es la característica operativa deseada de la prueba de diagnóstico.
Se puede elegir un punto de corte para lograr la sensibilidad o especificidad deseada. Para un ejemplo de esto, consulte la literatura de dispositivos médicos. La sensibilidad a menudo se establece en una cantidad fija: los ejemplos incluyen 80%, 90%, 95%, 99%, 99.9% o 99.99%. La compensación de sensibilidad / especificidad debe compararse con los daños de los errores de Tipo I y Tipo II. Muchas veces, como con las pruebas estadísticas, el daño de un error tipo I es mayor y, por lo tanto, controlamos ese riesgo. Aún así, estos daños rara vez son cuantificables. Por eso, tengo grandes objeciones a los métodos de selección de corte que se basan en una sola medida de precisión predictiva: transmiten, incorrectamente, que los daños pueden y han sido cuantificados.
Su problema de demasiados falsos positivos es un ejemplo de lo contrario: el error tipo II puede ser más dañino. Luego, puede establecer el umbral para lograr la especificidad deseada e informar la sensibilidad alcanzada en ese umbral.
Si encuentra que ambos son demasiado bajos para ser aceptables para la práctica, su modelo de riesgo no funciona y debe ser rechazado.
La sensibilidad y la especificidad se calculan fácilmente o se buscan desde una tabla en un rango completo de posibles valores de corte. El problema con el ROC es que omite la información de corte específica del gráfico. Por lo tanto, el ROC es irrelevante para elegir un valor de corte.
fuente