Elegir entre transformaciones en regresión logística

8

En la regresión lineal, las transformaciones de las variables explicativas se realizan para tener una correlación máxima con la variable dependiente.

¿Cuál es la mejor medida para elegir entre transformaciones múltiples en regresión logística ya que la variable dependiente es binaria y no continua?

El objetivo final es maximizar el levantamiento (poder predictivo) del modelo.

Jatin
fuente

Respuestas:

14

El criterio de optimización utilizado por la regresión logística (y muchos otros métodos) es la función de probabilidad. Se utiliza para estimar incluyendo múltiples representa una para lograr FITS (spline) cuadráticas, cúbicas, y trozos polinómicas. También se puede usar para elegir entre las transformaciones competidoras de pero el acto de elegir no se reflejará en la matriz de información, por lo que la variación resultante deββXXXβ^será demasiado pequeño, haciendo que los intervalos de confianza no tengan la probabilidad de cobertura establecida. Si hace que la estimación de la transformación sea un objetivo explícito del ajuste del modelo (y las splines de regresión son formas excelentes de hacerlo), preservará todos los aspectos de la inferencia estadística. Dependiendo del tamaño de la muestra, una spline cúbica restringida (lineal en ambas colas) con 4 nudos, que requiere 3 parámetros, puede ser una buena opción.

Frank Harrell
fuente
Gracias por la respuesta. Las siguientes son mis preocupaciones: 1) ¿Sería la misma transformación elegida de forma univariante si tuviera que elegir una de forma multivariante? Para mí, no hay razón para creer que los elegidos de forma univariante serán los mejores en combinación con otras variables transformadas. 2) No prefiero usar splines debido a la posibilidad de un ajuste excesivo y un rendimiento deficiente en los conjuntos de validación. Estaba pensando en usar la transformación Box-Cox para variables explicativas y encontrar la mejor transformación con el valor óptimo de . ¿Esto tiene sentido? ¿Alguna idea? λ
Jatin
No, eso no resuena. Box-Cox se usa para univariada continua , y muchos usuarios de Box-Cox no saben penalizar por la incertidumbre en ni que Box-Cox haga una suposición sólida sobre el origen de la medición (cero). Las splines no se sobreajustan más que tener demasiados predictores, y puede controlar la cantidad de ajuste con el número de nudos y con la contracción (penalización; vea la función R para la penalización cuadrática). Como dijiste, es mejor estimar las transformaciones de manera ajustada en lugar de univariante. Y\lambarms lrm
Frank Harrell
6
  1. No, en los modelos lineales la transformación no se hace (o no se debe hacer) para tener una correlación máxima con la variable dependiente. Debe hacerse para a) Cumplir con los supuestos del modelo sobre los residuos ob) Tener una variable explicativa más sensata; es decir, uno que tiene sentido, sustantivamente. Como señala @Andy, esto puede no ser suficiente. Pero, en ese caso, buscaría un método alternativo de regresión (ver más abajo) en lugar de tomar una transformación extraña. Por ejemplo, un modelo como será un desastre para explicar.Y=b0+b1x1.21+b2x2.73

  2. En la regresión logística (al menos, en la logística dicotómica) hay menos supuestos (y ninguno sobre los residuos, que yo sepa), por lo que solo se aplica b).

Incluso para modelos lineales, preferiría usar b). Y luego, si no se cumplen los supuestos, usar alguna otra forma de regresión (podría ser una regresión robusta, podría ser un modelo de spline, podría ser polinomios).

Peter Flom
fuente
La declaración have a more sensible explanatory variablees bastante ambigua y debería ampliarse. Normalmente lo tomaría como una transformación que permite una interpretación más fácil de los coeficientes de regresión, pero eso obviamente no es suficiente en sí mismo (ya sea para OLS o regresión logística).
Andy W
Como dije en mi publicación, el poder predictivo es la principal preocupación. Tener variables explicativas razonables es deseable pero no una prioridad. Por lo tanto, si me da una mejor elevación, entonces es aceptable en esta etapa. La pregunta es cómo elegir el mejor conjunto de transformaciones para dar el máximo impulso. Y=b0+b1x1.21+b2x2.73
Jatin
3

Con el modelado lineal generalizado, la medida matemática que se minimiza se denomina "desviación" (-2 * log-verosimilitud). Hay varios tipos de residuos que se pueden desarrollar. Los "residuos de desviación" son los términos individuales en una expresión modestamente compleja. Creo que estos son más comprensibles cuando se aplican a variables categóricas. Para una variable categórica que utiliza la regresión logística, estas son solo las diferencias entre las probabilidades de registro (modelo) y las probabilidades de registro (datos), pero para las variables continuas son algo más complejas. Los residuos de desviación son los que se minimizan en el proceso iterativo. Consulte esta descripción en el sitio web de UCLA para ver algunos gráficos agradables de residuos de desviación.

Me parece que el análisis de "elevación" se realiza en la escala de probabilidades, en lugar de en el registro de probabilidades o la escala de probabilidades o probabilidades. Veo que Frank Harrell ha ofrecido algunos consejos y cualquier disputa percibida entre Frank y yo debería resolverse mediante una ponderación masiva de la opinión de Frank. (Mi consejo sería comprar el libro RMS de Frank). Me sorprende que no haya ofrecido consejos para considerar métodos penalizados y que no haya emitido una advertencia contra el ajuste excesivo. Creo que elegir una transformación simplemente porque maximiza la "elevación" sería similar a elegir modelos que maximizaran la "precisión". Yo que él no apoya esa estrategia.

DWin
fuente