Con la regresión OLS aplicada a la respuesta continua, se puede construir la ecuación de regresión múltiple ejecutando secuencialmente regresiones de los residuos en cada covariable. Mi pregunta es, ¿hay alguna manera de hacer esto con la regresión logística a través de los residuos de regresión logística ?
Es decir, si quiero estimar utilizando el enfoque de modelado lineal generalizado estándar, ¿hay alguna manera de ejecutar la regresión logística contra x y obtener pseudo-residuales R_1 , luego retroceder R_1 en z para Obtenga un estimador imparcial de los coeficientes de regresión logística. Se agradecerán referencias a libros de texto o literatura.
regression
logistic
residuals
Ben Ogorek
fuente
fuente
Respuestas:
En la regresión lineal múltiple estándar, la capacidad de ajustar estimaciones de mínimos cuadrados ordinarios (MCO) en dos pasos proviene del teorema de Frisch-Waugh-Lovell . Este teorema muestra que la estimación de un coeficiente para un predictor particular en un modelo lineal múltiple es igual a la estimación obtenida mediante la regresión de los residuos de respuesta (residuos de una regresión de la variable de respuesta frente a las otras variables explicativas) frente a los residuos del predictor (residuos de una regresión de la variable predictora contra las otras variables explicativas). Evidentemente, está buscando una analogía con este teorema que pueda usarse en un modelo de regresión logística.
Para esta pregunta, es útil recordar la caracterización de la variable latente de la regresión logística :
En esta caracterización del modelo, la variable de respuesta latente no es observable, y en su lugar observamos el indicador que nos dice si la respuesta latente es positiva o no. Esta forma del modelo es similar a la regresión lineal múltiple, excepto que usamos una distribución de error ligeramente diferente (la distribución logística en lugar de la distribución normal) y, lo que es más importante, solo observamos un indicador que muestra si la respuesta latente es positiva o no. .Y∗i Yi
Esto crea un problema para cualquier intento de crear un ajuste de dos pasos del modelo. Este teorema de Frisch-Waugh-Lovell depende de la capacidad de obtener residuos intermedios para la respuesta y el predictor de interés, en comparación con las otras variables explicativas. En el presente caso, solo podemos obtener residuos de una variable de respuesta "categorizada". La creación de un proceso de ajuste de dos pasos para la regresión logística requeriría que utilice los residuos de respuesta de esta variable de respuesta categorizada, sin acceso a la respuesta latente subyacente. Esto me parece un obstáculo importante, y aunque no demuestra imposibilidad, parece poco probable que sea posible ajustar el modelo en dos pasos.
A continuación, le daré una cuenta de lo que se necesitaría para encontrar un proceso de dos pasos que se ajuste a una regresión logística. No estoy seguro de si hay una solución a este problema, o si hay una prueba de imposibilidad, pero el material aquí debería ayudarlo a comprender lo que se requiere.
¿Cómo sería un ajuste de regresión logística de dos pasos? Supongamos que queremos construir un ajuste de dos pasos para un modelo de regresión logística donde los parámetros se estiman mediante la estimación de máxima verosimilitud en cada paso. Queremos que el proceso implique un paso intermedio que se ajuste a los siguientes dos modelos:
Estimamos los coeficientes de estos modelos (a través de MLE) y esto produce valores intermedios ajustados . Luego, en el segundo paso, ajustamos el modelo:α^0,α^X,γ^0,γ^X
Como se especifica, el procedimiento tiene una gran cantidad de elementos fijos, pero las funciones de densidad y en estos pasos se dejan sin especificar (aunque deben ser distribuciones de cero significa que no dependen de los datos). Para obtener un método de ajuste de dos pasos bajo estas limitaciones tenemos que elegir y para garantizar que el MLE para en este algoritmo de ajuste del modelo de dos etapas es el mismo que el MLE obtiene a partir del modelo de regresión logística de un solo paso encima.g f g f βZ
Para ver si esto es posible, primero escribimos todos los parámetros estimados del primer paso:
Deje que para que la función log-verosimilitud para el segundo paso sea:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
Requerimos que el valor de maximización de esta función sea el MLE del modelo de regresión logística múltiple. En otras palabras, requerimos:
Lo dejo a otros para determinar si hay una solución a este problema, o una prueba de que no hay solución. Sospecho que la "categorización" de la variable de respuesta latente en una regresión logística hará que sea imposible encontrar un proceso de dos pasos.
fuente
Puedo estar malinterpretando la pregunta. Dudo que pueda construir la ecuación de regresión lineal por regresión en los residuos de la manera OP especificada . El método de OP solo funcionaría si los predictores son independientes entre sí.
Para que funcione, suponga que es el vector de resultado, es la matriz del modelo para los predictores que ya están en el modelo y desea incluir . Debe hacer una regresión del residual de la regresión de en contra el residual de la regresión de en para obtener el coeficiente OLS para .y X x1 y X x1 X x1
Aquí hay un ejemplo simple:
Modelo apto con OLS:
Regresión sobre residuos:
Esto está mal, necesitas encajar:
Lo que devuelve el coeficiente correcto para x2, esto se alinea con las diferencias esperadas en y dadas las diferencias en x2, manteniendo constante x1 (sacándolo de y y x1).
Aparte de eso, en la regresión logística, incluso sería más problemático porque los coeficientes de regresión logística sufren un sesgo variable omitido incluso en ausencia de relaciones confusas, vea aquí y aquí , por lo que a menos que todos los predictores del resultado estén en el modelo, no se puede obtener estimaciones imparciales de los verdaderos parámetros de la población. Además, no conozco ningún residuo del modelo que sea susceptible de una segunda regresión logística con todos los valores entre 0 y 1.
Algunas referencias sobre regresión en residuos:
fuente
Espero no estar malinterpretando su pregunta, ya que mi respuesta va a cambiar un poco la redacción de cómo formuló su tema.
Creo que lo que está intentando hacer es construir su modelo de regresión agregando una variable independiente a la vez. Y lo hace observando qué variable prospectiva tiene la mayor correlación con el residuo de su primera regresión entre Y y X1. Entonces, la variable con la correlación más alta con este primer residual será X2. Entonces, ahora tiene un modelo con dos variables independientes X1 y X2. Y continúa con este proceso exacto para seleccionar X3, X4, etc. Este es un proceso progresivo.
Puede hacer exactamente lo mismo con la Regresión logística por la simple razón de que la Regresión logística es más o menos una Regresión OLS donde la variable dependiente es el registro de lo impar (o logit). Pero, si Y es un logit o no, no afecta el proceso de avance gradual mencionado anteriormente.
OLS minimiza la suma de los errores cuadrados para ajustarse a los datos reales. La regresión de Logit utiliza un proceso de máxima verosimilitud que genera un ajuste que no es tan diferente de OLS. Y eso también (el mecanismo de ajuste) no debería afectar el proceso progresivo que le permite construir su modelo de regresión múltiple, ya sea una Regresión OLS o una Regresión Logit.
fuente