Regresión de los residuos de regresión logística en otros regresores

9

Con la regresión OLS aplicada a la respuesta continua, se puede construir la ecuación de regresión múltiple ejecutando secuencialmente regresiones de los residuos en cada covariable. Mi pregunta es, ¿hay alguna manera de hacer esto con la regresión logística a través de los residuos de regresión logística ?

Es decir, si quiero estimar utilizando el enfoque de modelado lineal generalizado estándar, ¿hay alguna manera de ejecutar la regresión logística contra x y obtener pseudo-residuales R_1 , luego retroceder R_1 en z para Obtenga un estimador imparcial de los coeficientes de regresión logística. Se agradecerán referencias a libros de texto o literatura.Pr(Y=1|x,z)xR1R1z

Ben Ogorek
fuente
Supongo que esto no va a funcionar por la misma razón que REML no se extiende a GLM; se pierde la magia de los mínimos cuadrados. Me pregunto si funcionaría en un contexto completamente bayesiano en el que se muestreó la variable latente como parte de la simulación. La razón por la que quería hacer esto era para poder ejecutar glmnet en diferentes clases de variables y obtener diferentes cantidades de regularización para las clases; por supuesto, hay otras formas de obtener este efecto.
Ben Ogorek
¿Es esto muy similar a usar un algoritmo de ajuste posterior para la regresión logística?
usεr11852
Mencioné esto en un comentario a continuación, pero en muchas implementaciones puede pasar una predicción 'base' (parámetro de compensación en glmnet), por lo que tal vez esto sea posible después de regresar los vars dependientes. @BenOgorek, ¿desea agregar el propósito en el texto principal
Seanv507
@ seanv507 Me preocupa que agregar la parte de regularización aumente demasiado el alcance, especialmente ahora que hay algunas buenas respuestas a continuación. Después de que este Q&A termine, crearé una pregunta separada donde offset podría ser nuestro amigo.
Ben Ogorek
Esta no es una respuesta, pero no tengo suficiente reputación para comentar. La pregunta es sobre la regresión del residuo en el otro regresor (es decir, predictores ) en lugar de la regresión del residual en los residuos . Estoy confundido por las respuestas.
T Wu

Respuestas:

3

En la regresión lineal múltiple estándar, la capacidad de ajustar estimaciones de mínimos cuadrados ordinarios (MCO) en dos pasos proviene del teorema de Frisch-Waugh-Lovell . Este teorema muestra que la estimación de un coeficiente para un predictor particular en un modelo lineal múltiple es igual a la estimación obtenida mediante la regresión de los residuos de respuesta (residuos de una regresión de la variable de respuesta frente a las otras variables explicativas) frente a los residuos del predictor (residuos de una regresión de la variable predictora contra las otras variables explicativas). Evidentemente, está buscando una analogía con este teorema que pueda usarse en un modelo de regresión logística.

Para esta pregunta, es útil recordar la caracterización de la variable latente de la regresión logística :

Yi=I(Yi>0)Yi=β0+βXxi+βZzi+εiεiIID Logistic(0,1).

En esta caracterización del modelo, la variable de respuesta latente no es observable, y en su lugar observamos el indicador que nos dice si la respuesta latente es positiva o no. Esta forma del modelo es similar a la regresión lineal múltiple, excepto que usamos una distribución de error ligeramente diferente (la distribución logística en lugar de la distribución normal) y, lo que es más importante, solo observamos un indicador que muestra si la respuesta latente es positiva o no. .YiYi

Esto crea un problema para cualquier intento de crear un ajuste de dos pasos del modelo. Este teorema de Frisch-Waugh-Lovell depende de la capacidad de obtener residuos intermedios para la respuesta y el predictor de interés, en comparación con las otras variables explicativas. En el presente caso, solo podemos obtener residuos de una variable de respuesta "categorizada". La creación de un proceso de ajuste de dos pasos para la regresión logística requeriría que utilice los residuos de respuesta de esta variable de respuesta categorizada, sin acceso a la respuesta latente subyacente. Esto me parece un obstáculo importante, y aunque no demuestra imposibilidad, parece poco probable que sea posible ajustar el modelo en dos pasos.

A continuación, le daré una cuenta de lo que se necesitaría para encontrar un proceso de dos pasos que se ajuste a una regresión logística. No estoy seguro de si hay una solución a este problema, o si hay una prueba de imposibilidad, pero el material aquí debería ayudarlo a comprender lo que se requiere.


¿Cómo sería un ajuste de regresión logística de dos pasos? Supongamos que queremos construir un ajuste de dos pasos para un modelo de regresión logística donde los parámetros se estiman mediante la estimación de máxima verosimilitud en cada paso. Queremos que el proceso implique un paso intermedio que se ajuste a los siguientes dos modelos:

Yi=I(Yi>0)Yi=α0+αXxi+τiτiIID Logistic(0,1),  Zi=γ0+γXxi+δiδiIID g.

Estimamos los coeficientes de estos modelos (a través de MLE) y esto produce valores intermedios ajustados . Luego, en el segundo paso, ajustamos el modelo:α^0,α^X,γ^0,γ^X

Yi=logistic(α^0+α^1xi)+βZ(ziγ^0γ^Xxi)+ϵiϵiIID f.

Como se especifica, el procedimiento tiene una gran cantidad de elementos fijos, pero las funciones de densidad y en estos pasos se dejan sin especificar (aunque deben ser distribuciones de cero significa que no dependen de los datos). Para obtener un método de ajuste de dos pasos bajo estas limitaciones tenemos que elegir y para garantizar que el MLE para en este algoritmo de ajuste del modelo de dos etapas es el mismo que el MLE obtiene a partir del modelo de regresión logística de un solo paso encima.gfgfβZ

Para ver si esto es posible, primero escribimos todos los parámetros estimados del primer paso:

y|x(α^0,α^X)=maxα0,αXi=1nlnBern(yi|logistic(α0+αXxi)),z|x(γ^0,γ^X)=maxγ0,γXi=1nlng(ziγ0γXxi).

Deje que para que la función log-verosimilitud para el segundo paso sea:ϵi=yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)

y|z|x(βZ)=i=1nlnf(yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)).

Requerimos que el valor de maximización de esta función sea el MLE del modelo de regresión logística múltiple. En otras palabras, requerimos:

arg max βXy|z|x(βZ)=arg max βXmaxβ0,βZi=1nlnBern(yi|logistic(β0+βXxi+βZzi)).

Lo dejo a otros para determinar si hay una solución a este problema, o una prueba de que no hay solución. Sospecho que la "categorización" de la variable de respuesta latente en una regresión logística hará que sea imposible encontrar un proceso de dos pasos.

Ben - Restablece a Monica
fuente
1
Hola @Ben, gracias por enseñarme sobre el teorema de Frisch – Waugh – Lovell. Lo soplé con la recompensa: el pensamiento "expirado" significaba que simplemente dejó de ser anunciado. Lo siento por eso. Me gusta tu idea basada en la probabilidad. Podría probarlo o algo similar y publicar a continuación.
Ben Ogorek
@Ben Ogorek: No te preocupes por la recompensa. Me alegra que la respuesta haya ayudado.
Ben - Restablece a Monica el
@Ben Ogorek: (Para compensar los 25 puntos perdidos de recompensa, que se desvanecen en el éter, simplemente recorre el sitio y vota las 3 respuestas. ¡Entonces tu karma se restablece!)
Ben - Restablece a Monica el
1
¡Hecho! (Y los leí primero).
Ben Ogorek
3

Puedo estar malinterpretando la pregunta. Dudo que pueda construir la ecuación de regresión lineal por regresión en los residuos de la manera OP especificada . El método de OP solo funcionaría si los predictores son independientes entre sí.

Para que funcione, suponga que es el vector de resultado, es la matriz del modelo para los predictores que ya están en el modelo y desea incluir . Debe hacer una regresión del residual de la regresión de en contra el residual de la regresión de en para obtener el coeficiente OLS para .yXx1yXx1Xx1

Aquí hay un ejemplo simple:

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

Modelo apto con OLS:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446 

Regresión sobre residuos:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874 

Esto está mal, necesitas encajar:

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01 

Lo que devuelve el coeficiente correcto para x2, esto se alinea con las diferencias esperadas en y dadas las diferencias en x2, manteniendo constante x1 (sacándolo de y y x1).

Aparte de eso, en la regresión logística, incluso sería más problemático porque los coeficientes de regresión logística sufren un sesgo variable omitido incluso en ausencia de relaciones confusas, vea aquí y aquí , por lo que a menos que todos los predictores del resultado estén en el modelo, no se puede obtener estimaciones imparciales de los verdaderos parámetros de la población. Además, no conozco ningún residuo del modelo que sea susceptible de una segunda regresión logística con todos los valores entre 0 y 1.

Algunas referencias sobre regresión en residuos:

  • Maxwell, SE, Delaney, HD y Manheimer, JM (1985). Anova de residuos y Ancova: corrigiendo una ilusión mediante el uso de comparaciones de modelos y gráficos. Journal of Educational Statistics, 10 (3), 197–209. Recuperado de http://journals.sagepub.com/doi/pdf/10.3102/10769986010003197
  • Freckleton, RP (2002), Sobre el mal uso de los residuos en ecología: regresión de residuos versus regresión múltiple. Journal of Animal Ecology, 71 , 542-545. doi: 10.1046 / j.1365-2656.2002.00618.x
Jim heterocedastic
fuente
Creo que sus primeros dos párrafos son un poco confusos / poco claros ... sería mejor si comenzara con cómo realmente hace 'regresión lineal con residuos' ... (+ 1) y puede encontrarlo en elementos de aprendizaje estadístico ( regresión múltiple de la subsección de regresiones individuales?)
seanv507
En muchas implementaciones, puede pasar una predicción 'base' (parámetro de compensación en glmnet), por lo que tal vez esto sería posible después de la regresión de los vars dependientes
seanv507
@ seanv507 Ya lo incluyo en mi respuesta. Es la última demostración de código que tengo. Simplemente no es posible en la forma en que se describe OP, regresando los residuos en un predictor. Pero podría reescribirlo para mostrar la forma correcta desde el principio si eso es lo que quieres decir.
Heteroscedastic Jim
Sí me refería a volver a escribir para mostrar la forma correcta desde el principio,
seanv507
@ seanv507 ¿No sabes a qué te refieres con que puedes pasar una predicción base? ¿Y regresando las variables dependientes?
Heteroscedastic Jim
1

Espero no estar malinterpretando su pregunta, ya que mi respuesta va a cambiar un poco la redacción de cómo formuló su tema.

Creo que lo que está intentando hacer es construir su modelo de regresión agregando una variable independiente a la vez. Y lo hace observando qué variable prospectiva tiene la mayor correlación con el residuo de su primera regresión entre Y y X1. Entonces, la variable con la correlación más alta con este primer residual será X2. Entonces, ahora tiene un modelo con dos variables independientes X1 y X2. Y continúa con este proceso exacto para seleccionar X3, X4, etc. Este es un proceso progresivo.

Puede hacer exactamente lo mismo con la Regresión logística por la simple razón de que la Regresión logística es más o menos una Regresión OLS donde la variable dependiente es el registro de lo impar (o logit). Pero, si Y es un logit o no, no afecta el proceso de avance gradual mencionado anteriormente.

OLS minimiza la suma de los errores cuadrados para ajustarse a los datos reales. La regresión de Logit utiliza un proceso de máxima verosimilitud que genera un ajuste que no es tan diferente de OLS. Y eso también (el mecanismo de ajuste) no debería afectar el proceso progresivo que le permite construir su modelo de regresión múltiple, ya sea una Regresión OLS o una Regresión Logit.

Sympa
fuente