Regresión de los residuos de regresión logística en otros regresores

Con la regresión OLS aplicada a la respuesta continua, se puede construir la ecuación de regresión múltiple ejecutando secuencialmente regresiones de los residuos en cada covariable. Mi pregunta es, ¿hay alguna manera de hacer esto con la regresión logística a través de los residuos de regresión logística ?

Es decir, si quiero estimar utilizando el enfoque de modelado lineal generalizado estándar, ¿hay alguna manera de ejecutar la regresión logística contra y obtener pseudo-residuales , luego retroceder en para Obtenga un estimador imparcial de los coeficientes de regresión logística. Se agradecerán referencias a libros de texto o literatura. $\Pr(Y = 1 | x, z)$ $x$ $R_1$ $R_1$ $z$

regression logistic residuals Ben Ogorek
fuente

Supongo que esto no va a funcionar por la misma razón que REML no se extiende a GLM; se pierde la magia de los mínimos cuadrados. Me pregunto si funcionaría en un contexto completamente bayesiano en el que se muestreó la variable latente como parte de la simulación. La razón por la que quería hacer esto era para poder ejecutar glmnet en diferentes clases de variables y obtener diferentes cantidades de regularización para las clases; por supuesto, hay otras formas de obtener este efecto.

Ben Ogorek

¿Es esto muy similar a usar un algoritmo de ajuste posterior para la regresión logística?

usεr11852

Mencioné esto en un comentario a continuación, pero en muchas implementaciones puede pasar una predicción 'base' (parámetro de compensación en glmnet), por lo que tal vez esto sea posible después de regresar los vars dependientes. @BenOgorek, ¿desea agregar el propósito en el texto principal

Seanv507

@ seanv507 Me preocupa que agregar la parte de regularización aumente demasiado el alcance, especialmente ahora que hay algunas buenas respuestas a continuación. Después de que este Q&A termine, crearé una pregunta separada donde offset podría ser nuestro amigo.

Ben Ogorek

Esta no es una respuesta, pero no tengo suficiente reputación para comentar. La pregunta es sobre la regresión del residuo en el otro regresor (es decir, predictores ) en lugar de la regresión del residual en los residuos . Estoy confundido por las respuestas.

T Wu

Respuestas:

En la regresión lineal múltiple estándar, la capacidad de ajustar estimaciones de mínimos cuadrados ordinarios (MCO) en dos pasos proviene del teorema de Frisch-Waugh-Lovell . Este teorema muestra que la estimación de un coeficiente para un predictor particular en un modelo lineal múltiple es igual a la estimación obtenida mediante la regresión de los residuos de respuesta (residuos de una regresión de la variable de respuesta frente a las otras variables explicativas) frente a los residuos del predictor (residuos de una regresión de la variable predictora contra las otras variables explicativas). Evidentemente, está buscando una analogía con este teorema que pueda usarse en un modelo de regresión logística.

Para esta pregunta, es útil recordar la caracterización de la variable latente de la regresión logística :

Y_{i} = I (Y_{i}^{*} > 0) Y_{i}^{*} = β_{0} + β_{X} x_{i} + β_{Z} z_{i} + ε_{i} ε_{i} \sim IID Logistic (0, 1) .

$Y_i = \mathbb{I}(Y_i^* > 0) \quad \quad \quad Y_i^* = \beta_0 + \beta_X x_i + \beta_Z z_i + \varepsilon_i \quad \quad \quad \varepsilon_i \sim \text{IID Logistic}(0,1).$

En esta caracterización del modelo, la variable de respuesta latente no es observable, y en su lugar observamos el indicador que nos dice si la respuesta latente es positiva o no. Esta forma del modelo es similar a la regresión lineal múltiple, excepto que usamos una distribución de error ligeramente diferente (la distribución logística en lugar de la distribución normal) y, lo que es más importante, solo observamos un indicador que muestra si la respuesta latente es positiva o no. . $Y_i^*$ $Y_i$

Esto crea un problema para cualquier intento de crear un ajuste de dos pasos del modelo. Este teorema de Frisch-Waugh-Lovell depende de la capacidad de obtener residuos intermedios para la respuesta y el predictor de interés, en comparación con las otras variables explicativas. En el presente caso, solo podemos obtener residuos de una variable de respuesta "categorizada". La creación de un proceso de ajuste de dos pasos para la regresión logística requeriría que utilice los residuos de respuesta de esta variable de respuesta categorizada, sin acceso a la respuesta latente subyacente. Esto me parece un obstáculo importante, y aunque no demuestra imposibilidad, parece poco probable que sea posible ajustar el modelo en dos pasos.

A continuación, le daré una cuenta de lo que se necesitaría para encontrar un proceso de dos pasos que se ajuste a una regresión logística. No estoy seguro de si hay una solución a este problema, o si hay una prueba de imposibilidad, pero el material aquí debería ayudarlo a comprender lo que se requiere.

¿Cómo sería un ajuste de regresión logística de dos pasos? Supongamos que queremos construir un ajuste de dos pasos para un modelo de regresión logística donde los parámetros se estiman mediante la estimación de máxima verosimilitud en cada paso. Queremos que el proceso implique un paso intermedio que se ajuste a los siguientes dos modelos:

\begin{matrix} Y_{i} = I (Y_{i}^{* *} > 0) & Y_{i}^{* *} = α_{0} + α_{X} x_{i} + τ_{i} & τ_{i} \sim IID Logistic (0, 1), \\ Z_{i} = γ_{0} + γ_{X} x_{i} + δ_{i} & δ_{i} \sim IID g . \end{matrix}

$\begin{matrix} Y_i = \mathbb{I}(Y_i^{**} > 0) & & & Y_i^{**} = \alpha_0 + \alpha_X x_i + \tau_i & & & \tau_i \sim \text{IID Logistic}(0,1), \\[6pt] & & & \text{ } \text{ } Z_i = \gamma_0 + \gamma_X x_i + \delta_i & & & \delta_i \sim \text{IID } g. \quad \quad \quad \quad \quad \\ \end{matrix}$

Estimamos los coeficientes de estos modelos (a través de MLE) y esto produce valores intermedios ajustados . Luego, en el segundo paso, ajustamos el modelo: $\hat{\alpha}_0, \hat{\alpha}_X, \hat{\gamma}_0, \hat{\gamma}_X$

Y_{i} = logistic ({\hat{α}}_{0} + {\hat{α}}_{1} x_{i}) + β_{Z} (z_{i} - {\hat{γ}}_{0} - {\hat{γ}}_{X} x_{i}) + ϵ_{i} ϵ_{i} \sim IID f .

$Y_i = \text{logistic}(\hat{\alpha}_0 + \hat{\alpha}_1 x_i) + \beta_Z (z_i - \hat{\gamma}_0 - \hat{\gamma}_X x_i) + \epsilon_i \quad \quad \quad \epsilon_i \sim \text{IID } f.$

Como se especifica, el procedimiento tiene una gran cantidad de elementos fijos, pero las funciones de densidad y en estos pasos se dejan sin especificar (aunque deben ser distribuciones de cero significa que no dependen de los datos). Para obtener un método de ajuste de dos pasos bajo estas limitaciones tenemos que elegir y para garantizar que el MLE para en este algoritmo de ajuste del modelo de dos etapas es el mismo que el MLE obtiene a partir del modelo de regresión logística de un solo paso encima. $g$ $f$ $g$ $f$ $\beta_Z$

Para ver si esto es posible, primero escribimos todos los parámetros estimados del primer paso:

\begin{aligned} ℓ_{y | x} ({\hat{α}}_{0}, {\hat{α}}_{X}) & = max_{α_{0}, α_{X}} \sum_{i = 1}^{n} \ln Bern (y_{i} | logistic (α_{0} + α_{X} x_{i})), \\ ℓ_{z | x} ({\hat{γ}}_{0}, {\hat{γ}}_{X}) & = max_{γ_{0}, γ_{X}} \sum_{i = 1}^{n} \ln g (z_{i} - γ_{0} - γ_{X} x_{i}) . \end{aligned}

$\begin{equation} \begin{aligned} \ell_{\mathbf{y}| \mathbf{x}} (\hat{\alpha}_0, \hat{\alpha}_X) &= \underset{\alpha_0, \alpha_X}{\max} \sum_{i=1}^n \ln \text{Bern}(y_i | \text{logistic}(\alpha_0 + \alpha_X x_i)), \\[10pt] \ell_{\mathbf{z}| \mathbf{x}} (\hat{\gamma}_0, \hat{\gamma}_X) &= \underset{\gamma_0, \gamma_X}{\max} \sum_{i=1}^n \ln g( z_i - \gamma_0 - \gamma_X x_i ). \end{aligned} \end{equation}$

Deje que para que la función log-verosimilitud para el segundo paso sea: $\epsilon_i = y_i - \text{logistic}(\hat{\alpha}_0 - \hat{\alpha}_1 x_i) + \beta_Z (z_i - \hat{\gamma}_0 - \hat{\gamma}_X x_i)$

ℓ_{y | z | x} (β_{Z}) = \sum_{i = 1}^{n} \ln f (y_{i} - logistic ({\hat{α}}_{0} - {\hat{α}}_{1} x_{i}) + β_{Z} (z_{i} - {\hat{γ}}_{0} - {\hat{γ}}_{X} x_{i})) .

$\ell_{\mathbf{y}|\mathbf{z}|\mathbf{x}}(\beta_Z) = \sum_{i=1}^n \ln f(y_i - \text{logistic}(\hat{\alpha}_0 - \hat{\alpha}_1 x_i) + \beta_Z (z_i - \hat{\gamma}_0 - \hat{\gamma}_X x_i)).$

Requerimos que el valor de maximización de esta función sea el MLE del modelo de regresión logística múltiple. En otras palabras, requerimos:

\underset{β_{X}}{arg max} ℓ_{y | z | x} (β_{Z}) = \underset{β_{X}}{arg max} max_{β_{0}, β_{Z}} \sum_{i = 1}^{n} \ln Bern (y_{i} | logistic (β_{0} + β_{X} x_{i} + β_{Z} z_{i})) .

$\underset{\beta_X}{\text{arg max }} \ell_{\mathbf{y}|\mathbf{z}|\mathbf{x}}(\beta_Z) = \underset{\beta_X}{\text{arg max }} \underset{\beta_0, \beta_Z}{\max} \sum_{i=1}^n \ln \text{Bern}(y_i | \text{logistic}(\beta_0 + \beta_X x_i + \beta_Z z_i)).$

Lo dejo a otros para determinar si hay una solución a este problema, o una prueba de que no hay solución. Sospecho que la "categorización" de la variable de respuesta latente en una regresión logística hará que sea imposible encontrar un proceso de dos pasos.

Ben - Restablece a Monica
fuente

Hola @Ben, gracias por enseñarme sobre el teorema de Frisch – Waugh – Lovell. Lo soplé con la recompensa: el pensamiento "expirado" significaba que simplemente dejó de ser anunciado. Lo siento por eso. Me gusta tu idea basada en la probabilidad. Podría probarlo o algo similar y publicar a continuación.

Ben Ogorek

@Ben Ogorek: No te preocupes por la recompensa. Me alegra que la respuesta haya ayudado.

Ben - Restablece a Monica el

@Ben Ogorek: (Para compensar los 25 puntos perdidos de recompensa, que se desvanecen en el éter, simplemente recorre el sitio y vota las 3 respuestas. ¡Entonces tu karma se restablece!)

Ben - Restablece a Monica el

¡Hecho! (Y los leí primero).

Ben Ogorek

Puedo estar malinterpretando la pregunta. Dudo que pueda construir la ecuación de regresión lineal por regresión en los residuos de la manera OP especificada . El método de OP solo funcionaría si los predictores son independientes entre sí.

Para que funcione, suponga que es el vector de resultado, es la matriz del modelo para los predictores que ya están en el modelo y desea incluir . Debe hacer una regresión del residual de la regresión de en contra el residual de la regresión de en para obtener el coeficiente OLS para . $y$ $X$ $x_1$ $y$ $X$ $x_1$ $X$ $x_1$

Aquí hay un ejemplo simple:

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

Modelo apto con OLS:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446

Regresión sobre residuos:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874

Esto está mal, necesitas encajar:

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01

Lo que devuelve el coeficiente correcto para x2, esto se alinea con las diferencias esperadas en y dadas las diferencias en x2, manteniendo constante x1 (sacándolo de y y x1).

Aparte de eso, en la regresión logística, incluso sería más problemático porque los coeficientes de regresión logística sufren un sesgo variable omitido incluso en ausencia de relaciones confusas, vea aquí y aquí , por lo que a menos que todos los predictores del resultado estén en el modelo, no se puede obtener estimaciones imparciales de los verdaderos parámetros de la población. Además, no conozco ningún residuo del modelo que sea susceptible de una segunda regresión logística con todos los valores entre 0 y 1.

Algunas referencias sobre regresión en residuos:

Maxwell, SE, Delaney, HD y Manheimer, JM (1985). Anova de residuos y Ancova: corrigiendo una ilusión mediante el uso de comparaciones de modelos y gráficos. Journal of Educational Statistics, 10 (3), 197–209. Recuperado de http://journals.sagepub.com/doi/pdf/10.3102/10769986010003197
Freckleton, RP (2002), Sobre el mal uso de los residuos en ecología: regresión de residuos versus regresión múltiple. Journal of Animal Ecology, 71 , 542-545. doi: 10.1046 / j.1365-2656.2002.00618.x

Jim heterocedastic
fuente

Creo que sus primeros dos párrafos son un poco confusos / poco claros ... sería mejor si comenzara con cómo realmente hace 'regresión lineal con residuos' ... (+ 1) y puede encontrarlo en elementos de aprendizaje estadístico ( regresión múltiple de la subsección de regresiones individuales?)

seanv507

En muchas implementaciones, puede pasar una predicción 'base' (parámetro de compensación en glmnet), por lo que tal vez esto sería posible después de la regresión de los vars dependientes

seanv507

@ seanv507 Ya lo incluyo en mi respuesta. Es la última demostración de código que tengo. Simplemente no es posible en la forma en que se describe OP, regresando los residuos en un predictor. Pero podría reescribirlo para mostrar la forma correcta desde el principio si eso es lo que quieres decir.

Heteroscedastic Jim

Sí me refería a volver a escribir para mostrar la forma correcta desde el principio,

seanv507

@ seanv507 ¿No sabes a qué te refieres con que puedes pasar una predicción base? ¿Y regresando las variables dependientes?

Heteroscedastic Jim

Espero no estar malinterpretando su pregunta, ya que mi respuesta va a cambiar un poco la redacción de cómo formuló su tema.

Creo que lo que está intentando hacer es construir su modelo de regresión agregando una variable independiente a la vez. Y lo hace observando qué variable prospectiva tiene la mayor correlación con el residuo de su primera regresión entre Y y X1. Entonces, la variable con la correlación más alta con este primer residual será X2. Entonces, ahora tiene un modelo con dos variables independientes X1 y X2. Y continúa con este proceso exacto para seleccionar X3, X4, etc. Este es un proceso progresivo.

Puede hacer exactamente lo mismo con la Regresión logística por la simple razón de que la Regresión logística es más o menos una Regresión OLS donde la variable dependiente es el registro de lo impar (o logit). Pero, si Y es un logit o no, no afecta el proceso de avance gradual mencionado anteriormente.

OLS minimiza la suma de los errores cuadrados para ajustarse a los datos reales. La regresión de Logit utiliza un proceso de máxima verosimilitud que genera un ajuste que no es tan diferente de OLS. Y eso también (el mecanismo de ajuste) no debería afectar el proceso progresivo que le permite construir su modelo de regresión múltiple, ya sea una Regresión OLS o una Regresión Logit.

Sympa
fuente