¿Cómo realizar un análisis residual para predictores independientes binarios / dicotómicos en regresión lineal?

11

Estoy realizando la regresión lineal múltiple a continuación en R para predecir los rendimientos del fondo administrado.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Aquí solo GRI y MBA son predictores binarios / dicotómicos; Los predictores restantes son continuos.

Estoy usando este código para generar gráficos residuales para las variables binarias.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

Mi pregunta: Sé cómo inspeccionar gráficas residuales para predictores continuos, pero ¿cómo evalúa los supuestos de regresión lineal como la homocedasticidad cuando una variable independiente es binaria?

Parcelas residuales:

Parcela residual para GR1 Parcela residual para MBA

GeorgeOfTheRF
fuente

Respuestas:

8

@NickCox ha hecho un buen trabajo hablando de pantallas de residuos cuando tienes dos grupos. Permítanme abordar algunas de las preguntas explícitas y suposiciones implícitas que se encuentran detrás de este hilo.

La pregunta es, "¿cómo evalúa los supuestos de regresión lineal como la homocedasticidad cuando una variable independiente es binaria?" Tienes un modelo de regresión múltiple . Un modelo de regresión (múltiple) supone que solo hay un término de error, que es constante en todas partes. No es terriblemente significativo (y no es necesario) verificar la heterocedasticidad de cada predictor individualmente. Es por eso que, cuando tenemos un modelo de regresión múltiple, diagnosticamos la heterocedasticidad de los gráficos de los residuos frente a los valores pronosticados. Probablemente la gráfica más útil para este propósito es una gráfica de ubicación de escala (también llamada 'nivel de dispersión'), que es una gráfica de la raíz cuadrada del valor absoluto de los residuos frente a los valores pronosticados. Para ver ejemplos,¿Qué significa tener "varianza constante" en un modelo de regresión lineal?

Del mismo modo, no tiene que verificar los residuos para cada predictor de normalidad. (Sinceramente, ni siquiera sé cómo funcionaría eso).

Lo que puede hacer con gráficas de residuos frente a predictores individuales es verificar si la forma funcional se especifica correctamente. Por ejemplo, si los residuos forman una parábola, hay cierta curvatura en los datos que se ha perdido. Para ver un ejemplo, mire la segunda gráfica en la respuesta de @ Glen_b aquí: Verificar la calidad del modelo en regresión lineal . Sin embargo, estos problemas no se aplican con un predictor binario.

Por lo que vale, si solo tiene predictores categóricos, puede probar la heterocedasticidad. Solo usa la prueba de Levene. Lo discuto aquí: ¿Por qué la prueba de Levene de igualdad de varianzas en lugar de la relación F? En R usa ? LeveneTest del paquete del automóvil.


Editar: para ilustrar mejor el punto de que mirar un gráfico de los residuos frente a una variable predictora individual no ayuda cuando tiene un modelo de regresión múltiple, considere este ejemplo:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Puede ver en el proceso de generación de datos que no hay heterocedasticidad. Examinemos las gráficas relevantes del modelo para ver si implican heterocedasticidad problemática:

ingrese la descripción de la imagen aquí

No, nada de qué preocuparse. Sin embargo, echemos un vistazo a la gráfica de los residuos frente a la variable predictiva binaria individual para ver si parece que hay heterocedasticidad allí:

ingrese la descripción de la imagen aquí

Uh oh, parece que puede haber un problema. Sabemos por el proceso de generación de datos que no hay ninguna heterocedasticidad, y las tramas principales para explorar esto tampoco mostraron ninguna, entonces, ¿qué está sucediendo aquí? Quizás estas tramas ayuden:

ingrese la descripción de la imagen aquí

x1y x2no son independientes el uno del otro. Por otra parte, las observaciones donde x2 = 1están en los extremos. Tienen más influencia, por lo que sus residuos son naturalmente más pequeños. Sin embargo, no hay heterocedasticidad.

El mensaje para llevar a casa: su mejor opción es diagnosticar solo la heterocedasticidad de los gráficos apropiados (los gráficos residuales frente a los gráficos ajustados y el gráfico de nivel de dispersión).

gung - Restablece a Monica
fuente
¡Gracias! Para la misma regresión que estaba haciendo, encontré que Residual Vs Y es homoscedastic pero cuando verifiqué la tenencia de Residual Vs (independiente) era una forma de embudo. ¿Entonces necesito hacer alguna transformación para corregir esto? Entonces, en este contexto, solo quería entender por qué mencionó que no es necesario verificar la variable independiente Vs residual.
GeorgeOfTheRF
@ mrcet007, no, no necesitas una transformación. Si la resolución vs ajustada no muestra heterocedasticidad, está bien. Quizás una ilustración te ayude. He editado mi respuesta para agregar una demostración.
gung - Restablece a Monica
¿Puedes consultar este enlace people.duke.edu/~rnau/testing.htm . Dice verificar la variable independiente Vs residual también. Simplemente compartiendo por el bien de las discusiones. ¿Puedes comentar sobre esto? Lo que estaba pensando era que siempre debemos verificar tanto las V residuales predichas como las residuales versus las independientes. homocedasticidad (varianza constante) de los errores (a) versus tiempo (en el caso de datos de series de tiempo) (b) versus las predicciones (c) versus cualquier variable independiente
GeorgeOfTheRF
Mi comentario es que le he proporcionado una razón por la que mira los gráficos residuales frente a los predichos para verificar la heterocedasticidad y le mostré un ejemplo de cómo mirar los gráficos residuales frente a IV puede llevarlo por mal camino. No sé qué más hay que decir.
gung - Restablece a Monica
6

Es cierto que las parcelas residuales convencionales son un trabajo más duro en este caso: puede ser (mucho) más difícil ver si las distribuciones son más o menos iguales. Pero hay alternativas fáciles aquí. Simplemente está comparando dos distribuciones, y hay muchas buenas maneras de hacerlo. Algunas posibilidades son gráficos cuantiles, histogramas o gráficos de cajas superpuestos o superpuestos. Mi propio prejuicio es que las parcelas sin adornos a menudo se usan en exceso aquí: por lo general, suprimirán los detalles que deberíamos considerar, incluso si a menudo podemos descartarlo como sin importancia. Pero puedes comer tu pastel y tenerlo.

Utiliza R, pero nada estadístico en su pregunta es específico de R. Aquí utilicé Stata para una regresión en un único predictor binario y luego realicé gráficos de cajas cuantiles que comparaban los residuos para los dos niveles del predictor. La conclusión práctica en este ejemplo es que las distribuciones son casi iguales.

ingrese la descripción de la imagen aquí

Más detalles si el gráfico se ve críptico: para cada distribución, tenemos un gráfico cuantil, es decir, los valores ordenados se grafican frente a su rango (fraccional). Se superpone una caja que muestra la mediana y los cuartiles. Por lo tanto, cada cuadro se define verticalmente de la manera habitual y horizontalmente porque está delimitado por líneas para los rangos fraccionarios y .3 / 41/43/4

Nota: Vea también ¿Cómo presentar un diagrama de caja con un valor atípico extremo? incluyendo el ejemplo de @ Glen_b de tramas similares usando R. Tales tramas deberían ser fáciles en cualquier software decente; si no, su software no es decente.

Nick Cox
fuente
+1 hermoso. ¿Siente que también hay un papel para la prueba de hipótesis en los residuos aquí?
Alexis
@gung Edité tu edición. El original evidentemente no era lo suficientemente claro si lo malinterpretaste.
Nick Cox
2
@Alexis ¡Gracias! Estoy contento con la idea de que una hipótesis de dispersión igual se apoya informalmente en el gráfico en este caso. No soy de la escuela de pensamiento de que cada pequeño paso en un análisis debe ser santificado por un valor P. Desafortunadamente, nunca es fácil estar seguro de que saltas de la manera correcta, pero en la práctica también entretendría a otros modelos si tuviera dudas. Aquí el ejemplo es solo inventado para la pregunta y no forma parte de un análisis serio.
Nick Cox
Mis disculpas, Nick. No entendí el punto de esa frase. Pensé que era un error tipográfico. Ahora está más claro.
gung - Restablecer Monica
1
@whuber Eso está bien para mí. Algunas personas los encuentran confusos, o eso me han dicho.
Nick Cox