¿Cómo puedo usar el valor de

13

¡Los gráficos a continuación son gráficos de dispersión residual de una prueba de regresión para la cual ya se han cumplido los supuestos de "normalidad", "homocedasticidad" e "independencia"! Para probar el supuesto de "linealidad" , aunque, al observar los gráficos, se puede adivinar que la relación es curvilínea, pero la pregunta es: ¿cómo se puede usar el valor de "R2 lineal" para probar el supuesto de linealidad? ¿Cuál es el rango aceptable para el valor de "R2 lineal" para decidir si la relación es lineal? ¿Qué hacer cuando no se cumple el supuesto de linealidad y la transformación de los IV tampoco ayuda?

Aquí está el enlace a los resultados completos de la prueba.

Gráfico de dispersión:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Ciro
fuente
3
Por el aspecto de los gráficos, veo que está utilizando SPSS. Simplemente abra el gráfico para editar y busque "Agregar botón de línea de ajuste", allí encontrará algunas opciones de dibujo de líneas no lineales , por ejemplo, Loess. Verifique si esta opción le da una línea razonablemente recta.
ttnphns
@ ttnphns: agregué la trama con la línea 2 de Loess a la pregunta.
Cyrus
Bueno, parece bastante curvilíneo, ¿no? Puedes jugar más con los parámetros de Loess para ver qué sucede. Si la línea es curva, puede concluir visualmente que la relación no es lineal.
ttnphns
@Cyrus, publiqué una respuesta general a esta pregunta, pero iba a agregar un poco de interpretación en tus tramas y me di cuenta de que no estoy muy seguro de cuáles son los ejes e y en tu trama, ¿puedes aclarar? xy
Macro
@ ttnphns: sí, es curvilíneo. ¡No sé cómo tratar este modelo! En esta prueba (# 2) tengo 2 IV que afectan directamente el DV (PIT). El resultado de la regresión mostró que solo 1 de los IV afecta significativamente la DV. El R2 es muy bajo (0.172) y la linealidad también es baja (al menos, según el gráfico, cuando el IV está en niveles bajos). ¡No sé si esta prueba es aceptable o no! Incluso transformé ambos IV (calculando su LN) y volví a ejecutar la regresión, ¡pero el resultado fue aún peor!
Cyrus

Respuestas:

15

Tenga en cuenta que el supuesto de linealidad del que está hablando solo dice que la media condicional de dado X i es una función linealYiXi . No puede usar el valor de para probar esta suposición.R2

Esto se debe a que es simplemente la correlación al cuadrado entre los valores observados y pronosticados, y el valor del coeficiente de correlación no determina de forma exclusiva la relación entre X e Y (lineal o de otro tipo) y son posibles los dos escenarios siguientes: R2XY

  • alto pero el supuesto de linealidad sigue siendo incorrecto de manera importanteR2

  • bajo pero la suposición de linealidad aún se cumpleR2

Discutiré cada uno a su vez:

(1) alto, pero el supuesto de linealidad sigue siendo erróneo de una manera importante:R2 el truco aquí es manipular el hecho de que la correlación es muy sensible a los valores atípicos . Suponga que tiene predictores que se generan a partir de una distribución de la mezcla que es normal el 99 % del tiempo y una masa puntual en M el otro 1 % y una variable de respuesta que esX1,...,Xn99%M1%

Yi={Ziif XiMMif Xi=M

ZiN(μ,1)Mμμ=0,M=105XiYi

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

YiXiYiXiXi=M

R2XiYi

Yi=β0+β1Xi+εi

YiXiXivar(εi)=σ2β1R2

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

R2

Re: ¿Qué hacer cuando no se cumple el supuesto de linealidad y la transformación de los IV tampoco ayuda?

Cuando la no linealidad es un problema, puede ser útil observar las gráficas de los residuos frente a cada predictor; si hay algún patrón notable, esto puede indicar la no linealidad en ese predictor. Por ejemplo, si este gráfico revela una relación "en forma de cuenco" entre los residuos y el predictor, esto puede indicar un término cuadrático faltante en ese predictor. Otros patrones pueden indicar una forma funcional diferente. En algunos casos, puede ser que no haya intentado corregir la transformación o que el modelo verdadero no sea lineal en ninguna versión transformada de las variables (aunque puede ser posible encontrar una aproximación razonable).

R2

Macro
fuente
4

R2=11R2R221<x<2R2R2

Michael R. Chernick
fuente
Gracias michael El tamaño de mi muestra es 302. Le agradecería que pudiera ver los resultados de la prueba aquí y ver si es plausible y factible informar. TQ
Cyrus
@ Cyrus Esta es una pregunta difícil. Parece que los residuos se ajustan muy bien a la normalidad y no hay nada que pueda ver que esté mal con la regresión lineal. Tienes una cantidad decente de datos. R cuadrado es bajo porque el componente de ruido aleatorio es grande. El gráfico LOESS muestra cierta curvatura en los valores más bajos de la variable independiente. Pero no me parece convincente. Creo que bien podría ser lineal y muestra por qué R cuadrado no es un buen indicador en este caso.
Michael R. Chernick
Tq Michael :) Sí, ¡es realmente desconcertante! ¡Todos los supuestos se cumplen perfectamente, pero la linealidad! Como puede ver en el primer gráfico anterior, el R2 cuadrático (0.199) es más grande que el R2 lineal (0.172), lo que significa que puede predecir mejor el modelo. En realidad, cuando hice la regresión cuadrática (al agregar SC2), el diagrama de dispersión en el resultado fue muy heterocedético. ¡Estoy tan confundida! ¡No sé qué hacer con este modelo! Su único problema es su baja linealidad. No sé cómo justificar la linealidad si pongo el diagrama de dispersión en mi informe. La regresión cuadrática también falla para cumplir con el supuesto de homogeneidad. Ayuda
Cyrus
1
No creo que sea desconcertante. Se ve bastante lineal. Hay mucha variabilidad, por eso R cuadrado es bajo. Creo que la única forma de reducir la variabilidad sería encontrar otra variable explicativa.
Michael R. Chernick