¿Puede una regresión lineal ser significativa si los datos no son lineales?

11

Realicé una regresión lineal que resultó con un resultado significativo, sin embargo, cuando verifiqué la linealidad del diagrama de dispersión, no estaba seguro de que los datos fueran lineales.

¿Hay alguna otra forma de probar la linealidad sin inspeccionar el diagrama de dispersión?

¿Podría la regresión lineal ser significativa si no fuera lineal?

[Editado para incluir diagramas de dispersión]

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

En el azul
fuente
3
Puede haber múltiples interpretaciones de las preguntas y respuestas múltiples (pero básicamente la respuesta es sí en todos los casos, y como su resultado lo prueba, ciertamente es posible en su caso). ¿Puedes mostrar el diagrama de dispersión? Luego, otros pueden entender lo que quiere decir con datos que no son lineales y en qué sentido el resultado significativo resultó estar presente de todos modos.
Sextus Empiricus
55
Consulte stats.stackexchange.com/search?q=anscombe+quartet para ver un conjunto clásico de ejemplos simples. En stats.stackexchange.com/a/152034/919 publiqué un algoritmo capaz de construir ejemplos para adaptarse a casi cualquier circunstancia que se te ocurra.
whuber
Por supuesto, ignorar la nolineararidad, incluso cuando la tendencia general es lineal puede conducir a inferencias comprometidas en la aplicación. Por ejemplo, si la relación verdadera es que cae bruscamente, luego se aplana a través de , la interpretación lineal de eso es que cae en una cantidad promedio sobre todos los valores de , mientras que la relación verdadera es que cae mucho más bruscamente sobre un rango mucho más estrecho de y sobre el rango restante de se ve afectado. La interpretación lineal sería mala para los efectos del tratamiento clínico o para los efectos del gasto político. X Y X Y X XYXYXYXX
Alexis
Además: la regresión lineal no es significativa o no, sino pruebas de, por ejemplo, , , , puede ser significativo o no, con cierto grado de independencia. H 0 : β x = c H 0 : F = c H 0 : R 2 = cH0:β0=cH0:βx=cH0:F=cH0:R2=c
Alexis
Gracias por las respuestas y disculpas por la lenta respuesta. ¡He estado lejos de la tecnología! He editado la publicación para incluir gráficos de dispersión para esas regresiones que fueron significativas. Cualquier consejo sobre cómo proceder sería muy apreciado.
IntoTheBlue

Respuestas:

18

Las relaciones no lineales monótonas casi siempre se mostrarán significativas al modelar como modelos lineales. Si la relación es no lineal y no monotónica, entonces depende de la muestra.

y=lnxy=x3y=x2y=sinx

x[1,1]y=sinxyx

ingrese la descripción de la imagen aquí

x[0,π]ingrese la descripción de la imagen aquí

Aksakal
fuente
13
+1. Pero tenga en cuenta que el término correcto es "monótono". "Monótono" significa aburrido y tedioso a través de la repetición.
whuber
22
lnxsinx
+1 También sugeriría definir qué significa monotónico.
Mark White el
Gracias, he actualizado la publicación para incluir diagramas de dispersión. Cualquier consejo sobre cómo proceder sería muy apreciado.
IntoTheBlue
(xx¯)2
3

Sí, Aksakal tiene razón y una regresión lineal puede ser significativa si la verdadera relación no es lineal. Una regresión lineal encuentra una línea de mejor ajuste a través de sus datos y simplemente prueba, si la pendiente es significativamente diferente de 0.

Antes de intentar encontrar una prueba estadística de no linealidad, sugeriría reflexionar sobre lo que desea modelar primero. ¿Espera una relación lineal (no lineal) entre sus dos variables? ¿Qué estás tratando de descubrir exactamente? Si tiene sentido suponer que existe una relación no lineal como, por ejemplo, entre la velocidad del automóvil y la distancia de frenado, puede agregar términos cuadrados (u otras transformaciones) de su variable independiente.

Además, una inspección visual de sus datos (diagrama de dispersión) es un método muy poderoso y un primer paso esencial en su análisis.

Pawel
fuente
YX
También: ¡Bienvenido a CV, Pawel!
Alexis
2
@ Alexis Tienes razón. Pero agregar un término cuadrático sigue siendo una recomendación comúnmente vista en algunos textos como una forma rápida y sucia de verificar la no linealidad (entendiendo que nadie sugiere que sea la única o incluso la primera forma de modelar no linealidades), así que estoy no tan preocupado por ese pasaje.
whuber
+1 @whuber Lamentablemente, me he encontrado con muchos investigadores, estudiantes y profesores que practican la adición de un término cuadrático como la primera verificación más allá de mirar un diagrama de dispersión como "cómo probar la no linealidad", con un resultado negativo interpretado como "lineal es suficiente ". (Los términos cuadráticos pueden ser útiles, y los he usado en mi propia investigación. :) Creo que mi perspectiva de "rápido y sucio" es que lo que se enseña como fácil, se vuelve riguroso para la abrumadora mayoría de los investigadores. .. Creo que las regresiones no paramétricas son tan "fáciles" como lineales y una mejor herramienta para explorar.
Alexis
@ Alexis Gracias. Creo que me has entendido mal. No estaba recomendando agregar términos cuadrados para probar la no linealidad, pero definitivamente se pueden hacer casos para términos cuadrados (u otras transformaciones. Los datos económicos a menudo se transforman logarítmicamente). Creo que debe haber una distinción entre análisis exploratorio y explicativo. Si hay motivos justificados para asumir una relación al cuadrado, entonces esto debe ser probado. Lo que está proponiendo es un enfoque más exploratorio.
Pawel
-2

Estoy de acuerdo con todo lo que dice Aksakal. Pero en cuanto a la primera pregunta, creo que la respuesta es la correlación. La correlación mide hasta qué punto existe una relación lineal entre los conjuntos de datos x e y.

meh
fuente
2
y=lnx
@gung Sí, lo hago. ¿Qué afirmación suya consideras incorrecta? Permítanme sugerir que entiendo lo que significan las palabras lineal y no lineal y que, como en la respuesta de Aksakal, es realmente fácil encontrar ejemplos de variables con una relación exacta y no lineal. No obstante, la correlación es una medida de la relación lineal y una correlación de +/- 1 significa que la relación es realmente lineal. Cualquier correlación menor que eso significa que la relación es (no exactamente) lineal, pero puede ser lo suficientemente cercana.
meh
1
El OP "realizó una regresión lineal que resultó con un resultado significativo", pero el diagrama de dispersión implicaba que la relación no era lineal. Una correlación probablemente también habría sido significativa, de hecho, si la regresión tuviera solo 1 variable X, los valores p de la regresión y la correlación serían idénticos. Pero si la relación no fuera lineal a pesar de la regresión significativa, todavía no sería lineal a pesar de la correlación significativa. Por lo tanto, una correlación significativa no es evidencia de que la relación sea lineal.
gung - Restablece a Monica
1
r=1r=1r1
1
Esto puede sonar demasiado sutil o incluso quisquilloso, pero (a) estoy de acuerdo en que la correlación es una forma de medir la linealidad de una relación bivariada, es un teorema matemático, después de todo, pero (b) como una proposición general, dudo que podría interpretarse como algo más que una forma extremadamente cruda de evaluar la no linealidad. La evidencia de no linealidad puede ser sorprendente en un conjunto de datos con alta correlación absoluta de muestra y estar completamente ausente en un conjunto de datos con pequeña correlación absoluta. (cc @gung)
whuber