¿Por qué decimos que la variable de resultado "retrocede" en los predictores?

16

¿Hay alguna explicación intuitiva para esta terminología? ¿Por qué es así, y no los predictores regresan sobre el resultado?

Idealmente, espero que una explicación adecuada de por qué existe esta terminología ayudará a los estudiantes a recordarla y les impedirá decirla al revés.

user1205901 - Restablecer Monica
fuente
1
¿Hacemos? No estoy seguro de haberlo dicho nunca, y he discutido mucho la regresión. Si conoces a alguien que lo diga, tal vez podrías preguntarle. (Tengo dicho en alguna ocasión " retrocedido en " -, pero en sonaría un tanto extraño para mí)
Glen_b -Reinstate Mónica
Gracias, quise decir "encendido" y no "sobre". Ya lo arreglé.
user1205901 - Restablecer Monica

Respuestas:

19

No sé cuál es la etimología de "regresa", pero aquí está la interpretación que tengo en mente cuando digo o escucho esta expresión. Considere la siguiente figura de Los elementos del aprendizaje estadístico de Hastie et al .:

regression is projection

En su núcleo, la regresión lineal equivale a la proyección ortogonal de en (sobre) X , donde y es el vector n- dimensional de las observaciones de la variable dependiente y X es el subespacio que abarcan los vectores predictores.yXynX

Esta es una interpretación muy útil de la regresión lineal.

Dado está siendo proyectada en X , que es lo que pienso cuando escucho que y es "una regresión sobre el" X . Desde este punto de vista, tendría menos sentido decir que X es retrocedido en Y o que Y es retrocedido "en contra" o "con" X .yXyXXyyX

Idealmente, espero que una explicación adecuada de por qué existe esta terminología ayudará a los estudiantes a recordarla y les impedirá decirla al revés.

Como dije, dudo que esta sea una explicación de por qué existe esta terminología (¿quizás solo por qué persiste?), Pero estoy seguro de que puede ayudar a los estudiantes a recordarla.

ameba dice Reinstate Monica
fuente
2
+1. Depende de los estudiantes! Esta es claramente una forma válida y fructífera de hablar y pensar en niveles intermedios o avanzados. Me pregunto si es responsable de la terminología "en". No hace mucho tiempo, se podían encontrar textos de regresión casi sin diagramas, y mucho menos un enfoque fuertemente visual o geométrico, a pesar de que ahora es completamente estándar, mientras que creo que esta terminología se remonta a algunas décadas.
Nick Cox
(+1) La única forma en que obtuve el concepto de regresión a través de mi cráneo es pensarlo como la proyección de en el espacio de columna C ( A ) de la matriz modelo, que creo que es la interpretación geométrica que está mostrando. . yC(A)
Antoni Parellada
1
Esta es una muy buena razón estadística para usar la terminología. ¡Las razones sociales o lingüísticas por las que es popular podrían ser diferentes!
Nick Cox
Para ser claros: estoy totalmente de acuerdo con lo que @NickCox dijo en los comentarios aquí.
ameba dice Reinstate Monica
6

A menudo he usado y escuchado esta forma de hablar. Supongo que la secuencia que menciona el resultado o la respuesta antes de los predictores se deriva de convenciones por escrito, usando palabras o usando notación o mezclando las dos, hasta llegar a

Y=Xβ

dejando de lado la pregunta igualmente interesante (¡o poco interesante!) de lo que llamamos diferentes tipos de variables.

Pero parece igualmente válido matemáticamente y estadísticamente mencionar primero los predictores, al igual que muchos matemáticos escriben asignaciones o funciones con argumentos primero.

Lo que a menudo impulsa la secuencia que usamos en las discusiones estadísticas es que científica o prácticamente tenemos una idea clara de lo que estamos tratando de predecir: mortalidad, ingresos, rendimiento de trigo o votos en una elección, o lo que sea. - mientras que el conjunto de predictores potenciales o reales puede no ser tan claro. Incluso si está claro, tiene sentido mencionar las cosas importantes primero. ¿Que estás tratando de hacer? Predecir lo que sea . ¿Cómo vas a hacerlo? Use algunas o todas estas variables .

No tengo una historia para "en" en lugar de cualquier otra palabra que encaja. No escucho "regresado contra" o "regresado con". Puede que no haya lógica aquí, solo memes transmitidos en libros de texto, enseñanza y debates.

En general, ten cuidado. Considere un tema relacionado, el significado de "versus" . Fui educado para decir "trazar [variable del eje vertical] contra (o versus) x [variable del eje horizontal]" y el reverso me suena singularmente extraño. Sin embargo, las personas con considerable experiencia y experiencia lo hacen al revés. A veces, este tipo de diferencia puede atribuirse a maestros carismáticos e idiosincrásicos a los que has imitado desde que te sentaste a sus pies.yx

Nick Cox
fuente
+1. Pero mi interpretación personal de "regresado en" es a través de "proyectado en", vea mi respuesta. Me pregunto si muchas personas piensan en esta expresión de esta manera, o si solo soy yo.
ameba dice Reinstate Monica
3

1) El término regresión proviene del hecho de que en el modelo de regresión lineal simple usual:

y=α+βx+ϵ

yxy^y¯xx¯

|y^y¯|/sy<|xx¯|/sx

Por ejemplo, si usamos el marco de datos BOD integrado en R, entonces:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

Para una prueba ver: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) El término en viene del hecho de que los valores ajustados son la proyección de la variable de resultado en el subespacio abarcado por las variables predictoras (incluyendo la intersección) como se explica adicionalmente en muchas fuentes tales como http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .

Nota

Con respecto al comentario a continuación, lo que dice el comentarista es lo que la respuesta ya dice arriba en forma de fórmula, excepto que la respuesta lo dice correctamente. De hecho, debido a la igualdad:

(y^y¯)=β^(xx¯)

|β|<1

Utilizando los datos de Galton a los que se refiere el comentario (que está disponible en el paquete UsingR en R), ejecuté la regresión y, de hecho, la pendiente es 0.646, por lo que el niño promedio estaba más cerca de su media que su padre, pero ese no es el caso general. El uso actual de la regresión a la media se basa en la relación general correcta que mostramos en la respuesta. En el ejemplo que se muestra en el código R en la respuesta anteriorbeta>1

G. Grothendieck
fuente
1
Estoy bastante seguro de que no es de donde proviene el término regresión. En un uso temprano del término, la altura del hijo fue regresada a la altura del padre; debido a los resultados de reversión a la media mostraron que los hijos de padres altos tendían a retroceder a la media.
PaulB
Si bien eso era cierto para ese conjunto de datos en particular que no es en general cierto a menos que mida la cercanía en términos de desviaciones estándar, pero eso es precisamente lo que hace la desigualdad en la respuesta, así que tal vez simplemente no lo reconoció. De hecho, la noción moderna se basa en la formulación correcta que he establecido y no en la formulación incorrecta que no implique desviación estándar. He ampliado esto en la Nota que he agregado al final de la respuesta.
G. Grothendieck
0

Personalmente, cuando se trata de explicar la terminología, encuentro que la definición del término en sí siempre ayuda, especialmente cuando se explica a los estudiantes. La definición real de la palabra regresión es:

"volver a un estado anterior o menos desarrollado".

Entonces, una forma de explicar, supongo, sería la siguiente:

"Pensando en el resultado como el estado completamente desarrollado, tratamos de explicar el resultado utilizando estados menos desarrollados, es decir, las variables independientes. Por lo tanto, el resultado se regresa en los predictores".

Espero que ayude.

EhsanF
fuente
1
Hay más de una "definición real". Sugeriría que en la ciencia estadística la definición técnica de regresión como ajuste de un modelo (por defecto un modelo lineal) ahora es primaria y el sentido histórico. Como se capta por "regresión a la media", que sigue siendo interesante y algunas veces útil, es secundario. No me parece útil pensar que los predictores en general son "estados menos desarrollados", por ejemplo, no tiene sentido que la predicción de lluvia sea un estado menos desarrollado del rendimiento de trigo resultante. De cualquier manera, no veo cómo esto explica la expresión.
Nick Cox
Veo tu punto por completo. ¿Hay alguna manera de explicar la regresión a través de la definición que publiqué? Porque la forma en que pensaría que está "menos desarrollado" no es en el sentido de que la lluvia esté menos desarrollada que el rendimiento del trigo, sino más bien como algo que puede explicar en parte el rendimiento del trigo.
EhsanF
1
Si "menos desarrollado" no significa menos desarrollado, no puedo ver que la redacción ayude en absoluto.
Nick Cox