¿Hay alguna explicación intuitiva para esta terminología? ¿Por qué es así, y no los predictores regresan sobre el resultado?
Idealmente, espero que una explicación adecuada de por qué existe esta terminología ayudará a los estudiantes a recordarla y les impedirá decirla al revés.
regression
terminology
teaching
user1205901 - Restablecer Monica
fuente
fuente
Respuestas:
No sé cuál es la etimología de "regresa", pero aquí está la interpretación que tengo en mente cuando digo o escucho esta expresión. Considere la siguiente figura de Los elementos del aprendizaje estadístico de Hastie et al .:
En su núcleo, la regresión lineal equivale a la proyección ortogonal de en (sobre) X , donde y es el vector n- dimensional de las observaciones de la variable dependiente y X es el subespacio que abarcan los vectores predictores.y X y n X
Esta es una interpretación muy útil de la regresión lineal.
Dado está siendo proyectada en X , que es lo que pienso cuando escucho que y es "una regresión sobre el" X . Desde este punto de vista, tendría menos sentido decir que X es retrocedido en Y o que Y es retrocedido "en contra" o "con" X .y X y X X y y X
Como dije, dudo que esta sea una explicación de por qué existe esta terminología (¿quizás solo por qué persiste?), Pero estoy seguro de que puede ayudar a los estudiantes a recordarla.
fuente
A menudo he usado y escuchado esta forma de hablar. Supongo que la secuencia que menciona el resultado o la respuesta antes de los predictores se deriva de convenciones por escrito, usando palabras o usando notación o mezclando las dos, hasta llegar a
dejando de lado la pregunta igualmente interesante (¡o poco interesante!) de lo que llamamos diferentes tipos de variables.
Pero parece igualmente válido matemáticamente y estadísticamente mencionar primero los predictores, al igual que muchos matemáticos escriben asignaciones o funciones con argumentos primero.
Lo que a menudo impulsa la secuencia que usamos en las discusiones estadísticas es que científica o prácticamente tenemos una idea clara de lo que estamos tratando de predecir: mortalidad, ingresos, rendimiento de trigo o votos en una elección, o lo que sea. - mientras que el conjunto de predictores potenciales o reales puede no ser tan claro. Incluso si está claro, tiene sentido mencionar las cosas importantes primero. ¿Que estás tratando de hacer? Predecir lo que sea . ¿Cómo vas a hacerlo? Use algunas o todas estas variables .
No tengo una historia para "en" en lugar de cualquier otra palabra que encaja. No escucho "regresado contra" o "regresado con". Puede que no haya lógica aquí, solo memes transmitidos en libros de texto, enseñanza y debates.
En general, ten cuidado. Considere un tema relacionado, el significado de "versus" . Fui educado para decir "trazar [variable del eje vertical] contra (o versus) x [variable del eje horizontal]" y el reverso me suena singularmente extraño. Sin embargo, las personas con considerable experiencia y experiencia lo hacen al revés. A veces, este tipo de diferencia puede atribuirse a maestros carismáticos e idiosincrásicos a los que has imitado desde que te sentaste a sus pies.y x
fuente
1) El término regresión proviene del hecho de que en el modelo de regresión lineal simple usual:
Por ejemplo, si usamos el marco de datos BOD integrado en R, entonces:
Para una prueba ver: https://en.wikipedia.org/wiki/Regression_toward_the_mean
2) El término en viene del hecho de que los valores ajustados son la proyección de la variable de resultado en el subespacio abarcado por las variables predictoras (incluyendo la intersección) como se explica adicionalmente en muchas fuentes tales como http: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / slides / linearRegression.pdf .
Nota
Con respecto al comentario a continuación, lo que dice el comentarista es lo que la respuesta ya dice arriba en forma de fórmula, excepto que la respuesta lo dice correctamente. De hecho, debido a la igualdad:
Utilizando los datos de Galton a los que se refiere el comentario (que está disponible en el paquete UsingR en R), ejecuté la regresión y, de hecho, la pendiente es 0.646, por lo que el niño promedio estaba más cerca de su media que su padre, pero ese no es el caso general. El uso actual de la regresión a la media se basa en la relación general correcta que mostramos en la respuesta. En el ejemplo que se muestra en el código R en la respuesta anteriorbeta>1
fuente
Personalmente, cuando se trata de explicar la terminología, encuentro que la definición del término en sí siempre ayuda, especialmente cuando se explica a los estudiantes. La definición real de la palabra regresión es:
"volver a un estado anterior o menos desarrollado".
Entonces, una forma de explicar, supongo, sería la siguiente:
"Pensando en el resultado como el estado completamente desarrollado, tratamos de explicar el resultado utilizando estados menos desarrollados, es decir, las variables independientes. Por lo tanto, el resultado se regresa en los predictores".
Espero que ayude.
fuente