En el análisis de regresión, ¿por qué llamamos variables independientes "independientes"?

30

Quiero decir que algunas de esas variables están fuertemente correlacionadas entre sí. ¿Cómo / por qué / en qué contexto los definimos como variables independientes ?

Amarpreet Singh
fuente
1
Eso es histórico y proviene de trabajos científicos franceses. Estoy tratando de encontrar la referencia.
Alecos Papadopoulos
1
Llamaría a un conjunto de variables "potencialmente co-dependientes" para evitar inferir la causalidad.
qed
1
Una buena pregunta!
Rafael Marazuela

Respuestas:

29

Si nos alejamos del énfasis actual en el aprendizaje automático y recordamos cuánto del análisis estadístico se desarrolló para estudios experimentales controlados, la frase "variables independientes" tiene mucho sentido.

En estudios experimentales controlados, el investigador toma independientemente las elecciones de un medicamento y sus concentraciones, o las elecciones de un fertilizante y sus cantidades por acre . El interés está en cómo una variable de respuesta de interés (por ejemplo, presión arterial, rendimiento del cultivo) depende de estas manipulaciones experimentales. Idealmente, las características de las variables independientes están estrechamente especificadas, esencialmente sin errores al conocer sus valores. Luego, la regresión lineal estándar, por ejemplo, modela las diferencias entre los valores de las variables dependientes en términos de los valores de las variables independientes más los errores residuales.

El mismo formalismo matemático utilizado para la regresión en el contexto de estudios experimentales controlados también se puede aplicar al análisis de conjuntos de datos observados con poca o ninguna manipulación experimental, por lo que quizás no sea sorprendente que la frase "variables independientes" se haya transferido a tales tipos de estudios. Pero, como señalan otros en esta página, esa es probablemente una elección desafortunada, con "predictores" o "características" más apropiadas en tales contextos.

EdM
fuente
2
Pero la elección de los niveles de la droga depende de lo que haga el investigador, razón por la cual nunca puedo recordar cuál es cuál.
mdewey
En el aprendizaje automático, las "características" son a menudo variables latentes, no observadas. Las "características observadas" son más comunes.
Neil G
18

En muchos sentidos, "variable independiente" es una elección desafortunada. Las variables no tienen que ser independientes entre sí, y por supuesto no tiene que ser independiente de la variable dependiente . En la enseñanza y en mi libro Estrategias de modelado de regresión utilizo la palabra predictor . En algunas situaciones, esa palabra no es lo suficientemente fuerte, pero funciona bien en promedio. Una descripción completa del papel de las variables (lado derecho) en un modelo estadístico puede ser demasiado larga para usarla cada vez: el conjunto de variables o medidas sobre las cuales está condicionada la distribución deEsta es otra forma de decir el conjunto de variables cuyas distribuciones no nos interesan actualmente, pero cuyos valores tratamos como constantes.X YYXY

Frank Harrell
fuente
¿Entonces todo lo que dice es que llamar variables de entrada como "independientes" es una práctica incorrecta? @Frank
Amarpreet Singh
11
Definitivamente no se supone que son independientes de NADA, por lo que es una práctica incorrecta, utilizada solo por hábito.
Frank Harrell
1
E(Y|X)
11

Estoy de acuerdo con las otras respuestas aquí que "independiente" y "dependiente" es una terminología deficiente. Como explica EdM , esta terminología surgió en el contexto de experimentos controlados en los que el investigador podía establecer los regresores independientemente uno del otro. Hay muchos términos preferibles que no tienen esta connotación causal cargada, y en mi experiencia, los estadísticos tienden a preferir los términos más neutrales. Aquí se utilizan muchos otros términos , incluidos los siguientes:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Personalmente, utilizo los términos variables explicativas y variable de respuesta, ya que esos términos no tienen connotación de independencia estadística o control, etc. (Uno podría argumentar que 'respuesta' tiene una connotación causal, pero esta es una connotación bastante débil, así que yo no lo he encontrado problemático)

Reinstalar a Mónica
fuente
1
(+1) Supongo que regresor / regresores son los términos más neutrales, pero también prefiero explicar usando explicativo / respuesta.
Frans Rodenburg
2
Estoy de acuerdo con la tendencia a preferir los términos neutrales, pero "explicativo" me parece bastante causal como en: "Las variables X explican por qué la variable Y actúa de la manera que lo hace".
timwiz
1
Supongo que significa explicativo en un sentido probabilístico, es decir, explica los cambios en la distribución de la variable de respuesta. Puede que tengas razón, pero en todos estos casos la connotación a cualquier causalidad es débil.
Vuelva a instalar Mónica
2
Explicativo implica causal, por lo que es inapropiado.
Frank Harrell
1
@ Frank: No estoy necesariamente de acuerdo con esa opinión. Explicativo se deriva de la palabra "explicar", así que supongo que solo implica que las variables explican la variable de respuesta de alguna manera. Esa explicación podría ser causal, o podría ser meramente estadística, y supongo que es la última. Sin embargo, parece que las personas están interpretando las connotaciones de estas palabras de manera diferente, por lo que reconoceré que algunos lo leerán como teniendo connotaciones causales.
Vuelva a instalar Mónica
9

Para agregar a las respuestas de Frank Harrell y Peter Flom:

Estoy de acuerdo en que llamar a una variable "independiente" o "dependiente" a menudo es engañoso. Pero algunas personas todavía hacen eso. Una vez escuché una respuesta por qué:

YXXYY X

Y

Łukasz Deryło
fuente
Está diciendo que Y depende de X (por lo que Y se llama variable dependiente) y con eso quiere decir que X no depende de Y. Pero puede haber casos en los que X puede depender de Y o correlacionarse con Y (por lo que puede ya no se le llame "independiente"). ¿Alguna opinión sobre esto?
Amarpreet Singh
No, no quiero decir que X no dependa de Y. Solo quiero decir que la explicación más básica de lo que hace el análisis de regresión es que describe cómo Y depende de X. Por lo tanto, el nombre más básico para Y sería "dependiente "
Łukasz Deryło
66
No estoy tratando de responder la pregunta "¿deberíamos llamar a X independiente?" sino más bien "¿por qué lo llamamos independiente?", como en el título de su publicación
--ukasz Deryło
5

"Dependiente" e "independiente" pueden ser términos confusos. Un sentido es pseudocausal o incluso causal y este es el que se entiende cuando se dice "variable independiente" y "variable dependiente". Queremos decir que la DV, en cierto sentido, depende de la IV. Entonces, por ejemplo, al modelar la relación de altura y peso en humanos adultos, decimos que el peso es el DV y la altura es el IV.

Esto captura algo que el "predictor" no capta, es decir, la dirección de la relación. La altura predice el peso, pero el peso también predice la altura. Es decir, si le dijeran que adivinara la altura de las personas y les dijeran su peso, eso sería útil.

Pero no diríamos que la altura depende del peso.

Peter Flom - Restablece a Monica
fuente
¿Estás siendo específico sobre el modelo SEM?
Amarpreet Singh
No. Estaba pensando en la regresión.
Peter Flom - Restablece a Monica
Ok, entonces es solo una cuestión de nombre. Me confundió que llamar a las variables de entrada como "independientes" significa algo.
Amarpreet Singh
12
DV y IV son abreviaturas comunes (que personalmente no me gustan), pero tenga cuidado con muchos economistas y algunos otros científicos sociales para quienes IV solo puede significar variable instrumental. Es menos común encontrar personas para quienes DV solo puede significar Deo volente (si Dios quiere).
Nick Cox
0

Basado en las respuestas anteriores, sí, estoy de acuerdo en que esta variable dependiente e independiente es una terminología débil. Pero puedo explicar el contexto en el que muchos de nosotros lo estamos utilizando. Usted dice que para un problema de regresión general tenemos una variable de Salida, digamos Y, cuyo valor depende de otras variables de entrada, digamos x1, x2, x3. Es por eso que se llama una "variable dependiente". Y dependiendo asimismo de este contexto solamente , y sólo para diferenciar entre la salida y la variable de entrada, x1, x2, x3 se denomina como la variable independiente. Porque a diferencia de Y, no depende de ninguna otra variable (pero sí, aquí no estamos hablando de la dependencia con ellos mismos).

Pooja Sonkar
fuente
Respondiste de forma similar a la de @Ramya R.
Amarpreet Singh
-2

Las variables independientes se llaman independientes porque no dependen de otras variables. Por ejemplo, considere el problema de predicción del precio de la vivienda. Supongamos que tenemos datos sobre house_size, location y house_price. Aquí, house_price se determina en función del tamaño y la ubicación de la casa, pero la ubicación y el tamaño de la casa pueden variar para diferentes casas.

Ramya R
fuente
44
A veces, las denominadas variables "independientes" en la regresión están correlacionadas. Por lo tanto, no son necesariamente estadísticamente independientes. Sería mejor llamarlos variables predictoras.
Michael R. Chernick
Micheal, gracias por señalar eso. Tengo una pregunta de seguimiento. En los casos en que tenemos dos variables predictoras que son colineales, ¿no descartamos una de ellas para eliminar el problema de multicolinealidad para que nuestras variables predictoras sean independientes entre sí?
Ramya R
1
No necesariamente. Depende de si afecta o no la estabilidad de las estimaciones y qué tan fuerte es la predicción cuando se incluyen ambas variables. Si dos variables tienen una correlación 0.1, no son independientes pero la relación entre ellas es débil.
Michael R. Chernick