25

Estoy un poco confundido si una variable independiente (también llamada predictor o característica) en un modelo estadístico, por ejemplo, la en regresión lineal , ¿es una variable aleatoria? $X$ $Y=\beta_0+\beta_1 X$

regression random-variable experiment-design predictor l7ll7
fuente

12

El modelo lineal está condicionado a , por lo tanto, si es aleatorio o no, no debería importar.

X

$X$

Xi'an

44

Mira esto . Buena pregunta, por cierto.

Antoni Parellada

@ Xi'an, en el diseño fijo, los supuestos del modelo lineal no están condicionados por , vea mi respuesta. Entonces, sí importa mucho. Esa es la razón por la cual los experimentos son mucho más fáciles de interpretar que los resultados de los estudios observacionales

X

$X$

Aksakal

19

Hay dos formulaciones comunes de regresión lineal. Para centrarme en los conceptos, los resumiré un poco. La descripción matemática es un poco más complicada que la descripción en inglés, así que comencemos con la última:

La regresión lineal es un modelo en el que se supone que una respuesta es aleatoria con una distribución determinada por los regresores través de un mapa lineal y, posiblemente, por otros parámetros . $Y$ $X$ $\beta(X)$ $\theta$

En la mayoría de los casos, el conjunto de posibles distribuciones es una familia de ubicaciones con parámetros y y proporciona el parámetro . El ejemplo arquetípico es la regresión ordinaria en la que el conjunto de distribuciones es la familia Normal y es una función lineal de los regresores. $\alpha$ $\theta$ $\beta(X)$ $\alpha$ $\mathcal{N}(\mu, \sigma)$ $\mu=\beta(X)$

Debido a que aún no lo he descrito matemáticamente, todavía es una pregunta abierta a qué tipo de objetos matemáticos se refieren , , y , y creo que ese es el problema principal en este hilo. Aunque uno puede hacer varias elecciones (equivalentes), la mayoría será equivalente a, o casos especiales, de la siguiente descripción. $X$ $Y$ $\beta$ $\theta$

Regresores fijos. Los regresores se representan como vectores reales . La respuesta es una variable aleatoria (donde está dotado de un campo sigma y probabilidad). El modelo es una función (o, si lo desea, un conjunto de funciones parametrizado por ). es un submanifold topológico dimensional (generalmente segundo diferenciable) (o submanifold con límite) de dimensión del espacio de distribuciones de probabilidad. $X\in\mathbb{R}^p$ $Y:\Omega\to\mathbb{R}$ $\Omega$ $f:\mathbb{R}\times\Theta\to M^d$ $\mathbb{R}\to M^d$ $\Theta$ $M^d$ $d$ $f$ generalmente se toma como continuo (o suficientemente diferenciable). son los "parámetros molestos". Se supone que la distribución de es para algún vector dual desconocido (los "coeficientes de regresión") y desconocido . Podemos escribir este $\Theta\subset\mathbb{R}^{d-1}$ $Y$ $f(\beta(X), \theta)$ $\beta\in\mathbb{R}^{p*}$ $\theta\in\Theta$
$Y \sim f (β (X), θ) .$ $Y \sim f(\beta(X), \theta).$
Regresores aleatorios. Los regresores y la respuesta son una variable aleatoria con valor vectorial dimensional . El modelo es el mismo tipo de objeto que antes, pero ahora da la probabilidad condicional $p+1$ $Z = (X,Y): \Omega^\prime \to \mathbb{R}^p \times \mathbb{R}$ $f$
$Y | X \sim f (β (X), θ) .$ $Y|X \sim f(\beta(X), \theta).$

La descripción matemática es inútil sin alguna receta que indique cómo se pretende aplicar a los datos. En el caso del regresor fijo, concebimos que es especificado por el experimentador. Por lo tanto, podría ayudar ver a como un producto dotado de un álgebra sigma de producto. El experimentador determina y la naturaleza determina (algunos desconocidos, abstractos) . En el caso del regresor aleatorio, la naturaleza determina , el componente de la variable aleatoria determina $X$ $\Omega$ $\mathbb{R}^p\times \Omega^\prime$ $X$ $\omega\in\Omega^\prime$ $\omega\in\Omega^\prime$ $X$ $\pi_X(Z(\omega))$ $X$ (que se "observa"), y ahora tenemos un par ordenado exactamente como en el caso del regresor fijo. $(X(\omega), \omega)) \in \Omega$

El ejemplo arquetípico de regresión lineal múltiple (que expresaré usando notación estándar para los objetos en lugar de esta más general) es que para alguna constante . Como varía a lo largo de , su imagen traza de manera diferente un subconjunto unidimensional, una curva, en la variedad bidimensional de distribuciones normales.

f (β (X), σ) = N (β (x), σ)

$f(\beta(X), \sigma)=\mathcal{N}(\beta(x), \sigma)$

σ \in Θ = R^{+}

$\sigma \in \Theta = \mathbb{R}^{+}$

x

$x$

R^{p}

$\mathbb{R}^p$

Cuando, de cualquier forma, se estima como y como , el valor de es el valor predicho de asociado con si es controlado por el experimentador (caso 1) o solo se observa (caso 2). Si establecemos un valor (caso 1) u observamos una realización (caso 2) de , entonces la respuesta asociada con esa es una variable aleatoria cuya distribución es , que es desconocido pero $\beta$ $\hat\beta$ $\sigma$ $\hat\sigma$ $\hat\beta(x)$ $Y$ $x$ $x$ $x$ $X$ $Y$ $X$ $\mathcal{N}(\beta(x), \sigma)$ estimado como . $\mathcal{N}(\hat\beta(x), \hat\sigma)$

whuber
fuente

Permítanme mencionar que esta es una respuesta fantástica (pero probablemente no para todos).

l7ll7

2

PD: ¿Conoces algún libro en el que estas preguntas fundamentales se explican con tanta precisión como lo hiciste aquí? Como matemático, todos los libros que encontré reflejaban las otras respuestas aquí, que son mucho menos precisas desde un punto de vista matemático. (Esto no les hace mal, por supuesto, es sólo que esos libros no son para mí - Me encantaría un libro que es más precisa, al igual que esta respuesta.)

l7ll7

En la primera oración del último párrafo, ¿no es el valor predicho para (una realización de la variable aleatoria ), no el valor predicho para ? ¿O he entendido mal su lenguaje y "valor predicho para " significa "valor predicho cuando es el valor establecido (observado) de ?"

\hat{β} (x)

$\hat{\beta}(x)$

y

$y$

Y

$Y$

x

$x$

x

$x$

x

$x$

X

$X$

Chad

1

@ Chad Gracias por señalar el lenguaje ambiguo. He editado esa oración para aclarar el significado, lo cual es consistente con su comprensión.

whuber

7

En primer lugar, @whuber dio una excelente respuesta. Le daré una opinión diferente, quizás más simple en algún sentido, también con una referencia a un texto.

MOTIVACIÓN

$X$ puede ser aleatorio o fijo en la formulación de regresión. Esto depende de tu problema. Para los llamados estudios observacionales tiene que ser aleatorio, y para los experimentos generalmente es fijo.

Ejemplo uno Estoy estudiando el impacto de la exposición a la radiación electrónica en la dureza de una parte metálica. Entonces, tomo algunas muestras de la parte metálica y la expongo a niveles variables de radiación. Mi nivel de exposición es X, y es fijo , porque configuré los niveles que elegí. Yo controlo completamente las condiciones del experimento, o al menos lo intento. Puedo hacer lo mismo con otros parámetros, como la temperatura y la humedad.

Ejemplo dos Estás estudiando el impacto de la economía en la frecuencia de casos de fraude en las solicitudes de tarjetas de crédito. Entonces, retrocede el evento de fraude cuenta con el PIB. Usted no controla el PIB, no puede establecer el nivel deseado. Además, es probable que desee ver regresiones multivariadas, por lo que tiene otras variables como el desempleo, y ahora tiene una combinación de valores en X, que observa , pero no controla. En este caso, X es aleatorio .

Ejemplo tres Usted está estudiando la eficacia del nuevo pesticida en el campo, es decir, no en las condiciones de laboratorio, sino en la granja experimental real. En este caso, puede controlar algo, por ejemplo, puede controlar la cantidad de pesticida para poner. Sin embargo, usted no controla todo, por ejemplo, el clima o las condiciones del suelo. Ok, puedes controlar el suelo hasta cierto punto, pero no completamente. Este es un caso intermedio, donde se observan algunas condiciones y se controlan algunas condiciones . Existe todo este campo de estudio llamado diseño experimental que se centra realmente en este tercer caso, donde la investigación agrícola es una de sus principales aplicaciones.

MATES

Aquí va la parte matemática de una respuesta. Hay un conjunto de suposiciones que generalmente se presentan al estudiar la regresión lineal, llamadas condiciones de Gauss-Markov. Son muy teóricos y nadie se molesta en demostrar que tienen una configuración práctica. Sin embargo, son muy útiles para comprender las limitaciones del método de mínimos cuadrados ordinarios (MCO).

Por lo tanto, el conjunto de supuestos es diferente para X aleatorio y fijo, que corresponden aproximadamente a estudios observacionales versus experimentales. Aproximadamente, porque como mostré en el tercer ejemplo, a veces estamos realmente en el medio de los extremos. Encontré que la sección del teorema "Gauss-Markov" en la Enciclopedia del diseño de investigación de Salkind es un buen lugar para comenzar, está disponible en Google Books.

Los diferentes supuestos del diseño fijo son los siguientes para el modelo de regresión habitual : $Y=X\beta+\varepsilon$

$E[\varepsilon]=0$
Homocedasticidad, $E[\varepsilon^2]=\sigma^2$
Sin correlación serial, $E[\varepsilon_i,\varepsilon_j]=0$

vs. los mismos supuestos en el diseño aleatorio:

$E[\varepsilon|X]=0$
Homocedasticidad, $E[\varepsilon^2|X]=\sigma^2$
Sin correlación serial, $E[\varepsilon_i,\varepsilon_j|X]=0$

Como puede ver, la diferencia está en condicionar los supuestos en la matriz de diseño para el diseño aleatorio. El condicionamiento hace estos supuestos más fuertes. Por ejemplo, no solo estamos diciendo, como en el diseño fijo, que los errores tienen una media cero; en diseño aleatorio también decimos que no dependen de X, covariables.

Aksakal
fuente

2

En estadística, una variable aleatoria es la cantidad que varía aleatoriamente de alguna manera. Puede encontrar una buena discusión en este excelente hilo de CV: ¿Qué se entiende por "variable aleatoria"?

En un modelo de regresión, se supone que las variables predictoras (variables X, variables explicativas, covariables, etc.) son fijas y conocidas . No se supone que sean al azar. Se supone que toda la aleatoriedad en el modelo está en el término de error. Considere un modelo de regresión lineal simple como está formulado de manera estándar: El término de error, , es una variable aleatoria y es la fuente de la aleatoriedad en el modelo. Como resultado del término de error, es una variable aleatoria. Pero no se supone que sea una variable aleatoria. (Por supuesto, podría ser una variable aleatoria en la realidad

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y = \beta_0 + \beta_1 X + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$

ε

$\varepsilon$

Y

$Y$

X

$X$ , pero eso no se supone ni se refleja en el modelo).

gung - Restablece a Monica
fuente

¿Quieres decir que es una constante? Porque esa es la única otra forma de dar sentido a desde un punto de vista matemático, ya que es una variable aleatoria y la suma solo se define entre dos variables aleatorias y no "otra cosa" + variable aleatoria. Aunque una de las dos variables aleatorias podría ser constante, es el caso al que me refiero.

X

$X$

X

$X$

ε

$\varepsilon$

l7ll7

PD: miré todas las explicaciones de dicho enlace y ninguna muy esclarecedora: ¿por qué? Porque ninguno establece la conexión entre variables aleatorias como lo entienden los probabilistas frente a cómo lo entienden los estadísticos. Entonces, algunas respuestas repiten la definición estándar y precisa de la teoría de probabilidad, mientras que otras repiten la definición estadística vaga (aunque no está clara para mí). Pero ninguno explica realmente la conexión entre estos dos conceptos. (La única excepción es la respuesta larga del modelo ticket-in-a-box, que puede ser prometedora, pero aún así [...]

l7ll7

la diferencia no se concretó lo suficientemente clara como para ser sorprendentemente esclarecedora; Tendré que meditar en esta respuesta específica para ver si tiene algún valor)

l7ll7

@ user10324, si lo desea, puede pensar en como un conjunto de constantes. También se podría considerar como una variable no aleatoria.

X

$X$

gung - Restablece a Monica

No, la forma de pensar variable no aleatoria al respecto no funciona, por dos razones: una, como dije en los comentarios anteriores, no existe una "variable" en matemáticas, y dos, incluso si fuera , entonces la adición en ese caso no está definida, como dije en los comentarios anteriores.

l7ll7

1

No estoy seguro si entiendo la pregunta, pero si solo está preguntando, "una variable independiente debe ser siempre una variable aleatoria", entonces la respuesta es no.

Una variable independiente es una variable cuya hipótesis se correlaciona con la variable dependiente. Luego prueba si este es el caso a través del modelado (presumiblemente análisis de regresión).

Aquí hay muchas complicaciones y "ifs, buts y maybes", por lo que sugeriría obtener una copia de un libro de estadísticas o econometría básica que cubra el análisis de regresión y leerlo a fondo, o bien obtener las notas de clase de una estadística / econometría básica curso en línea si es posible.

Statsanalyst
fuente

Ok, pero ¿qué es, si no es una variable aleatoria? ¿Solo una función (por lo tanto determinista)? Estoy confundido con respecto a la naturaleza matemática del objeto " ". En realidad, he encontrado mientras tanto un libro de texto, Probabilidad y Estadística por Papoulis, donde en la página 149 dice que "da dos variables aleatorias e [...]" y luego pasa a explicar cómo regresión en . ¿Entonces parece entender como una variable aleatoria?

X

$X$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

l7ll7

PD: Quiero agregar que no existe una "variable" en matemáticas cuando la miras como un objeto "independiente" (mi experiencia es matemática). Las variables en matemáticas son solo partes de objetos independientes (por ejemplo, argumentos de función), pero no tienen un significado independiente. Si simplemente escribiera "x" en matemáticas, podría significar la función , o podría ser un número específico, si a se le asignaron valores previamente, pero no tenemos solo . Y desde log. regresión es un modelo matemático, estoy interesado en el sentido matemático de .

x \mapsto x

$x\mapsto x$

x

$x$

x

$x$

X

$X$

l7ll7

Parece que tienes una comprensión mucho mayor de las matemáticas que yo. Solo te estoy dando la respuesta estándar de economía universitaria / estadística de pregrado universitario. Me pregunto si quizás lo estarías pensando un poco, al menos desde la perspectiva del análisis práctico. Con respecto a la cita de ese libro, mi interpretación de eso es que las xey específicas a las que se refiere son aleatorias, pero eso no significa que ninguna x o y y sean aleatorias.

Statsanalyst

Por ejemplo, la variable dependiente en un modelo de tendencias de votación en la política del Reino Unido podría ser el número de votos recibidos por el candidato conservador en cada circunscripción (Montar a canadienses, Distrito a estadounidenses), y la variable independiente podría ser el precio promedio de la vivienda (un proxy para riqueza / ingresos en el Reino Unido). Ninguno de estos es una variable "aleatoria", según tengo entendido, pero sería una cosa perfectamente razonable de modelar.

Statsanalyst

De acuerdo, es bueno saber qué tipo de respuestas puedo esperar / es el estándar en los departamentos de economía / estadística y agradezco mucho esa retroalimentación (volvería a votar, pero no puedo porque ya lo hice). El problema con las matemáticas es "una vez que te vuelves negro, nunca regresas": el entrenamiento de un año en precisión matemática inducirá una sensación de inquietud si algo no es cristalino hasta que uno logre claridad [...]

l7ll7

Variable independiente = variable aleatoria?

Respuestas:

MOTIVACIÓN

MATES