Regresión lineal, expectativas condicionales y valores esperados.

11

De acuerdo, así que solo un poco confuso en algunas cosas, cualquier ayuda sería muy apreciada. Entiendo que el modelo de regresión lineal se predice a través de una expectativa condicional

E(Y|X)=b+Xb+e
  1. ¿Asumimos que tanto como son variables aleatorias con alguna distribución de probabilidad desconocida? Tenía entendido que solo los residuos y los coeficientes beta estimados eran variables aleatorias. si es así, como ejemplo, si obesidad y edad, si tomamos la expectativa condicional , ¿cuál es el valor esperado de ser obeso si el individuo tiene en la muestra? solo tome el promedio (media aritmética) de y para esas observaciones donde ? ¿pero el valor esperado no implica que debemos multiplicar esto por la probabilidad de que ocurra? pero cómo en ese sentido encontramos la probabilidad de laY Y = X = E ( Y | X = 35 ) 35 X = 35 XXYY=X=E(Y|X=35)35X=35X-valor de valor que ocurre si representa algo así como la edad?
  2. Si representara algo así como el tipo de cambio, ¿se clasificaría como aleatorio? ¿Cómo demonios encontrarías el valor esperado de esto sin saber la probabilidad? o el valor esperado sería igual a la media en el límite.X
  3. Si no asumimos que las variables dependientes son en sí mismas variables aleatorias, ya que no anulamos la probabilidad, ¿qué suponemos que son? solo valores fijos o algo? pero si este es el caso, ¿cómo podemos condicionar una variable no aleatoria para empezar? ¿Qué asumimos acerca de la distribución de variables independientes?

Lo siento si algo no tiene sentido o es obvio para alguien.

William Carulli
fuente
1
El coeficiente de regresión es una constante desconocida, no una variable aleatoria (al menos en un mundo frecuentista). β
Richard Hardy
¿Qué quieres decir con expectativas condicionales? E (Y | X) simplemente significa Y dado X, es decir, el valor esperado de Y en X. Digamos, y = 5 + x, entonces tu E (Y | X = 5) es 10. No obtuve tu punto con expectativa condicional
Zamir Akimbekov
@ RichardHardy, entendí que dado que B es la media de la distribución de muestreo de las beta, es una variable aleatoria caracterizada por una distribución normal. ¿Te refieres al modelo de población?
William Carulli
Sí, modelo de población.
Richard Hardy
1
@WilliamCarulli Richard se refiere a la diferencia entre un parámetro de población y un parámetro estimado. El parámetro estimado es de hecho una variable aleatoria, pero el parámetro de población real (desconocido) es un valor fijo.
Matthew Drury

Respuestas:

8

En el modelo de probabilidad que subyace a la regresión lineal, X e Y son variables aleatorias.

si es así, como ejemplo, si Y = obesidad y X = edad, si tomamos la expectativa condicional E (Y | X = 35), ¿cuál es el valor esperado de ser obeso si el individuo tiene 35 años en la muestra? solo tome el promedio (media aritmética) de y para esas observaciones donde X = 35?

Así es. En general, no puede esperar tener suficientes datos en cada valor específico de X, o puede ser imposible hacerlo si X puede tomar un rango continuo de valores. Pero conceptualmente, esto es correcto.

¿pero el valor esperado no implica que debemos multiplicar esto por la probabilidad de que ocurra?

Esta es la diferencia entre la expectativa incondicional y la expectativa condicional . La relación entre ellos esE [ Y X = x ]E[Y]E[YX=x]

E[Y]=xE[YX=x]Pr[X=x]

cual es la ley de la expectativa total.

pero, ¿en qué sentido encontramos la probabilidad de que ocurra la variable del valor X si representa algo así como la edad?

Generalmente no lo hace en regresión lineal. Como estamos tratando de determinar , no necesitamos saber .E[YX]Pr[X=x]

Si no asumimos que las variables independientes son en sí mismas variables aleatorias, ya que no anulamos la probabilidad, ¿qué suponemos que son? solo valores fijos o algo?

Nos qué asumimos que Y es una variable aleatoria. Una forma de pensar en la regresión lineal es como un modelo de probabilidad paraY

YXβ+N(0,σ)

Lo que dice que, una vez que conoce el valor de X, la variación aleatoria en Y se limita a la suma y .N(0,σ)

Matthew Drury
fuente
Muchas gracias por tu comentario, me ayudaron inmensamente. salud.
William Carulli
@WilliamCarulli ¡De nada! No dude en hacer cualquier pregunta de seguimiento y haré todo lo posible para responder. Si realmente resolví todos tus problemas, puedes aceptarlo también.
Matthew Drury
3
Esta es una buena publicación. Sin embargo, creo que cualquier respuesta que no reconozca que (a) se puede arreglar o (b) puede ser una variable aleatoria (con supuestos de independencia particulares) no está realmente abordando las preocupaciones expresadas en la pregunta. X
whuber
@MatthewDrury, solo para aclarar, si mi variable dependiente es decir el tipo de cambio, y mi dependiente es la tasa de interés nacional, entonces
William Carulli
@ MatthewDrury @ MatthewDrury, solo para aclarar, si mi variable dependiente es decir la tasa de cambio, y mi dependiente es la tasa de interés nacional, entonces E (E (tasa de cambio | tasa de interés)) = E (tasa de cambio) = la media muestral de la tasa de cambio? Supongo que lo que me confunde es que siempre asumo que las expectativas se calculan en función de las probabilidades, no veo la razón para denotar la regresión lineal como una expectativa condicional cuando resolverlo a través del álgebra matricial parece muy diferente de tomar la expectativa general.
William Carulli
3

Habrá MUCHAS respuestas a esta pregunta, pero aún quiero agregar una, ya que usted hizo algunos puntos interesantes. Por simplicidad, solo considero el modelo lineal simple.

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

La ecuación fundamental de un simple análisis de regresión lineal es: Este significado ecuación es que el valor medio de es lineal en los valores de . También se puede notar que el valor esperado también es lineal en los parámetros y , razón por la cual el modelo se llama lineal. Esta ecuación fundamental se puede volver a escribir como: donde es una variable aleatoria con media cero:Y X β 0 β 1 Y = β 0 + β 1 X + ϵ , ϵ

E(Y|X)=β0+β1X,
YXβ0β1
Y=β0+β1X+ϵ,
ϵE(ϵ)=0
Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random 

La variable independiente puede ser aleatoria o fija. La variable dependiente es SIEMPRE aleatoria.YXY

Por lo general, se supone que son números fijos. Esto se debe a que el análisis de regresión se desarrolló y se aplica ampliamente en el contexto de experimentos diseñados, donde los valores de se fijaron previamente.X{X1,...,Xn}X

Las fórmulas para las estimaciones de mínimos cuadrados de y son las mismas, incluso si se supone que las son aleatorias, pero la distribución de estas estimaciones generalmente no será la misma en comparación con la situación con fijas .β 1 X Xβ0β1XX

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

En el modelo lineal simple, puede construir una estimación de basada en las estimaciones de y , a saber: El condicional de mínimos cuadrados tiene una expresión igual a la que usted describió si su modelo trata los diferentes pesos como niveles de un solo factor. Esos modelos también se conocen como ANOVA unidireccional, que es un caso particular de modelo lineal (no simple).E(Y|X=x) β 0 β 1 φ (x)= β 0+ ß 1xφ^(x)E(Y|X=x)β^0β^1

φ^(x)=β^0+β^1x

Mur1lo
fuente
1
Algunas de las observaciones en esta publicación son inusuales y pueden ser mal entendidas. En primer lugar, el modelo se llama "lineal", ya que es lineal en los parámetros , no en . En segundo lugar, las estimaciones y son variables aleatorias con independencia de lo que se asume sobre . Tercero, su tratamiento de la expectativa condicional parece confundir las observaciones con la verdadera distribución condicional. Finalmente, la referencia a "no hay valores repetidos" es confusa porque es irrelevante. β 0 β 1 XXβ^0β^1X
whuber
1
@whuber "Primero, el modelo se llama" lineal "porque es lineal en los parámetros" Estaba explicando el significado de la ecuación, no el significado de "lineal" en "modelo lineal". "las estimaciones β̂ 0 y β̂ 1 son variables aleatorias, independientemente de lo que se supone sobre X" seguramente, pero la distribución de esas variables aleatorias cambia según la forma en que se trata X.
Mur1lo
1
@whuber Estoy totalmente de acuerdo con tus últimos puntos. Voy a editar mi respuesta para que sea más clara en todos los problemas que señaló. Gracias por la respuesta.
Mur1lo