Distribución de errores para regresión lineal y logística.

9

Con datos continuos, una regresión lineal Y=β1+β2X2+u supone que el término de error se distribuye N (0, σ2 )

1) ¿Asumimos que Var (Y | x) es igualmente ~ N (0, σ2 )?

2) ¿Cuál es esta distribución de errores en regresión logística? Cuando los datos están en forma de 1 registro por caso, donde la "Y" es 1 o 0, es el término de error distribuido Bernoulli (es decir, la varianza es p (1-p))) y cuando los datos están en la forma # éxitos de # de ensayos, ¿se supone binomial (es decir, la varianza es np (1-p)), donde p es la probabilidad de que Y sea 1?

B_Miner
fuente
2
No está siendo preciso. La suposición del modelo es que los términos de error son independientes e idénticamente distribuidos con una distribución que es N (0, σ 2 ) y no está relacionada con el COVARIADO. ¿Qué es Var (Y | x)? ¿Estás condicionando en X 2 = x? ¿Asume el modelo que la covariable es aleatoria de alguna manera o así, suponemos que la covariable está fijada de acuerdo con una matriz de diseño? Creo que es lo último y, por lo tanto, Var (Y | X 2 = x) está implícito en los supuestos y no es necesario suponerlo. 222
Michael R. Chernick
@MichaelChernick ¿Por qué el modelo supone que es fijo? Ciertamente puede darse el caso de que sea fijo, pero también puede ser aleatorio. Nada en la pregunta implica ninguno de los dos para mí. X2
Peter Flom - Restablece a Monica
@PeterFlom Leí en la pregunta que la regresión lineal con esa distribución de error supuesta significaba OLS que requiere que X 2 sea ​​fijo y conocido. Si alguien tiene una regresión de Deming (es decir, error en la regresión de variables), se especificará en la pregunta. Mirar la respuesta que Stat dio indica que él también interpretó la pregunta de esa manera. 2
Michael R. Chernick
@Michael, suponía una X fija.
B_Miner

Respuestas:

10

1) Si tiene una distribución normal, es decir, entonces , ya que No es una variable aleatoria.uV a r ( Y | X 2 ) = V a r ( β 1 + β 2 X 2 ) + V a r ( u ) = 0 + σ 2 = σ 2 β 1 + β 2 X 2N(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1+β2X2

2) En la regresión logística, se supone que los errores siguen una distribución binomial como se menciona aquí . Es mejor escribirlo como , ya que esas probabilidades dependen de , como se hace referencia aquí o en Regresión logística aplicada .X jVar(Yj|Xj)=mj.E[Yj|Xj].(1E[Yj|Xj])=mjπ(Xj).(1π(Xj))Xj

Stat
fuente
Stat, por lo tanto, es correcto decir que la varianza para el i-ésimo error individual, , es (1- ), que es equivalente a lo que ha mostrado asumiendo que hay más de 1 observación en los datos con la misma covariable patrón (es decir, si no = 1 para todo j)? p i p i m jeipipimj
B_Miner
2
Si eso es correcto. Si con , entonces con probabilidad o con probabilidad . Por tanto, tiene una distribución con media y varianza igual a . P ( Y i = 1 ) = 1 - P ( Y i = 0 ) = p iYi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipiei=pi1piei0pi(1pi)
Estadísticas
Un punto adicional aquí, Stat, DEBEMOS asumir que las X son fijas, no aleatorias para Var (Y | X) = Var (e) para los casos de regresión lineal y logística ¿correcto?
B_Miner
NB con probabilidad o con probabilidad no es una distribución binomial para . p i e i = - p i 1 - p i e iei=1pipiei=pi1piei
Scortchi - Restablece a Monica
B_Miner: significa la varianza de condicional en la variable aleatoria 's tomando un valor observado . Por lo tanto, es irrelevante si sus predictores están fijados por un experimento o si se observan en una muestra: lo que dice @ Stat es que ya no se consideran variables aleatorias a los efectos de la regresión. Y X xVar(Y|X)=Var(Y|X=x)YXx
Scortchi - Restablece a Monica