Comprender la prueba t para la regresión lineal

17

Estoy tratando de averiguar cómo realizar algunas pruebas de hipótesis en una regresión lineal (la hipótesis nula no tiene correlación). Cada guía y página sobre el tema con el que me encuentro parece estar usando una prueba t. Pero no entiendo qué significa realmente la prueba t para regresión lineal. Una prueba t, a menos que tenga un entendimiento o modelo mental completamente incorrecto, se usa para comparar dos poblaciones. Pero el regresor y las regresiones no son muestras de poblaciones similares, y es posible que ni siquiera sean de la misma unidad, por lo que no tiene sentido compararlas.

Entonces, cuando se usa una prueba t en una regresión lineal, ¿qué es lo que realmente estamos haciendo?

jaymmer - Restablece a Monica
fuente

Respuestas:

37

Probablemente esté pensando en la prueba dos muestras tporque a menudo es el primer lugar donde aparece la distribución t . Pero en realidad todo lo que significa una prueba t es que la distribución de referencia para el estadístico de prueba es una distribución t . Si ZN(0,1) y S2χd2 con Z y S2 independientes, entonces

ZS2/dtd
por definición. Estoy escribiendo esto para enfatizar que ladistribucióntes solo un nombre que se le dio a la distribución de esta relación porque surge mucho, y cualquier cosa de esta forma tendrá unadistribuciónt. Para la prueba t de dos muestras, esta relación aparece porque debajo de la nula la diferencia de medias es un gaussiano de media cero y la estimación de la varianza para gaussianos independientes es unχ2independiente (la independencia se puede mostrar a travésdel teorema de Basu que utiliza el hecho de que la estimación de la varianza estándar en una muestra gaussiana es auxiliar de la media de la población, mientras que la media de la muestra es completa y suficiente para esa misma cantidad).

Con la regresión lineal, básicamente obtenemos lo mismo. En forma β^N(β,σ2(XTX)1) . Supongamos que Sj2=(XTX)jj1 y supongamos que los predictores X no son aleatorios. Si supiéramos σ2 tendríamos β j - 0

β^j0σSjN(0,1)
bajo el nuloH0:βj=0por lo que en realidad tendríamos una prueba Z. Pero una vez que se estimaσ2nos encontramos con unaχ2variable aleatoria que, bajo nuestros supuestos de normalidad, resulta ser independiente de nuestra estadística β jy entonces tenemos untdistribución.β^jt

Aquí están los detalles de eso: suponga . Dejando que H = X ( X T X ) - 1 X T sea ​​la matriz de sombreros, tenemos e 2 = ( I - H ) y 2 = y T ( I - H ) y . H es idempotente, por lo que tenemos el resultado realmente bueno que yN(Xβ,σ2I)H=X(XTX)1XT

e2=(IH)y2=yT(IH)y.
H con parámetro de no centralidad δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 , así que en realidad este es un χ 2 centralcon n - p
yT(IH)y/σ2χnp2(δ)
δ=βTXT(IH)Xβ=βT(XTXXTX)β=0χ2npgrados de libertad (este es un caso especial del teorema de Cochran ). Estoy usando para denotar el número de columnas de X , por lo que si una columna de X da la intersección, entonces tendríamos predictores de no intersección p - 1 . Algunos autores usan p para ser el número de predictores que no interceptan, por lo que a veces es posible que vea algo como n - p - 1 en los grados de libertad allí, pero es lo mismo.pXXp1pnp1

El resultado de esto es que , por lo σ 2 : = 1E(eTe/σ2)=npfunciona muy bien como estimador deσ2.σ^2:=1npeTeσ2

Esto significa que β j es la relación entre un gaussiano estándar y un chi cuadrado dividido por sus grados de libertad. Para terminar esto, necesitamos mostrar independencia y podemos usar el siguiente resultado:

β^jσ^Sj=β^jSjeTe/(np)=β^jσSjeTeσ2(np)

Resultado: para y las matrices A y B en R l × k y R m × k respectivamente, A Z y B Z son independientes si y solo si A Σ B T = 0 (esto es ejercicio 58 (b) en el capítulo 1 de Estadística matemática de Jun Shao ).ZNk(μ,Σ)ABRl×kRm×kAZBZAΣBT=0

Tenemos β = ( X T X ) - 1 X T y y e = ( I - H ) y donde y ~ N ( X β , sigma 2 I ) . Esto significa ( X T X ) - 1 X Tσ 2 I ( I - H ) T = σ 2β^=(XTX)1XTye=(IH)yyN(Xβ,σ2I) por lo ße, y por lo tanto ß e T e.

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
β^eβ^eTe

El resultado es que ahora sabemos β j como se desee (en todos los supuestos anteriores).

β^jσ^Sjtnp

Here's the proof of that result. Let C=(AB) be the (l+m)×k matrix formed by stacking A on top of B. Then

CZ=(AZBZ)N((AμBμ),CΣCT)
where
CΣCT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
CZ is a multivariate Gaussian and it is a well-known result that two components of a multivariate Gaussian are independent if and only if they are uncorrelated, so the condition AΣBT=0 turns out to be exactly equivalent to the components AZ and BZ in CZ being uncorrelated.

jld
fuente
3
+1 always enjoy reading your answer.
Haitao Du
9

@Chaconne's answer is great. But here is a much shorter nonmathematical version!

Since the goal is to compute a P value, you first need to define a null hypothesis. Almost always, that is that the slope is actually horizontal so the numerical value for the slope (beta) is 0.0.

The slope fit from your data is not 0.0. Is that discrepancy due to random chance or due to the null hypothesis being wrong? You can't ever answer that for sure, but a P value is one way to sort-of-kind-of get at an answer.

The regression program reports a standard error of the slope. Compute the t ratio as the slope divided by its standard error. Actually, it is (slope minus null hypothesis slope) divided by the standard error, but the null hypothesis slope is nearly always zero.

Now you have a t ratio. The number of degrees of freedom (df) equals the number of data points minus the number of parameters fit by the regression (two for linear regression).

With those values (t and df) you can determine the P value with an online calculator or table.

It is essentially a one-sample t-test, comparing an observed computed value (the slope) with a hypothetical value (the null hypothesis).

Harvey Motulsky
fuente
4
The real question is why this is "essentially a one-sample t-test", and I don't see how it can become clear from your answer...
amoeba says Reinstate Monica