¿Por qué se usa una distribución T para la hipótesis que prueba un coeficiente de regresión lineal?

16

En la práctica, el uso de una prueba T estándar para verificar la importancia de un coeficiente de regresión lineal es una práctica común. La mecánica del cálculo tiene sentido para mí.

¿Por qué es que la distribución T puede usarse para modelar el estadístico de prueba estándar usado en la prueba de hipótesis de regresión lineal? Estadística de prueba estándar a la que me refiero aquí:

T_{0} = \frac{\hat{β} - β_{0}}{S E (\hat{β})}

$T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}$

regression hypothesis-testing linear-model t-distribution Nate Parke
fuente

Una respuesta completa y completa a esta pregunta será bastante larga, estoy seguro. Entonces, mientras espera que alguien aborde esto, puede hacerse una idea bastante clara de por qué este es el caso mirando algunas notas que encontré en línea aquí: onlinecourses.science.psu.edu/stat501/node/297 . Tenga en cuenta específicamente que

t_{(n - p)}^{2} = F_{(1, n - p)}

$t^2_{(n−p)}=F_{(1,n−p)}$ .

StatsStudent

1

No puedo creer que esto no sea un duplicado y, sin embargo, todos los votos positivos (tanto en la pregunta como en las respuestas) ... ¿Qué pasa con esto ? O tal vez no sea un duplicado, lo que significa que hay (o hubo hasta hoy) temas súper básicos que no se han cubierto durante los casi siete años de existencia de Cross Validated ... Wow ...

Richard Hardy

@ RichardHardy Hmm, eso suena como un duplicado. Si bien es más detallado, la pregunta es específicamente: "¿Cómo puedo probar eso para $\hat\beta_i$ , $\frac{\hat{\beta}_i - \beta_i} {s_{\hat{\beta}_i}} \sim t_{n-k}$ "

Firebug

25

Para comprender por qué usamos la distribución t, debe saber cuál es la distribución subyacente de y de la suma residual de cuadrados ( ), ya que estos dos juntos le darán la distribución t. $\widehat{\beta}$ $RSS$

La parte más fácil es la distribución de que es una distribución normal, para ver esta nota que = entonces es una función lineal de donde . Como resultado, también se distribuye normalmente, - avíseme si necesita ayuda derivando la distribución de . $\widehat{\beta}$ $\widehat{\beta}$ $(X^{T}X)^{-1}X^{T}Y$ $Y$ $Y\sim N(X\beta, \sigma^{2}I_{n})$ $\widehat{\beta} \sim N(\beta, \sigma^{2}(X^{T}X)^{-1})$ $\widehat{\beta}$

Además, , donde es el número de observaciones y es el número de parámetros utilizados en su regresión. La prueba de esto es un poco más complicada, pero también es fácil de deducir (vea la prueba aquí ¿Por qué se distribuye RSS chi cuadrado por np? ). $RSS \sim \sigma^{2}\chi^{2}_{n-p}$ $n$ $p$

Hasta este punto, he considerado todo en notación matricial / vectorial, pero para simplificar usemos y usemos su distribución normal que nos dará: $\widehat{\beta}_{i}$

\frac{{\hat{β}}_{i} - β_{i}}{σ \sqrt{(X^{T} X)_{i i}^{- 1}}} \sim N (0, 1)

$\begin{equation} \frac{\widehat{\beta}_{i}-\beta_{i}}{\sigma\sqrt{(X^{T}X)^{-1}_{ii}}} \sim N(0,1) \end{equation}$

Además, a partir de la distribución chi-cuadrado de tenemos que: $RSS$

\frac{(n - p) s^{2}}{σ^{2}} \sim χ_{n - p}^{2}

$\begin{equation} \frac{(n-p)s^{2}}{\sigma^{2}} \sim \chi^{2}_{n-p} \end{equation}$

Esto fue simplemente una reorganización de la primera expresión de chi-cuadrado y es independiente de la . Además, definimos , que es un estimador imparcial para . Por la definición de la definición que dividir una distribución normal por un chi-cuadrado independiente (sobre sus grados de libertad) le da una distribución t (para la prueba vea: Una normal dividida por el te da una distribución t - prueba ) obtienes eso: $N(0,1)$ $s^{2}=\frac{RSS}{n-p}$ $\sigma^{2}$ $t_{n-p}$ $\sqrt{\chi^2(s)/s}$

\frac{{\hat{β}}_{i} - β_{i}}{s \sqrt{(X^{T} X)_{i i}^{- 1}}} \sim t_{n - p}

$\begin{equation} \frac{\widehat{\beta}_{i}-\beta_{i}}{s\sqrt{(X^{T}X)^{-1}_{ii}}} \sim t_{n-p} \end{equation}$

Donde . $s\sqrt{(X^{T}X)^{-1}_{ii}}=SE(\widehat{\beta}_{i})$

Avísame si tiene sentido.

francium87d
fuente

¡Qué gran respuesta! ¿podría explicar por qué ?

\frac{{\hat{β}}_{i} - β_{i}}{σ \sqrt{(X^{T} X)_{i i}^{- 1}}} \sim N (0, 1)

$\begin{equation} \frac{\widehat{\beta}_{i}-\beta_{i}}{\sigma\sqrt{(X^{T}X)^{-1}_{ii}}} \sim N(0,1) \end{equation}$

KingDingeling

4

La respuesta es realmente muy simple: usa distribución t porque fue diseñada específicamente para este propósito.

Ok, el matiz aquí es que no fue diseñado específicamente para la regresión lineal. A Gosset se le ocurrió la distribución de la muestra extraída de la población. Por ejemplo, dibuja una muestra y calcula su media . ¿Cuál es la distribución de una muestra media ? $x_1,x_2,\dots,x_n$ $\bar x=\sum_{i=1}^n x_i/n$ $\bar x$

Si conociera la verdadera desviación estándar (población) , entonces diría que la variable proviene de la distribución normal estándar . El problema es que generalmente no conoce , y solo puede estimarlo . Entonces, Gosset descubrió la distribución cuando sustituye con en el denominador, y la distribución ahora se llama después de su pseduónimo "Student t". $\sigma$ $\xi=(\bar x-\mu)\sqrt n/\sigma$ $\mathcal N(0,1)$ $\sigma$ $\hat\sigma$ $\sigma$ $\hat\sigma$

Los tecnicismos de la regresión lineal conducen a una situación en la que podemos estimar el error estándar del coeficiente estimado , pero no conocemos el verdadero , por lo tanto, la distribución t de Student también se aplica aquí. $\hat\sigma_\beta$ $\hat\beta$ $\sigma$

Aksakal
fuente

¿Por qué se usa una distribución T para la hipótesis que prueba un coeficiente de regresión lineal?

Respuestas: