En la práctica, el uso de una prueba T estándar para verificar la importancia de un coeficiente de regresión lineal es una práctica común. La mecánica del cálculo tiene sentido para mí.
¿Por qué es que la distribución T puede usarse para modelar el estadístico de prueba estándar usado en la prueba de hipótesis de regresión lineal? Estadística de prueba estándar a la que me refiero aquí:
regression
hypothesis-testing
linear-model
t-distribution
Nate Parke
fuente
fuente
Respuestas:
Para comprender por qué usamos la distribución t, debe saber cuál es la distribución subyacente de y de la suma residual de cuadrados ( ), ya que estos dos juntos le darán la distribución t. RSSβˆ RSS
La parte más fácil es la distribución de que es una distribución normal, para ver esta nota que = entonces es una función lineal de donde . Como resultado, también se distribuye normalmente, - avíseme si necesita ayuda derivando la distribución de . β (XTX)-1XTYYY~N(Xβ,σ2In) β ~N(β,σ2(XTX)-1) ββˆ βˆ (XTX)−1XTY Y Y∼N(Xβ,σ2In) βˆ∼N(β,σ2(XTX)−1) βˆ
Además, , donde es el número de observaciones y es el número de parámetros utilizados en su regresión. La prueba de esto es un poco más complicada, pero también es fácil de deducir (vea la prueba aquí ¿Por qué se distribuye RSS chi cuadrado por np? ). n pRSS∼σ2χ2n−p n p
Hasta este punto, he considerado todo en notación matricial / vectorial, pero para simplificar usemos y usemos su distribución normal que nos dará: β i-βiβˆi
Además, a partir de la distribución chi-cuadrado de tenemos que:RSS
Esto fue simplemente una reorganización de la primera expresión de chi-cuadrado y es independiente de la . Además, definimos , que es un estimador imparcial para . Por la definición de la definición que dividir una distribución normal por un chi-cuadrado independiente (sobre sus grados de libertad) le da una distribución t (para la prueba vea: Una normal dividida por el te da una distribución t - prueba ) obtienes eso:N(0,1) s2=RSSn−p σ2 tn−p χ2(s)/s−−−−−−√
Donde .s(XTX)−1ii−−−−−−−−√=SE(βˆi)
Avísame si tiene sentido.
fuente
La respuesta es realmente muy simple: usa distribución t porque fue diseñada específicamente para este propósito.
Ok, el matiz aquí es que no fue diseñado específicamente para la regresión lineal. A Gosset se le ocurrió la distribución de la muestra extraída de la población. Por ejemplo, dibuja una muestra y calcula su media . ¿Cuál es la distribución de una muestra media ?x1,x2,…,xn x¯=∑ni=1xi/n x¯
Si conociera la verdadera desviación estándar (población) , entonces diría que la variable proviene de la distribución normal estándar . El problema es que generalmente no conoce , y solo puede estimarlo . Entonces, Gosset descubrió la distribución cuando sustituye con en el denominador, y la distribución ahora se llama después de su pseduónimo "Student t".σ ξ=(x¯−μ)n−−√/σ N(0,1) σ σ^ σ σ^
Los tecnicismos de la regresión lineal conducen a una situación en la que podemos estimar el error estándar del coeficiente estimado , pero no conocemos el verdadero , por lo tanto, la distribución t de Student también se aplica aquí.σ^β β^ σ
fuente