¿Por qué mi R-cuadrado es tan bajo cuando mis estadísticas t son tan grandes?

17

Ejecuté una regresión con 4 variables, y todas son muy significativas estadísticamente, con valores T y (digo porque parece irrelevante incluir los decimales) que son muy altos y claramente significativos. Pero entonces el es solo .2284. ¿Estoy malinterpretando los valores t aquí para que signifiquen algo que no son? Mi primera reacción al ver los valores de t fue que sería bastante alto, pero ¿tal vez sea un alto ? $\approx 7,9,26$ $31$ $\approx$ $R^2$ $R^2$ $R^2$

regression hypothesis-testing econometrics Kyle
fuente

1

Apuesto a que tu

es moderadamente grande, ¿verdad?

n

$n$

Glen_b -Reinstala a Monica el

@Glen_b sí, alrededor de 6000.

Kyle

10

Entonces, las grandes estadísticas

se asocian con

pequeño son completamente irrelevantes. Dado que los errores estándar disminuyen como

t

$t$

R^{2}

$R^2$

, las relaciones

aumentarán a medida que

1 / \sqrt{n}

$1/\sqrt{n}$

t

$t$

, mientras que

tenderá a permanecer constante al aumentar

. ¿Por qué te importa lo que es el

? ¿Por qué te importa cuáles son las relaciones t?

\sqrt{n}

$\sqrt{n}$

R^{2}

$R^2$

n

$n$

R^{2}

$R^2$

Glen_b -Reinstale a Monica el

45

Los valores $t$ y $R^2$ se usan para juzgar cosas muy diferentes. Los valores $t$ se usan para juzgar la precisión de su estimación de los $\beta_i$ 's, pero $R^2$ mide la cantidad de variación en su variable de respuesta explicada por sus covariables. Suponga que está estimando un modelo de regresión con $n$ observaciones,

Y_{i} = β_{0} + β_{1} X_{1 i} + . . . + β_{k} X_{k i} + ϵ_{i}

$Y_i = \beta_0 + \beta_1X_{1i} + ...+ \beta_kX_{ki}+\epsilon_i$

donde $\epsilon_i\overset{i.i.d}{\sim}N(0,\sigma^2)$ , $i=1,...,n$ .

Los valores $t$ grandes (en valor absoluto) lo llevan a rechazar la hipótesis nula de que $\beta_i=0$ . Esto significa que puede estar seguro de haber estimado correctamente el signo del coeficiente. Además, si $|t|$ > 4 y tiene $n>5$ , entonces 0 no está en un intervalo de confianza del 99% para el coeficiente. El valor $t$ para un coeficiente $\beta_i$ es la diferencia entre la estimación $\hat{\beta_i}$ y 0 normalizada por el error estándar $se\{\hat{\beta_i}\}$ .

t = \frac{\hat{β_{i}}}{s e {\hat{β_{i}}}}

$t=\frac{\hat{\beta_i}}{se\{\hat{\beta_i}\}}$

que es simplemente la estimación dividida por una medida de su variabilidad. Si tiene un conjunto de datos lo suficientemente grande, siempre tendrá valores $t$ estadísticamente significativos (grandes) . Esto no significa necesariamente que sus covariables expliquen gran parte de la variación en la variable de respuesta.

Como @Stat mencionó, $R^2$ mide la cantidad de variación en su variable de respuesta explicada por sus variables dependientes. Para obtener más información sobre $R^2$ , vaya a wikipedia . En su caso, parece que tiene un conjunto de datos lo suficientemente grande como para estimar con precisión la $\beta_i$ 's, pero sus covariables hacen un mal trabajo al explicar y \ o predecir los valores de respuesta.

caburke
fuente

1

(+1) Está claro desde el principio que esta es una explicación informativa bien considerada.

whuber

Buena respuesta. Considero que los términos "significación práctica" y "significación estadística" a menudo son útiles para pensar sobre este tema.

Aaron - Restablece a Mónica el

3

También hay una transformación simple entre las dos estadísticas:

R^{2} = \frac{t^{2}}{t^{2} + d f}

$R^2=\frac{t^2}{t^2+df}$

Jeff

7

Para decir lo mismo que caburke pero de manera más simple, estás muy seguro de que la respuesta promedio causada por tus variables no es cero. Pero hay muchas otras cosas que no tienes en la regresión que hacen que la respuesta salte.

genérico_usuario
fuente

0

Podría ser que aunque sus predictores tengan una tendencia lineal en términos de su variable de respuesta (la pendiente es significativamente diferente de cero), lo que hace que los valores t sean significativos, pero la R al cuadrado es baja porque los errores son grandes, lo que significa que la variabilidad en sus datos son grandes y, por lo tanto, su modelo de regresión no se ajusta bien (las predicciones no son tan precisas)?

Solo mis 2 centavos.

Quizás esta publicación pueda ayudar: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- valores

mel
fuente

0

Varias respuestas dadas son cercanas pero aún incorrectas.

"Los valores t se usan para juzgar la precisión de su estimación de los βi" es el que más me preocupa.

El valor T es simplemente una indicación de la probabilidad de ocurrencia aleatoria. Grande significa poco probable. Pequeño significa muy probable. Positivo y negativo no importa a la interpretación de probabilidad.

"R2 mide la cantidad de variación en su variable de respuesta explicada por sus covariables" es correcta.

(Hubiera comentado pero esta plataforma aún no me permite).

Kevin
fuente

2

Parece que escribes sobre los valores t como si fueran valores p.

whuber

-4

La única forma de lidiar con una pequeña R al cuadrado, verifica lo siguiente:

¿Su tamaño de muestra es lo suficientemente grande? En caso afirmativo, realice el paso 2. pero en caso negativo, aumente el tamaño de su muestra.
¿Cuántas covariables usaste para la estimación de tu modelo? Si hay más de 1 como en su caso, aborde el problema de la multicolinealidad de las covariables o simplemente ejecute la regresión nuevamente y esta vez sin la constante que se conoce como beta cero.
Sin embargo, si el problema persiste, haga una regresión gradual y seleccione el modelo con una R alta al cuadrado. Pero lo que no puedo recomendar es que provoca sesgos en las covariables.

katleho
fuente

¿Por qué mi R-cuadrado es tan bajo cuando mis estadísticas t son tan grandes?

Respuestas: