¿Por qué mi R-cuadrado es tan bajo cuando mis estadísticas t son tan grandes?

17

Ejecuté una regresión con 4 variables, y todas son muy significativas estadísticamente, con valores T y (digo porque parece irrelevante incluir los decimales) que son muy altos y claramente significativos. Pero entonces el es solo .2284. ¿Estoy malinterpretando los valores t aquí para que signifiquen algo que no son? Mi primera reacción al ver los valores de t fue que sería bastante alto, pero ¿tal vez sea un alto ?7,9,2631R2R2R2

Kyle
fuente
1
Apuesto a que tu es moderadamente grande, ¿verdad? n
Glen_b -Reinstala a Monica el
@Glen_b sí, alrededor de 6000.
Kyle
10
Entonces, las grandes estadísticas se asocian con R 2 pequeño son completamente irrelevantes. Dado que los errores estándar disminuyen como 1 / tR2 , las relacionestaumentarán a medida que1/nt , mientras queR2tenderá a permanecer constante al aumentarn. ¿Por qué te importa lo que es elR2? ¿Por qué te importa cuáles son las relaciones t? nR2nR2
Glen_b -Reinstale a Monica el

Respuestas:

45

Los valores t y R2 se usan para juzgar cosas muy diferentes. Los valores t se usan para juzgar la precisión de su estimación de los βi 's, pero R2 mide la cantidad de variación en su variable de respuesta explicada por sus covariables. Suponga que está estimando un modelo de regresión con n observaciones,

Yi=β0+β1X1i+...+βkXki+ϵi

donde ϵii.i.dN(0,σ2) , i=1,...,n .

Los valores t grandes (en valor absoluto) lo llevan a rechazar la hipótesis nula de que βi=0 . Esto significa que puede estar seguro de haber estimado correctamente el signo del coeficiente. Además, si |t|> 4 y tiene n>5 , entonces 0 no está en un intervalo de confianza del 99% para el coeficiente. El valor t para un coeficiente βi es la diferencia entre la estimación βi^ y 0 normalizada por el error estándar se{βi^} .

t=βi^se{βi^}

que es simplemente la estimación dividida por una medida de su variabilidad. Si tiene un conjunto de datos lo suficientemente grande, siempre tendrá valores t estadísticamente significativos (grandes) . Esto no significa necesariamente que sus covariables expliquen gran parte de la variación en la variable de respuesta.

Como @Stat mencionó, R2 mide la cantidad de variación en su variable de respuesta explicada por sus variables dependientes. Para obtener más información sobre R2 , vaya a wikipedia . En su caso, parece que tiene un conjunto de datos lo suficientemente grande como para estimar con precisión la βi 's, pero sus covariables hacen un mal trabajo al explicar y \ o predecir los valores de respuesta.

caburke
fuente
1
(+1) Está claro desde el principio que esta es una explicación informativa bien considerada.
whuber
Buena respuesta. Considero que los términos "significación práctica" y "significación estadística" a menudo son útiles para pensar sobre este tema.
Aaron - Restablece a Mónica el
3
También hay una transformación simple entre las dos estadísticas: R2=t2t2+df
Jeff
7

Para decir lo mismo que caburke pero de manera más simple, estás muy seguro de que la respuesta promedio causada por tus variables no es cero. Pero hay muchas otras cosas que no tienes en la regresión que hacen que la respuesta salte.

genérico_usuario
fuente
0

Podría ser que aunque sus predictores tengan una tendencia lineal en términos de su variable de respuesta (la pendiente es significativamente diferente de cero), lo que hace que los valores t sean significativos, pero la R al cuadrado es baja porque los errores son grandes, lo que significa que la variabilidad en sus datos son grandes y, por lo tanto, su modelo de regresión no se ajusta bien (las predicciones no son tan precisas)?

Solo mis 2 centavos.

Quizás esta publicación pueda ayudar: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- valores

mel
fuente
0

Varias respuestas dadas son cercanas pero aún incorrectas.

"Los valores t se usan para juzgar la precisión de su estimación de los βi" es el que más me preocupa.

El valor T es simplemente una indicación de la probabilidad de ocurrencia aleatoria. Grande significa poco probable. Pequeño significa muy probable. Positivo y negativo no importa a la interpretación de probabilidad.

"R2 mide la cantidad de variación en su variable de respuesta explicada por sus covariables" es correcta.

(Hubiera comentado pero esta plataforma aún no me permite).

Kevin
fuente
2
Parece que escribes sobre los valores t como si fueran valores p.
whuber
-4

La única forma de lidiar con una pequeña R al cuadrado, verifica lo siguiente:

  1. ¿Su tamaño de muestra es lo suficientemente grande? En caso afirmativo, realice el paso 2. pero en caso negativo, aumente el tamaño de su muestra.
  2. ¿Cuántas covariables usaste para la estimación de tu modelo? Si hay más de 1 como en su caso, aborde el problema de la multicolinealidad de las covariables o simplemente ejecute la regresión nuevamente y esta vez sin la constante que se conoce como beta cero.

  3. Sin embargo, si el problema persiste, haga una regresión gradual y seleccione el modelo con una R alta al cuadrado. Pero lo que no puedo recomendar es que provoca sesgos en las covariables.

katleho
fuente