tl; dr: para la regresión OLS, ¿un R cuadrado más alto también implica un valor P más alto? Específicamente para una sola variable explicativa (Y = a + bX + e) pero también estaría interesado en saber para n múltiples variables explicativas (Y = a + b1X + ... bnX + e).
Contexto: estoy realizando una regresión OLS en un rango de variables y estoy tratando de desarrollar la mejor forma funcional explicativa produciendo una tabla que contenga los valores de R cuadrado entre las transformaciones lineales, logarítmicas, etc., de cada variable explicativa (independiente) y la variable respuesta (dependiente). Esto se parece un poco a:
Nombre de la variable --forma lineal-- --ln (variable) --exp (variable) - ... etc.
Variable 1 ------- R-cuadrado ---- R-cuadrado ---- R-cuadrado -
... etc ...
Me pregunto si R-cuadrado es apropiado o si los valores P serían mejores. Presumiblemente hay alguna relación, ya que una relación más significativa implicaría un mayor poder explicativo, pero no estoy seguro de si eso es cierto de manera rigurosa.
fuente
Respuestas:
La respuesta es no, no existe una relación regular entreR2 y el valor p de regresión general, porque R2 depende tanto de la varianza de las variables independientes como de la varianza de los residuos (a la que es inversamente proporcional), y usted es libre de cambiar la varianza de las variables independientes por cantidades arbitrarias.
Como ejemplo, considere cualquier conjunto de datos multivariados con i indexando los casos y suponga que el conjunto de valores de la primera variable independiente, { x i 1 } , tiene un máximo único x ∗ separado del segundo valor más alto por una cantidad positiva ϵ . Aplique una transformación no lineal de la primera variable que envíe todos los valores inferiores a( ( xyo 1, xyo 2, ... , xi p, yyo) ) yo { xyo 1} X∗ ϵ al rango [ 0 , 1 ] y envía x ∗ a un valor grande M ≫ 1 . Para cualquier M, esto puede hacerse mediante una transformación de Box-Cox adecuada (a escala) x → a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , por ejemplo, no estamos hablando de cualquier cosa extraña o "patológica". Entonces, como MX∗- ϵ / 2 [0,1] x∗ M≫1 M x→a((x−x0)λ−1)/(λ−1)) M crece arbitrariamente grande, acerca a 1 tan cerca como desee, independientemente de cuán malo sea el ajuste, porque la varianza de los residuos estará limitada, mientras que la varianza de la primera variable independiente es asintóticamente proporcional a M 2 .R2 1 M2
En su lugar, debería utilizar pruebas de bondad de ajuste (entre otras técnicas) para seleccionar un modelo apropiado en su exploración: debe preocuparse por la linealidad del ajuste y la homocedasticidad de los residuos. Y no tome ningún valor p de la regresión resultante sobre la confianza: terminarán siendo casi sin sentido después de que haya realizado este ejercicio, porque su interpretación supone que la elección de expresar las variables independientes no dependía de los valores de variable dependiente en absoluto, lo cual no es el caso aquí.
fuente
Esta respuesta no trata directamente con la pregunta central; no es más que información adicional que es demasiado larga para un comentario.
Lo señalo porque la pregunta de estadísticas econométricas sin duda encontrará esta información, o algo así en algún momento (indicando que y R 2F R2 pregunta de están relacionados) y me pregunto si la información dada en otras respuestas aquí es incorrecta, no es incorrecta, pero creo que vale la pena tener claro lo que está sucediendo.
Existe una relación bajo un conjunto particular de circunstancias; si mantiene el número de observaciones y el número de predictores fijos para un modelo dado, es de hecho monótono en R 2 , ya queF R2
(Si divide el numerador y el denominador por , y saca las constantes en k , puede ver que 1 / F ∝ 1 / R 2 - 1 si mantiene N yR2 k 1/F∝1/R2−1 N constantes).k
Dado que para df fijo y el valor p están monotónicamente relacionados, R 2 y el valor p también están monotónicamente relacionados.F R2 p
Pero cambie casi cualquier cosa sobre el modelo, y esa relación no se mantiene en las circunstancias cambiantes.
Por ejemplo, agregar un punto hace que más grande y eliminar uno lo hace más pequeño, pero hacerlo puede aumentar o disminuir R 2 , por lo que parece que F y R 2 no necesariamente se mueven juntos si agrega o elimina datos. Agregar una variable disminuye ( N - k ) / ( k - 1 ) pero aumenta R 2 (y viceversa), por lo que nuevamente, R 2 no está necesariamente relacionado con(N−k)/(k−1) R2 F R2 (N−k)/(k−1) R2 R2 cuando haces eso.F
Claramente, una vez que se comparan los valores de y p en modelos con características diferentes, esta relación no se mantiene necesariamente, como lo demostró Whuber en el caso de transformaciones no lineales.R2 p
fuente
So in this case, once you fixn , the higher the R2 the higher the t statistic and the lower the p-value.
The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence theF statistic, as Glen_b has shown. And here you have to fix both n and the number of parameters. Or, to put it better, fix the degrees of freedom.
Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even ifR2 is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.
And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then theR2 or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.
fuente