Además de los numerosos comentarios (correctos) de otros usuarios que señalan que el valor para es idéntico al valor para la prueba global , tenga en cuenta que también puede obtener el valor asociado con "directamente" usando el hecho de que bajo la hipótesis nula se distribuye como , donde y son el numerador y grados de libertad del denominador, respectivamente, para la estadística asociada .r 2 p F p r 2 r 2 Beta ( v npr2pFpr2r2vnFBeta(vn2,vd2)vnvdF
La tercera viñeta en la subsección Derivada de otras distribuciones de la entrada de Wikipedia en la distribución beta nos dice que:
Si e son independientes, entonces .Y ∼ χ 2 ( β ) XX∼χ2(α)Y∼χ2(β)XX+Y∼Beta(α2,β2)
Bueno, podemos escribir en esa forma .r2XX+Y
Supongamos que es la suma total de cuadrados para una variable , es la suma de errores al cuadrado para una regresión de en algunas otras variables, y es la "suma de cuadrados reducidos", es decir, . Entonces
Y, por supuesto, al ser sumas de cuadrados, y son ambos distribuidos como con y grados de libertad, respectivamente. Por lo tanto,
SSYYSSEYSSRSSR=SSY−SSE
r2=1−SSESSY=SSY−SSESSY=SSRSSR+SSE
SSRSSEχ2vnvdr2∼Beta(vn2,vd2)
(Por supuesto, no demostré que los dos chi-cuadrados sean independientes. Tal vez un comentarista pueda decir algo al respecto).
Demostración en R (código de préstamo de @gung):
set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)
# Pearson's product-moment correlation
#
# data: x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
# -0.2043606 0.6312210
# sample estimates:
# cor
# 0.2618393
summary(lm(y~x))
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -1.6399 -0.6246 0.1968 0.5168 2.0355
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 4.6077 0.4534 10.163 6.96e-09 ***
# x 1.1121 0.9662 1.151 0.265
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared: 0.06856, Adjusted R-squared: 0.01681
# F-statistic: 1.325 on 1 and 18 DF, p-value: 0.2648
1 - pbeta(0.06856, 1/2, 18/2)
# [1] 0.2647731
set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x))
. La p para r es.265
. La p para b & para la prueba F global es idéntica, aunque la p para a es6.96e-09
.R
1 - pbeta(0.06856, 1/2, 18/2)
0.2647731
.265
, ¿cómo no son idénticos?Hay varias formas de derivar el estadístico de prueba para las pruebas de la correlación de Pearson, . Para obtener un valor p , vale la pena enfatizar que necesita una prueba y una distribución de muestreo de una estadística de prueba bajo la hipótesis nula. Su título y su pregunta parecen tener cierta confusión entre la correlación de Pearson y la "varianza explicada" r 2 . Consideraré primero el coeficiente de correlación.ρ p r2
No hay una "mejor" forma de probar la correlación de Pearson que yo sepa. La transformación Z de Fisher es una de esas formas, basada en transformaciones hiperbólicas, de modo que la inferencia es un poco más eficiente. Este es ciertamente un enfoque "bueno", pero lo triste es que la inferencia para este parámetro es consistente con la inferencia sobre el parámetro de pendiente para la asociación: a largo plazo cuentan la misma historia.β
La razón por la cual los estadísticos han (clásica) en su totalidad las pruebas de preferido es porque sí tenemos un "mejor" prueba: regresión lineal, que es el estimador AZUL. En los días de las estadísticas modernas, ya no nos importa si una prueba es "mejor", pero la regresión lineal tiene muchas otras propiedades fantásticas que justifican su uso continuo para determinar la asociación entre dos variables. En general, su intuición es correcta: son esencialmente lo mismo, y enfocamos nuestra atención en β como una medida más práctica de asociación.β β
El es una función tanto de la pendiente como de la intersección. Si alguno de estos valores es distinto de cero, el r 2 debe tener una distribución de muestreo discernible en relación con la que se esperaría si los parámetros lineales fueran cero. Sin embargo, derivando distribuciones de r 2 bajo nulo y comparando con r 2r2 r2 r2 r2 Bajo alguna hipótesis alternativa no me da mucha confianza de que esta prueba tiene mucho poder para detectar lo que queremos que haga. Solo un presentimiento. Volviendo nuevamente a los "mejores" estimadores, OLS nos da "mejores" estimaciones tanto de la pendiente como de la intersección, por lo que tenemos la confianza de que nuestra prueba es al menos buena para determinar la misma asociación (si la hay) al probar directamente los parámetros del modelo . Para mí, la prueba conjunta de y β con OLS es superior a cualquier prueba sobre r 2, excepto en un caso raro de (quizás) una aplicación de calibración de modelado predictivo no anidada ... pero BIC probablemente sería una mejor medida en ese escenario de todas formas.α β r2
fuente
Así no es como interpretaría las cosas. No creo que alguna vez calcule un valor para r or r 2 . r y r 2 son medidas cualitativas de un modelo, no medidas que estamos comparando con una distribución, por lo que un valor p realmente no tiene sentido.p r r2 r r2 p
Obtener un valor para b tiene mucho sentido: eso es lo que te dice si el modelo tiene una relación lineal o no. Si b es estadísticamente significativamente diferente de 0, entonces concluye que existe una relación lineal entre las variables. El r o r 2 le indica qué tan bien explica el modelo la variación en los datos. Si r 2 es bajo, entonces su variable independiente no está ayudando a explicar mucho sobre la variable dependiente.p b b 0 r r2 r2
Un valor para a nos dice si la intersección es estadísticamente significativamente diferente de 0 o no. Esto es de utilidad variable, dependiendo de los datos. Mi ejemplo favorito: si hace una regresión lineal entre el tiempo de gestación y el peso al nacer, puede encontrar una intersección de, por ejemplo, 8 onzas que es estadísticamente diferente de 0 . Sin embargo, dado que la intercepción representa una edad de gestación de 0 semanas, en realidad no significa nada.p a 0 0 0
Si alguien calcula regularmente los valores para un r 2 , me interesaría saber de ellos.p r2
fuente