¿Por qué usar la estadística F?

8

Podemos usar la estadística F para determinar si al menos uno de los predictores tiene un efecto en la respuesta. Pero, ¿por qué no tomar un valor p mínimo en todos los predictores? No requiere la introducción de un nuevo concepto.

Yurii
fuente
3
¿A qué prueba supone que corresponde el valor p mínimo?
whuber
1
Probar si al menos uno de los predictores tiene un efecto en la respuesta
Yurii
1
Su análisis propuesto está incompleto. ¿Con qué está comparando el valor p más pequeño?
Glen_b -Reinstala a Mónica el

Respuestas:

9

Aquí supongo que tiene la intención de comparar alguna prueba basada en el valor p mínimo con una prueba F general.

  1. Al elegir el valor p más pequeño y compararlo con un nivel de significancia particular , su valor p ya no tiene el mismo significado que tendría para una sola prueba. En efecto, está probando todas las variables individuales (y si alguna conduce al rechazo, concluye que al menos uno de los predictores tiene un efecto en la respuesta). La tasa de error general tipo I es mucho más alta que una sola prueba. (El problema de las pruebas múltiples ).α

  2. Si reduce su nivel de significancia en las pruebas individuales, por lo que comete menos errores de tipo I (para hacerlo más comparable con la prueba general en el nivel de significancia ), es menos probable que encuentre un efecto significativo (cede el poder reduciendo la tasa de error tipo I).α

  3. Incluso si no tiene en cuenta las pruebas múltiples al cambiar el nivel de significación, las estadísticas univariadas pueden ser fácilmente insignificantes cuando existe una relación conjunta clara que involucra a ambas.

Aquí hay un ejemplo. Primero, algunos datos:

y:
 4.941, 4.459, 4.116, 3.759, 5.171, 5.101, 5.454, 5.277, 5.402, 
 4.68, 3.433, 5.508, 4.122, 3.355, 3.622, 4.45, 4.872, 4.202, 
 5.276, 4.415, 5.311, 4.105, 3.282, 4.152, 5.416, 4.615, 3.804, 
 5.299, 4.603, 4.868

x1:
 42.305, 16.828, 46.515, 32.567, 40.827, 45.755, 34.227, 43.799, 
 54.659, 34.991, 15.134, 29.115, 20.617, 1.252, 25.844, 19.563, 
 21.53, 22.989, 38.993, 44.955, 30.799, 32.639, 8.707, 46.945, 
 38.992, 25.717, 40.875, 26.049, 36.121, 39.868

x2:
 24.279, 8.844, 27.888, 19.099, 23.732, 28.648, 19.26, 26.578, 
 32.764, 21.302, 8.583, 17.026, 12.047, 0.085, 16.636, 10.021, 
 12.487, 13.745, 23.557, 26.67, 19.881, 20.23, 4.377, 27.865, 
 23.359, 15.006, 25.909, 14.772, 21.5, 23.002

Salida de regresión (de R :)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.47760    0.32703  10.634 3.74e-11 
x1           0.14999    0.09194   1.631    0.114    
x2          -0.19524    0.14741  -1.324    0.196    
---    
Residual standard error: 0.5884 on 27 degrees of freedom
Multiple R-squared:  0.3167,    Adjusted R-squared:  0.2661 
F-statistic: 6.257 on 2 and 27 DF,  p-value: 0.005851

El valor p más pequeño es 0.114: no habría rechazado la hipótesis nula de no asociación incluso al nivel de significación del 10%, pero la regresión general conduciría al rechazo incluso si su nivel de significación fuera del 1%. Esto es sin siquiera tratar con el problema de las pruebas múltiples.

Tampoco es útil ejecutar regresiones separadas y verificar los valores p allí, porque (en un tipo de ejemplo diferente al anterior) es bastante posible que no haya relación en las regresiones univariadas, mientras que hay una relación fuerte en la regresión bivariada .

Glen_b -Reinstate a Monica
fuente
1
Buena respuesta. Relevante para el último punto es: stats.stackexchange.com/q/33888/1934 y también stats.stackexchange.com/q/73869/1934 . También relacionado con el ejemplo: stats.stackexchange.com/q/14500/1934
Wolfgang