Con respecto al valor p del análisis de regresión lineal múltiple, a continuación se muestra la introducción del sitio web de Minitab .
El valor p para cada término prueba la hipótesis nula de que el coeficiente es igual a cero (sin efecto). Un valor p bajo (<0.05) indica que puede rechazar la hipótesis nula. En otras palabras, un predictor que tiene un valor p bajo es probable que sea una adición significativa a su modelo porque los cambios en el valor del predictor están relacionados con cambios en la variable de respuesta.
Por ejemplo, tengo un modelo MLR resultante como . y la salida se muestra a continuación. Entonces se puede calcular una utilizando esta ecuación.
Estimate SE tStat pValue
________ ______ _________ _________
(Intercept) 14.48 5.0127 2.8886 0.0097836
x1 0.46753 1.2824 0.36458 0.71967
x2 -0.2668 3.3352 -0.079995 0.93712
x3 1.6193 9.0581 0.17877 0.86011
x4 4.5424 2.8565 1.5902 0.1292
Según la introducción anterior, la hipótesis nula es que el coeficiente es igual a 0. Entiendo que el coeficiente, por ejemplo el coeficiente de , se establecerá como 0 y otro y se calculará como . Luego se realiza una prueba t pareada para e , pero el valor p de esta prueba t es 6.9e-12, que no es igual a 0.1292 (valor p del coeficiente de .
¿Alguien puede ayudar en la comprensión correcta? ¡Muchas gracias!
fuente
Respuestas:
Esto es incorrecto por un par de razones:
El modelo "sin" X4 no necesariamente tendrá las mismas estimaciones de coeficientes para los otros valores. Ajuste el modelo reducido y compruébelo usted mismo.
La prueba estadística para el coeficiente no se refiere a los valores "medios" de Y obtenidos a partir de 2 predicciones. La predicha siempre tendrá la misma gran media, por lo tanto, tendrá un valor p de la prueba t igual a 0.5. Lo mismo vale para los residuos. Su prueba t tenía el valor incorrecto según el punto anterior.Y
La prueba estadística que se realiza para la significación estadística del coeficiente es una prueba t de una muestra. Esto es confuso ya que no tenemos una "muestra" de coeficientes múltiples para X4, pero tenemos una estimación de las propiedades de distribución de dicha muestra utilizando el teorema del límite central. El error medio y estándar describe la ubicación y la forma de dicha distribución limitante. Si toma la columna "Est" y divide por "SE" y compara con una distribución normal estándar, esto le da los valores p en la cuarta columna.
Un cuarto punto: una crítica a la página de ayuda de minitab. Tal archivo de ayuda no podría, en un párrafo, resumir años de entrenamiento estadístico, por lo que no necesito lidiar con todo. Pero decir que un "predictor" es "una contribución importante" es vago y probablemente incorrecto. La justificación para elegir qué variables incluir en un modelo multivariante es sutil y se basa en el razonamiento científico y no en la inferencia estadística.
fuente
Su interpretación inicial de los valores p parece correcta, que es que solo la intersección tiene un coeficiente que es significativamente diferente de 0. Notará que la estimación del coeficiente para x4 todavía es bastante alta, pero hay suficiente error de que no es significativamente diferente de 0.
Su prueba t pareada de y1 e y2 sugiere que los modelos son diferentes entre sí. Eso es de esperar, en un modelo incluyó un coeficiente grande pero impreciso que está contribuyendo bastante a su modelo. No hay razón para pensar que el valor p de estos modelos que son diferentes entre sí debería ser el mismo que el valor p del coeficiente de x4 sea diferente de 0.
fuente