Cuando realizo una regresión lineal en algunos paquetes de software (por ejemplo, Mathematica), obtengo valores p asociados con los parámetros individuales del modelo. Por, ejemplo, los resultados de una regresión lineal que produce un resultado tendrá un valor p asociado con y uno con .a
¿Qué significan estos valores p individualmente sobre esos parámetros?
¿Existe una forma general de calcular parámetros para cualquier modelo de regresión?
¿Se puede combinar el valor p asociado con cada parámetro en un valor p para todo el modelo?
Para mantener esta pregunta de naturaleza matemática, solo busco la interpretación de los valores p en términos de probabilidades.
probability
regression
Henry B.
fuente
fuente
Respuestas:
El valor p para es el valor p en una prueba de la hipótesis " α = 0 " (generalmente una prueba t de 2 lados ). El valor p para b es el valor p en una prueba de la hipótesis " β = 0 " (también generalmente una prueba t de 2 lados ) y del mismo modo para cualquier otro coeficiente en la regresión. Los modelos de probabilidad para estas pruebas están determinados por el supuesto en el modelo de regresión lineal. Para la regresión lineal de mínimos cuadrados, el par ( a , b ) sigue una distribución normal bivariada centrada en los valores de parámetros verdaderos (a α=0 t b β=0 t a,b t α = 0 β = 0 un b Aα,β ), Y la prueba de hipótesis para cada coeficiente es equivalente a -testing si (resp. ) a partir de muestras de una distribución normal adecuado [de una variable, es decir, la distribución de o solo ] Los detalles de las distribuciones normales que aparecen son algo complicados e involucran "grados de libertad" y "matrices de sombrero" (basadas en la notación para algunas de las matrices que aparecen constantemente en la teoría de la regresión de OLS).t α=0 β=0 a b A^
Sí. Por lo general, se realiza (y define) mediante la Estimación de máxima verosimilitud . Para la regresión lineal de OLS y una pequeña cantidad de otros modelos, existen fórmulas exactas para estimar los parámetros a partir de los datos. Para regresiones más generales, las soluciones son de naturaleza iterativa y numérica.
No directamente. Un valor p se calcula por separado para una prueba de todo el modelo, es decir, una prueba de la hipótesis de que todos los coeficientes (de las variables presuntamente varían), por lo que no se incluye el coeficiente del "término constante" si existe uno). Pero este valor p generalmente no puede calcularse a partir del conocimiento de los valores p de los coeficientes.
fuente
wrt su primera pregunta: esto depende de su software de elección. En realidad, hay dos tipos de valores p que se usan con frecuencia en estos escenarios, ambos típicamente basados en pruebas de razón de probabilidad (hay otros, pero estos son típicamente equivalentes o al menos difieren poco en sus resultados).
Es importante darse cuenta de que todos estos valores p están condicionados por (parte de) el resto de los parámetros. Eso significa: Suponiendo que (algunas de) las otras estimaciones de parámetros son correctas, usted prueba si el coeficiente de un parámetro es o no cero. Por lo general, la hipótesis nula para estas pruebas es que el coeficiente es cero, por lo que si tiene un valor p pequeño, significa (condicionalmente en el valor de los otros coeficientes) que el coeficiente en sí es poco probable que sea cero.
Las pruebas de tipo I prueban la zeroness de cada coeficiente condicionalmente en el valor de los coeficientes que vienen antes en el modelo (de izquierda a derecha). Pruebas de tipo III (pruebas marginales), prueba la zeroness de cada coeficiente condicional en el valor de todos los demás coeficientes.
Las diferentes herramientas presentan diferentes valores p como valores predeterminados, aunque generalmente tiene formas de obtener ambos. Si no tiene un motivo fuera de las estadísticas para incluir los parámetros en algún orden, generalmente le interesarán los resultados de la prueba de tipo III.
Finalmente (en relación con su última pregunta), con una prueba de razón de probabilidad siempre puede crear una prueba para cualquier conjunto de coeficientes condicionales al resto. Este es el camino a seguir si desea probar que varios coeficientes sean cero al mismo tiempo (de lo contrario, se encontrará con algunos problemas desagradables de pruebas múltiples).
fuente