Significado de los valores p en regresión

27

Cuando realizo una regresión lineal en algunos paquetes de software (por ejemplo, Mathematica), obtengo valores p asociados con los parámetros individuales del modelo. Por, ejemplo, los resultados de una regresión lineal que produce un resultado tendrá un valor p asociado con y uno con .aax+bab

  1. ¿Qué significan estos valores p individualmente sobre esos parámetros?

  2. ¿Existe una forma general de calcular parámetros para cualquier modelo de regresión?

  3. ¿Se puede combinar el valor p asociado con cada parámetro en un valor p para todo el modelo?

Para mantener esta pregunta de naturaleza matemática, solo busco la interpretación de los valores p en términos de probabilidades.

Henry B.
fuente
La respuesta de Gavin en la pregunta @cardinal vinculada a lo dice bien.
JM no es un estadístico
66
@zyx, no hay nada avanzado sobre las preguntas del OP. Estas son preguntas muy comunes para las cuales, en mi opinión, las estadísticas. SE es más apropiado --- y para las cuales los participantes también están más en sintonía. Math.SE y MO son recursos excelentes para preguntas de probabilidad, pero mucho menos para preguntas estadísticas. Las preguntas del OP se inclinan mucho más hacia lo último.
cardenal
@cardinal: he seguido las estadísticas. SE desde el inicio de la versión beta pública. De más de 4800 preguntas hasta la fecha, no pude localizar una que preguntara o respondiera el ítem 3 del OP, lo cual es extraño si esta es una consulta "muy común". Tampoco he visto respuestas conceptualmente precisas al elemento 1 en las pocas veces que apareció. Creo que estas cosas deberían publicarse en matemáticas. SE y MO periódicamente para atraer la atención de un público más amplio, no migrar en minutos a las estadísticas. No está de más preguntar también sobre stat.SE, pero no es útil convertir este último en el único lugar donde se pueden discutir las estadísticas.
zyx
Ahora hay un hilo sobre matemática.SE a stats.SE migraciones en meta.math.SE.
zyx
(Algunos comentarios a los que se hizo referencia anteriormente se perdieron en la migración. Son visibles en la publicación original de matemáticas. SE, vinculados a continuación junto a las palabras "migraron de ...")
zyx

Respuestas:

13
  1. El valor p para es el valor p en una prueba de la hipótesis " α = 0 " (generalmente una prueba t de 2 lados ). El valor p para b es el valor p en una prueba de la hipótesis " β = 0 " (también generalmente una prueba t de 2 lados ) y del mismo modo para cualquier otro coeficiente en la regresión. Los modelos de probabilidad para estas pruebas están determinados por el supuesto en el modelo de regresión lineal. Para la regresión lineal de mínimos cuadrados, el par ( a , b ) sigue una distribución normal bivariada centrada en los valores de parámetros verdaderos (aα=0tbβ=0ta,bt α = 0 β = 0 un b Aα,β), Y la prueba de hipótesis para cada coeficiente es equivalente a -testing si (resp. ) a partir de muestras de una distribución normal adecuado [de una variable, es decir, la distribución de o solo ] Los detalles de las distribuciones normales que aparecen son algo complicados e involucran "grados de libertad" y "matrices de sombrero" (basadas en la notación para algunas de las matrices que aparecen constantemente en la teoría de la regresión de OLS).tα=0β=0abA^

  2. Sí. Por lo general, se realiza (y define) mediante la Estimación de máxima verosimilitud . Para la regresión lineal de OLS y una pequeña cantidad de otros modelos, existen fórmulas exactas para estimar los parámetros a partir de los datos. Para regresiones más generales, las soluciones son de naturaleza iterativa y numérica.

  3. No directamente. Un valor p se calcula por separado para una prueba de todo el modelo, es decir, una prueba de la hipótesis de que todos los coeficientes (de las variables presuntamente varían), por lo que no se incluye el coeficiente del "término constante" si existe uno). Pero este valor p generalmente no puede calcularse a partir del conocimiento de los valores p de los coeficientes.

zyx
fuente
2
En su punto (1.) parece haber un poco de confusión entre un parámetro y un estimador . El valor está asociado con el estimador en lugar del parámetro y los estimadores son bivariados normales, no los parámetros (que, al menos, en la estadística clásica se consideran fijos). Además, sus comentarios en el punto (3.) pueden generar confusión, ya que es completamente posible (y bastante común) que algunos de los valores p individuales de las estimaciones de regresión sean más grandes y más pequeños que el valor p conjunto del valor correspondiente Prueba F pppF
cardenal
@NRH: Lo siento, ¿puedes aclarar tu comentario anterior? No lo sigo (todavía). :)
cardenal
@cardinal: parece más exacto decir que un valor p está asociado a una prueba de hipótesis. Los parámetros aparecen en la hipótesis nula de la prueba y el par (valor observado del estimador, hipótesis alternativa) luego determina un valor p. Las hipótesis nulas deben describirse utilizando parámetros, como α = 0 en lugar de estimadores a = 0 como se hizo [descuidadamente] en la respuesta original, ahora editada (gracias por señalar el error). Sin embargo, la distinción supuestamente confusa o faltante "los estimadores son normales bivariados, no los parámetros" se indicó explícitamente en la respuesta.
zyx
1
Lo siento, no pude resistirme. @zyx hizo un comentario en la publicación original sobre matemáticas. Las respuestas sobre stat. SE fueron a menudo imprecisas. Me parece que muchas respuestas son bastante precisas, aunque a veces matemáticamente imprecisas. Eso está en la naturaleza de las cosas. Las preguntas y respuestas estadísticas no siempre pueden reducirse a afirmaciones matemáticas precisas. En particular no los difíciles. Sin embargo, la respuesta proporcionada aquí no es particularmente precisa ni precisa en mi opinión.
NRH
3
Creo que sería bueno que quien votó en contra emitiera un comentario explicativo.
cardenal
1

wrt su primera pregunta: esto depende de su software de elección. En realidad, hay dos tipos de valores p que se usan con frecuencia en estos escenarios, ambos típicamente basados ​​en pruebas de razón de probabilidad (hay otros, pero estos son típicamente equivalentes o al menos difieren poco en sus resultados).

Es importante darse cuenta de que todos estos valores p están condicionados por (parte de) el resto de los parámetros. Eso significa: Suponiendo que (algunas de) las otras estimaciones de parámetros son correctas, usted prueba si el coeficiente de un parámetro es o no cero. Por lo general, la hipótesis nula para estas pruebas es que el coeficiente es cero, por lo que si tiene un valor p pequeño, significa (condicionalmente en el valor de los otros coeficientes) que el coeficiente en sí es poco probable que sea cero.

Las pruebas de tipo I prueban la zeroness de cada coeficiente condicionalmente en el valor de los coeficientes que vienen antes en el modelo (de izquierda a derecha). Pruebas de tipo III (pruebas marginales), prueba la zeroness de cada coeficiente condicional en el valor de todos los demás coeficientes.

Las diferentes herramientas presentan diferentes valores p como valores predeterminados, aunque generalmente tiene formas de obtener ambos. Si no tiene un motivo fuera de las estadísticas para incluir los parámetros en algún orden, generalmente le interesarán los resultados de la prueba de tipo III.

Finalmente (en relación con su última pregunta), con una prueba de razón de probabilidad siempre puede crear una prueba para cualquier conjunto de coeficientes condicionales al resto. Este es el camino a seguir si desea probar que varios coeficientes sean cero al mismo tiempo (de lo contrario, se encontrará con algunos problemas desagradables de pruebas múltiples).

Nick Sabbe
fuente
¿Podría por favor explicar la condicionalidad que mencionó? En la regresión univariante con predictores y una intercepción, probar una hipótesis en una combinación lineal de los parámetros Psi = c ' ß prueba utiliza estadística t = ψ - ψ 0pψ=cβ ...t=ψ^ψ0σ^c(XX)1c
caracal
Aquí ψ = c ' β , con β siendo el vector de estimaciones de los parámetros, y c un vector de coeficientes. X es la matriz de diseño, y σ es el error estándar residual | El | e | El | 2 / ( n - ( p + 1 ) ) , donde e es el vector de residuos del modelo suministrado. Para la prueba de un solo parámetro j siendo 0, c es el jψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcj-ésimo vector unitario, y . No veo dónde las comparaciones de modelos juegan un rol para t . ψ0=0t
caracal
La esencia del asunto se captura, por ejemplo, aquí . Recuerde que anova es solo un caso especial de regresión. Básicamente, todo se reduce a esto: si realiza una prueba de zeroness de (el coeficiente de) la variable A en un modelo con o sin variable B, puede obtener resultados diferentes. Por lo tanto, el resultado depende de su modelo, los datos (incluso para los valores de la variable B) y, por lo tanto, de los coeficientes no en su prueba sino en su modelo. Encontrar esa idea en las matemáticas puede ser algo más difícil :-)
Nick Sabbe
p1pcββjF=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2u
El caso continuo debe ser completamente equivalente a una variable codificada 0-1 dicotómica.
Nick Sabbe