Digamos que calzo una regresión múltiple de p variables explicativas. La prueba t me permitirá verificar si alguno de esos es significativo ( ). Puedo hacer una prueba F parcial para verificar si algún subconjunto de ellos es significativo ( ).H 0 : β i = β j = . . . = β k = 0
Sin embargo, lo que a menudo veo es que alguien obtiene 5 valores p de 5 pruebas t (suponiendo que tenían 5 covariables) y solo mantiene los que tienen un valor p <0.05. Eso parece un poco incorrecto ya que realmente debería haber una verificación de comparación múltiple, ¿no? ¿Es realmente justo decir que algo como y son significativos, pero , y no lo son?β 2 β 3 β 4 β 5
En una nota relacionada, digamos que ejecuto 2 regresiones en 2 modelos separados (resultado diferente). ¿Es necesario que haya una verificación de comparación múltiple para parámetros significativos entre los dos resultados?
Editar: Para diferenciar de la pregunta similar, ¿hay alguna otra interpretación de los valores p además de: "B_i es (in) significativo, cuando se ajusta para todas las demás covariables"? No parece que esta interpretación me permita ver cada B_i y descartar esas menos de 0.5 (que es similar a la otra publicación).
Me parece que una forma segura de probar si B_i e Y tienen una relación sería obtener un coeficiente de correlación p-valor para cada covariable y luego hacer una multcomp (aunque eso definitivamente perdería señal).
Finalmente, digamos que calculé la correlación entre B1 / Y1, B2 / Y1 y B3 / Y1 (por lo tanto, tres valores p). Sin relación, también hice una correlación entre T1 / Y2, T2 / Y2, T3 / Y2. Supongo que el ajuste correcto de Bonferroni sería 6 para las 6 pruebas juntas (en lugar de 3 para el primer grupo y 3 para el segundo grupo, y así obtener 2 valores p "semi" ajustados).
fuente
Respuestas:
Tienes razón. El problema de las comparaciones múltiples existe en todas partes, pero, debido a la forma en que generalmente se enseña, las personas solo piensan que se trata de comparar muchos grupos entre sí a través de un montón de pruebas . En realidad, hay muchos ejemplos en los que existe el problema de las comparaciones múltiples, pero donde no parece muchas comparaciones por pares; por ejemplo, si tiene muchas variables continuas y se pregunta si alguna está correlacionada, tendrá un problema de comparaciones múltiples (vea aquí: Mire y encontrará una correlación ).t
Otro ejemplo es el que planteas. Si ejecutara una regresión múltiple con 20 variables, y utilizara como su umbral, esperaría que una de sus variables sea 'significativa' solo por casualidad, incluso si todos los valores nulos fueran verdaderos. El problema de las comparaciones múltiples simplemente proviene de la matemática de ejecutar muchos análisis. Si todas las hipótesis nulas fueran verdaderas y las variables estuvieran perfectamente sin correlación, la probabilidad de no rechazar falsamente cualquier nulo verdadero sería ( . Ej., Con , esto es ).α = .05 1 - ( 1 - α ) p p = 5 .231 - ( 1 - α )pag p = 5 .23
La primera estrategia para mitigar esto es realizar una prueba simultánea de su modelo. Si está ajustando una regresión OLS, la mayoría del software le dará una prueba global como parte predeterminada de su salida. Si está ejecutando un modelo lineal generalizado, la mayoría del software le proporcionará una prueba de razón de probabilidad global análoga. Esta prueba le dará cierta protección contra la inflación de error tipo I debido al problema de las comparaciones múltiples (cf., mi respuesta aquí: Importancia de los coeficientes en la regresión lineal: prueba t significativa versus estadística F no significativa ). Un caso similar es cuando tiene una variable categórica que se representa con varios códigos ficticios; no querrías interpretar esosF tt -prueba, pero eliminaría todos los códigos ficticios y, en su lugar, realizaría una prueba de modelo anidado.
Otra estrategia posible es utilizar un procedimiento de ajuste alfa, como la corrección de Bonferroni. Debes darte cuenta de que hacer esto reducirá tu poder y reducirá tu tasa de error familiar tipo I. Si esta compensación vale la pena es una decisión decisiva para usted. (FWIW, normalmente no uso correcciones alfa en regresión múltiple).
Con respecto al tema del uso de los valores para hacer la selección del modelo, creo que esta es una muy mala idea. No pasaría de un modelo con 5 variables a uno con solo 2 porque los otros eran 'no significativos'. Cuando las personas hacen esto, sesgan su modelo. Puede ayudarlo a leer mi respuesta aquí: algoritmos para la selección automática de modelos para comprender esto mejor.p
Con respecto a su actualización, no sugeriría que evalúe primero las correlaciones univariadas para decidir qué variables usar en el modelo final de regresión múltiple. Hacer esto conducirá a problemas con la endogeneidad a menos que las variables no estén correlacionadas entre sí. este problema en mi respuesta aquí: Estimando lugar deb1x1+b2x2 b1x1+b2x2+b3x3 .
Con respecto a la cuestión de cómo manejar los análisis con diferentes variables dependientes, si desea utilizar algún tipo de ajuste se basa en cómo ve los análisis entre sí. La idea tradicional es determinar si se consideran significativamente como una 'familia'. Esto se discute aquí: ¿Cuál podría ser una definición clara y práctica para una "familia de hipótesis"? También es posible que desee leer este hilo: Métodos para predecir múltiples variables dependientes .
fuente
En un nivel práctico, creo que uno también debe considerar si los Betas reflejan los niveles de variables categóricas (es decir, dummies). En estas circunstancias, es razonable estar interesado en saber si una Beta dada es diferente en comparación con una Beta referente (significativa). Pero incluso antes de hacer comparaciones por pares, uno debería saber si los niveles generales de la variable categórica son importantes (usando una prueba F conjunta o una prueba de razón de verosimilitud). Hacer esto tiene la ventaja de usar menos df
fuente