Estoy familiarizado con el uso de múltiples regresiones lineales para crear modelos de varias variables. Sin embargo, tenía curiosidad por saber si alguna vez se utilizan pruebas de regresión para hacer algún tipo de prueba de hipótesis básica. Si es así, ¿cómo serían esos escenarios / hipótesis?
regression
hypothesis-testing
multiple-regression
cryptic_star
fuente
fuente
Respuestas:
Aquí hay un ejemplo simple. No sé si está familiarizado con R, pero espero que el código se explique por sí solo.
Ahora, veamos cómo se ve esto:
Podemos centrarnos en la sección "Coeficientes" de la salida. Cada parámetro estimado por el modelo obtiene su propia fila. La estimación real en sí se enumera en la primera columna. La segunda columna enumera los errores estándar de las estimaciones, es decir, una estimación de cuánto rebotarían las estimaciones de una muestra a otra, si tuviéramos que repetir este proceso una y otra y otra vez. Más específicamente, es una estimación de la desviación estándar de la distribución muestral de la estimación. Si dividimos cada estimación de parámetro por su SE, obtenemos una puntuación t , que se enumera en la tercera columna; esto se usa para la prueba de hipótesis, específicamente para probar si la estimación del parámetro es 'significativamente' diferente de 0. La última columna es elValor p asociado con esa puntuación t. Es la probabilidad de encontrar un valor estimado tan lejos o más lejos de 0, si la hipótesis nula fuera cierta. Tenga en cuenta que si la hipótesis nula no es cierta, no está claro que este valor nos esté diciendo algo significativo.
Si miramos hacia adelante y hacia atrás entre la tabla de Coeficientes y el proceso de generación de datos verdadero anterior, podemos ver algunas cosas interesantes. Se estima que la intersección es -1.8 y su SE es 27, mientras que el valor verdadero es 15. Debido a que el valor p asociado es .95, no se consideraría 'significativamente diferente' de 0 (un error de tipo II ), pero Sin embargo, está dentro de un SE del valor verdadero. Por lo tanto, no hay nada terriblemente extremo en esta estimación desde la perspectiva del valor verdadero y la cantidad que debería fluctuar; simplemente tenemos un poder insuficiente para diferenciarlo de 0. La misma historia es válida, más o menos, para.21214 ≈ .2
x1
x2
x3
x1
predice la variable de respuesta mejor que el azar solo. Otra forma de decir esto es si todas las estimaciones deben considerarse o no imposibles de diferenciar de 0. Los resultados de esta prueba sugieren que al menos algunas de las estimaciones de los parámetros no son iguales a 0, sino una decisión correcta. Dado que hay 4 pruebas anteriores, no tendríamos protección contra el problema de las comparaciones múltiples sin esto. (Tenga en cuenta que debido a que los valores p son variables aleatorias, si algo es significativo variaría de un experimento a otro, si el experimento se volviera a ejecutar, es posible que estos sean inconsistentes entre sí. Esto se discute en CV aquí: importancia de los coeficientes en regresión múltiple: prueba t significativa versus estadística F no significativa, y la situación opuesta aquí: ¿cómo puede una regresión ser significativa pero todos los predictores no son significativos? & aquí: estadísticas F y t en una regresión .) Quizás curiosamente, no hay errores de tipo I en este ejemplo. En cualquier caso, las 5 pruebas discutidas en este párrafo son pruebas de hipótesis.De su comentario, deduzco que también puede preguntarse cómo determinar si una variable explicativa es más importante que otra. Esta es una pregunta muy común, pero es bastante complicada. Imagine querer predecir el potencial de éxito en un deporte basado en la altura y el peso de un atleta, y preguntándose cuál es más importante. Una estrategia común es mirar para ver qué coeficiente estimado es mayor. Sin embargo, estas estimaciones son específicas de las unidades que se usaron: por ejemplo, el coeficiente de peso cambiará dependiendo de si se usan libras o kilogramos. Además, no está remotamente claro cómo equiparar / comparar libras y pulgadas, o kilogramos y centímetros. Una estrategia que las personas emplean es estandarizarR2 r = r2--√
fuente
La prueba esencial en los modelos de regresión es la prueba de reducción completa. Aquí es donde está comparando 2 modelos de regresión, el modelo completo contiene todos los términos y la prueba reducida tiene un subconjunto de esos términos (el modelo reducido debe estar anidado en el modelo completo). Luego, la prueba prueba la hipótesis nula de que el modelo reducido se ajusta tan bien como el modelo completo y cualquier diferencia se debe al azar.
Las impresiones comunes del software estadístico incluyen una prueba F general, esta es solo la prueba de reducción completa donde la prueba reducida es solo un modelo de intercepción. También a menudo imprimen un valor p para cada predictor individual, esta es solo una serie de pruebas de modelo con reducción completa, en cada una de ellas el modelo reducido no incluye ese término específico. Hay muchas formas de usar estas pruebas para responder preguntas de interés. De hecho, casi todas las pruebas que se imparten en un curso introductorio de estadísticas se pueden calcular utilizando modelos de regresión y la prueba de reducción total y los resultados serán idénticos en muchos casos y una aproximación muy cercana en los pocos otros.
fuente