Estoy haciendo regresión lineal múltiple. Tengo 21 observaciones y 5 variables. Mi objetivo es solo encontrar la relación entre variables
- ¿Son suficientes mis datos para hacer una regresión múltiple?
El resultado de la prueba t reveló que 3 de mis variables no son significativas. ¿Necesito hacer mi regresión nuevamente con las variables significativas (o mi primera regresión es suficiente para llegar a una conclusión)? Mi matriz de correlación es la siguiente
var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 -0.7 -0.7 1.0 0.8 Y -0.2 -0.4 -0.6 -0.9 0.8 1.0
var 1 y var 2 son variables continuas y var 3 a 5 son variables categóricas y y es mi variable dependiente.
Cabe mencionar que la variable importante que se ha considerado en la literatura como el factor más influyente en mi variable dependiente no se encuentra también entre mis variables de regresión debido a mi limitación de datos. ¿Todavía tiene sentido hacer una regresión sin esta variable importante?
aquí está mi intervalo de confianza
Varibales Regression Coefficient Lower 95% C.L. Upper 95% C.L.
Intercept 53.61 38.46 68.76
var 1 -0.39 -0.97 0.19
var 2 -0.01 -0.03 0.01
var 3 5.28 -2.28 12.84
var 4 -27.65 -37.04 -18.26
**var 5 11.52 0.90 22.15**
La respuesta a la pregunta general es que depende de muchos factores, siendo los principales (1) el número de covariables (2) la varianza de las estimaciones y los residuos. Con una muestra pequeña, no tiene mucho poder para detectar una diferencia de 0. Así que miraría la varianza estimada de los parámetros de regresión. Desde mi experiencia con la regresión, 21 observaciones con 5 variables no son datos suficientes para descartar variables. Por lo tanto, no sería tan rápido descartar variables ni enamorarme demasiado de las que parecen significativas. La mejor respuesta es esperar hasta tener muchos más datos. A veces eso es fácil de decir pero difícil de hacer. Miraría la regresión gradual, la regresión hacia adelante y hacia atrás solo para ver qué variables se seleccionan. Si las covariables están altamente correlacionadas, esto puede mostrar conjuntos muy diferentes de variables seleccionadas. Inicie el procedimiento de selección del modelo, ya que será revelador en cuanto a la sensibilidad de la selección de variables a los cambios en los datos. Debe calcular la matriz de correlación para covariables. Quizás Frank Harrell intervenga en esto. Es un verdadero experto en selección de variables. Creo que al menos estaría de acuerdo conmigo en que no debe elegir un modelo final basado únicamente en estos 21 puntos de datos.
fuente