Número mínimo de observaciones para regresión lineal múltiple

Estoy haciendo regresión lineal múltiple. Tengo 21 observaciones y 5 variables. Mi objetivo es solo encontrar la relación entre variables

¿Son suficientes mis datos para hacer una regresión múltiple?

El resultado de la prueba t reveló que 3 de mis variables no son significativas. ¿Necesito hacer mi regresión nuevamente con las variables significativas (o mi primera regresión es suficiente para llegar a una conclusión)? Mi matriz de correlación es la siguiente

       var 1   var 2    var 3   var 4   var 5     Y
var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0

var 1 y var 2 son variables continuas y var 3 a 5 son variables categóricas y y es mi variable dependiente.

Cabe mencionar que la variable importante que se ha considerado en la literatura como el factor más influyente en mi variable dependiente no se encuentra también entre mis variables de regresión debido a mi limitación de datos. ¿Todavía tiene sentido hacer una regresión sin esta variable importante?

aquí está mi intervalo de confianza

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

regression t-test multiple-regression Rosa
fuente

Respuestas:

La regla general (basada en cosas del libro de Frank Harrell, Estrategias de modelado de regresión ) es que si espera poder detectar efectos de tamaño razonable con un poder razonable , necesita 10-20 observaciones por parámetro (covariable) estimado. Harrell analiza muchas opciones para la "reducción de dimensiones" (reducir el número de covariables a un tamaño más razonable), como PCA, pero lo más importante es que para tener confianza en los resultados se debe hacer una reducción de dimensiones sin mirar la variable de respuesta . Hacer la regresión nuevamente con solo las variables significativas, como sugieres anteriormente, es en casi todos los casos una mala idea.

Sin embargo, dado que está atrapado con un conjunto de datos y un conjunto de covariables que le interesan, no creo que ejecutar la regresión múltiple de esta manera sea intrínsecamente incorrecto. Creo que lo mejor sería aceptar los resultados tal como son, del modelo completo (no olvide mirar las estimaciones puntuales y los intervalos de confianza para ver si los efectos significativos se estiman "grandes" en algunos casos). sentido mundial, y si los efectos no significativos se estiman en realidad más pequeños que los efectos significativos o no).

En cuanto a si tiene sentido hacer un análisis sin el predictor que su campo considera importante: no lo sé. Depende de qué tipo de inferencias desee hacer según el modelo. En sentido estricto, el modelo de regresión todavía está bien definido ("¿cuáles son los efectos marginales de estos predictores en esta respuesta?"), Pero alguien en su campo podría decir con razón que el análisis simplemente no tiene sentido. Ayudaría un poco si supiera que los predictores que tiene no están correlacionados con el predictor conocido (lo que sea que sea), o ese predictor conocido es constante o casi constante para sus datos: entonces al menos podría decir que algo distinto del conocido predictor tiene un efecto en la respuesta.

Ben Bolker
fuente

Gracias por el comentario, pero no entiendo cuál es el punto de verificar el intervalo de confianza.

levantó el

Como Ben respondió por Frank, responderé por Ben y él puede corregirme si tenía algo más en mente. Ben sugiere que jsut use el modelo completo. Entonces, al menos, sabe que no ha dejado una variable importante del conjunto de 5. El problema de sobreajuste puede dañar la predicción, pero al menos tiene intervalos de confianza para los parámetros y puede obtener intervalos de confianza para la predicción. Creo que esto funcionará bien si tiene un problema de colinealidad y los intervalos de confianza en los parámetros le permiten saber si el valor del parámetro podría ser 0.

Michael R. Chernick

Si al modelo todavía le faltan variables importantes, la predicción puede no ser buena y la evaluación de la precisión de la predicción basada en los datos dados puede ser incorrecta. Preocúpese por la especificación errónea del modelo y siempre verifique los residuos. Frank Harrell es un miembro activo de este sitio. Así que espero que esta pregunta llame su atención y luego podamos escucharlo directamente de él.

Michael R. Chernick

Siempre puede faltar variables importantes, y nunca se puede saber realmente ... Sugerí mirar intervalos de confianza porque solo preguntar si una variable es significativa en o no está perdiendo mucha información. Un escenario sería que todos sus parámetros tienen aproximadamente la misma magnitud de efecto estimada, pero sus incertidumbres varían de modo que algunos son significativos y otros no. Definitivamente no quiere concluir en este caso que "las variables A y B son importantes, las variables C, D y E no lo son". Los CI le darán esta información.

p < 0.05

$p<0.05$

Ben Bolker

De las discusiones, creo que debido a la falta de suficiente observación y la ausencia de la variable independiente más importante en mi conjunto de datos, debo llegar a una conclusión: 1-Las variables significativas no son la variable que ha pasado la prueba t. El significativo es uno que pasa la prueba t y su intervalo de confianza no incluye 0. 2-Se debe verificar la normalidad del residual. 3-La correlación matric debe ser verificada.

levantó el

La respuesta a la pregunta general es que depende de muchos factores, siendo los principales (1) el número de covariables (2) la varianza de las estimaciones y los residuos. Con una muestra pequeña, no tiene mucho poder para detectar una diferencia de 0. Así que miraría la varianza estimada de los parámetros de regresión. Desde mi experiencia con la regresión, 21 observaciones con 5 variables no son datos suficientes para descartar variables. Por lo tanto, no sería tan rápido descartar variables ni enamorarme demasiado de las que parecen significativas. La mejor respuesta es esperar hasta tener muchos más datos. A veces eso es fácil de decir pero difícil de hacer. Miraría la regresión gradual, la regresión hacia adelante y hacia atrás solo para ver qué variables se seleccionan. Si las covariables están altamente correlacionadas, esto puede mostrar conjuntos muy diferentes de variables seleccionadas. Inicie el procedimiento de selección del modelo, ya que será revelador en cuanto a la sensibilidad de la selección de variables a los cambios en los datos. Debe calcular la matriz de correlación para covariables. Quizás Frank Harrell intervenga en esto. Es un verdadero experto en selección de variables. Creo que al menos estaría de acuerdo conmigo en que no debe elegir un modelo final basado únicamente en estos 21 puntos de datos.

Michael R. Chernick
fuente

Gracias por su sugerencia Agregué mi matriz de correlación. ¿Crees que con esta matriz de correlación la regresión es razonable? Solo enfatice que no puedo recopilar más datos y tampoco quiero modelar o predecir. Solo quiero encontrar cualquier posible relación entre variables independientes y variables dependientes.

levantó el

La matriz de correlación está ahí para darle una idea de la colinealidad. Las estimaciones probablemente tendrán una gran variación, por lo que la importancia estadística no debería ser el foco. Ypu podría mirar diagnósticos de regresión para colinealidad. Eso podría ayudar. Pero recomendaría mirar una variedad de modelos de subconjuntos para ver cómo cambia el ajuste y qué combinaciones de variables parecen funcionar bien y mal. Realmente creo que el arranque de los datos le mostrará algo sobre la estabilidad de la elección de predictores.

Michael R. Chernick

Pero nada compensará la falta de datos. Creo que solo quieres ver si hay una o dos variables que parecen estar muy por encima del resto. Pero es posible que no encuentres nada.

Michael R. Chernick

¿Qué queremos decir con covariables exactamente? Digamos que tenemos alguna variable predictora , ¿entonces, digamos, cuenta como una covariable separada? ¿Qué tal , , etc. Dado que existe cierta correlación entre estos predictores, presumiblemente sus coeficientes estimados valen menos de 1 grado de libertad. ¿Y qué hay de, digamos, splines de regresión u otra regresión local: tenemos que tener en cuenta el hecho de que solo se utiliza un subconjunto de observaciones en la construcción de los componentes? Y si usamos un núcleo para aplicar pesos a los predictores, ¿eso afecta el número efectivo de observaciones utilizadas?

x

$x$

x^{2}

$x^2$

x^{3}

$x^3$

x^{4}

$x^4$

Confundido el