Regresión con un tamaño de muestra muy pequeño.

9

Quiero ejecutar una regresión con 4 a 5 variables explicativas, pero solo tengo 15 observaciones. No pudiendo asumir que estas variables están normalmente distribuidas, ¿existe algún método de regresión no paramétrico o de otro tipo válido?

Beto
fuente
55
No se supone que ninguna de las variables explicativas sea normal. Tampoco hay una suposición sobre la distribución marginal de la respuesta. Si está haciendo CI o pruebas de hipótesis, la inferencia habitual supone la normalidad condicional de la respuesta. Más importantes son los supuestos de linealidad y varianza constante. ¿En qué consiste su respuesta (/ por qué no será normal)?
Glen_b -Reinstate Monica
3
No. No tienes suficientes datos. Este es un análisis exploratorio. Es posible que haya visto relaciones sugerentes. Pero debe evitar los valores p, los intervalos de confianza y las pruebas de hipótesis.
Charles

Respuestas:

10

@Glen_b tiene razón sobre la naturaleza del supuesto de normalidad en la regresión 1 .

Creo que su mayor problema será que no tiene suficientes datos para admitir 4 a 5 variables explicativas. La regla general estándar 2 es que debe tener al menos 10 datos por variable explicativa, es decir, 40 o 50 datos en su caso (y esto es para situaciones ideales en las que no hay dudas sobre los supuestos). Porque su modelo no estaría completamente saturado 3(tiene más datos que parámetros para ajustar), puede obtener estimaciones de parámetros (pendiente, etc.) y, en circunstancias ideales, las estimaciones son asintóticamente imparciales. Sin embargo, es muy probable que sus estimaciones estén muy lejos de los valores reales y que sus SE / CI sean muy grandes, por lo que no tendrá poder estadístico. Tenga en cuenta que el uso de un análisis de regresión no paramétrico u otra alternativa no lo sacará de este problema.

Lo que tendrá que hacer aquí es elegir una sola variable explicativa (¡antes de ver sus datos!) Basada en teorías anteriores en su campo o sus corazonadas, o debe combinar sus variables explicativas. Una estrategia razonable para la última opción es ejecutar un análisis de componentes principales (PCA) y utilizar el primer componente principal como su variable explicativa.

Referencias:
1. ¿Qué sucede si los residuos se distribuyen normalmente pero Y no?
2. Reglas generales para el tamaño mínimo de muestra para regresión múltiple
3. Número máximo de variables independientes que se pueden ingresar en una ecuación de regresión múltiple

gung - Restablece a Monica
fuente