Número mínimo de puntos para una regresión lineal.

16

¿Cuál sería un número mínimo "razonable" de observaciones para buscar una tendencia en el tiempo con una regresión lineal? ¿Qué hay de ajustar un modelo cuadrático?

Trabajo con índices compuestos de desigualdad en salud (SII, RII), y solo tengo 4 ondas de la encuesta, entonces 4 puntos (1997,2001,2004,2008).

No soy estadístico, pero tengo la impresión intuitiva de que 4 puntos no son suficientes. ¿Tiene una respuesta y / o referencias?

Muchas gracias,

Françoise

Francoise
fuente
44
La regla general habitual es 10 puntos para cada variable independiente.
Peter Flom - Restablece a Monica
1
¿Cómo se miden sus índices? Si incluyen estimaciones de variabilidad, entonces dos podrían ser suficientes (usando una prueba t o su análogo). El principio estadístico básico que se aplica aquí es que cuando la variación aleatoria es una explicación poco probable de lo que está observando, tiene el derecho de atribuir cualquier tendencia aparente a causas no aleatorias. Cuando la tendencia es fuerte, pueden necesitarse muy pocos valores de datos para llegar a tal conclusión, a pesar de todas las "reglas generales" genéricas.
whuber

Respuestas:

12

La regla general de Peters de 10 por covariable es una regla razonable. Una línea recta se puede ajustar perfectamente con cualquiera de los dos puntos, independientemente de la cantidad de ruido en los valores de respuesta, y una cuadrática se puede ajustar perfectamente con solo 3 puntos. Claramente, en casi cualquier circunstancia sería apropiado decir que 4 puntos son insuficientes. Sin embargo, como la mayoría de las reglas generales, no cubre todas las situaciones. Los casos donde el término de ruido en el modelo tiene una gran varianza requerirán más muestras que un caso similar donde la varianza del error es pequeña.

El número requerido de puntos de muestra depende de los objetos. Si está haciendo un análisis exploratorio solo para ver si un modelo (digamos lineal en una covariable) se ve mejor que otro (digamos una función cuadrática de la covariable), menos de 10 puntos pueden ser suficientes. Pero si desea estimaciones muy precisas de los coeficientes de correlación y regresión para las covariables, podría necesitar más de 10 por covariable. La precisión del criterio de predicción podría requerir incluso más muestras que las estimaciones precisas de los parámetros. Tenga en cuenta que la varianza de las estimaciones y predicciones implican la varianza del término de error de los modelos.

Michael R. Chernick
fuente
Buenos puntos, Michael; Estaba tratando de mantenerlo simple. :-). Dado el tema de la pregunta original, estaría muy sorprendido si menos de 10 puntos fueran adecuados. Es probable que las medidas de desigualdad en salud tengan muchos errores, y es poco probable que las relaciones con el tiempo sean altamente lineales. ¿Conoces algún artículo sobre esto? Es un tema interesante que surge mucho.
Peter Flom - Restablece a Monica
@PeterFlom no lo hago. Vería el libro de Van Belle sobre reglas estadísticas generales para ver si usa una regla como la que mencionaste. Lo bueno de su libro es que explica la lógica detrás de cada regla. Estoy de acuerdo con usted en que una regla que dice tomar al menos 10 por covariable es bastante buena y usar menos rara vez sería seguro, excepto en algunos casos exploratorios. En las ciencias de la salud donde trabajo, el término de ruido siempre parece ser grande, pero quizás algunos experimentos de física o ingeniería estrechamente controlados podrían tener mediciones muy precisas y, por lo tanto, pequeños errores aleatorios.
Michael R. Chernick
Solo estaba tratando de señalar la posibilidad de que un pequeño ruido lleve a necesitar menos de 10 puntos a pesar de que la posibilidad podría ser remota.
Michael R. Chernick
Sí estoy de acuerdo. Y bien podría ser el caso en física, por ejemplo, o en cualquier área donde un nivel muy altoR2se espera y la teoría es fuerte y el error es pequeño.
Peter Flom - Restablece a Monica
+1, buena información, pero también vale la pena mencionar que si su estimador es imparcial, puede tener un modelo saturado y aún tener una estimación de los parámetros, si eso es todo lo que necesita. No tendrá una estimación de la variabilidad ni podrá hacer inferencia. Sin embargo, en algunos casos donde hay muchos efectos para estimar y los datos son lo suficientemente difíciles de obtener, a veces se utilizan modelos saturados. Entonces, por ejemplo, en este caso, podría obtener una estimación de la función con la cuadrática con 3 puntos. No quiero decir necesariamente que sea algo bueno, pero ese es el límite inferior real y la razón por la cual.
gung - Restablece a Monica