Aquí hay un poco de contexto. Estoy interesado en determinar cómo dos variables ambientales (temperatura, niveles de nutrientes) impactan el valor medio de una variable de respuesta durante un período de 11 años. Dentro de cada año, hay datos de más de 100k ubicaciones.
El objetivo es determinar si, durante el período de 11 años, el valor medio de las variables de respuesta ha respondido a los cambios en las variables ambientales (por ejemplo, una temperatura más cálida + más nutrientes = una mayor respuesta).
Desafortunadamente, dado que la respuesta es el valor medio (sin mirar la media, solo la variación interanual regular amortiguará la señal), la regresión será de 11 puntos de datos (1 valor medio por año), con 2 variables explicativas. Para mí, incluso una regresión positiva lineal será difícil de considerar como significativa dado que el conjunto de datos es tan pequeño (ni siquiera cumple los 40 puntos / variables nominales a menos que la relación sea súper fuerte).
¿Tengo razón al hacer esta suposición? ¿Alguien puede ofrecer otros pensamientos / perspectivas que pueda estar perdiendo?
PD: Algunas advertencias: no hay forma de obtener más datos sin esperar años adicionales. Entonces, la información disponible es con lo que realmente tenemos que trabajar.
fuente
Respuestas:
El pequeño número de puntos de datos limita los tipos de modelos que puede incluir en sus datos. Sin embargo, no necesariamente significa que no tendría sentido comenzar a modelar. Con pocos datos solo podrá detectar asociaciones si los efectos son fuertes y la dispersión es débil.
Otra pregunta es qué tipo de modelo se adapta a sus datos. Usaste la palabra 'regresión' en el título. El modelo debe reflejar en cierta medida lo que sabe sobre el fenómeno. Este parece ser un entorno ecológico, por lo que el año anterior también puede ser influyente.
fuente
He visto conjuntos de datos ecológicos con menos de 11 puntos, por lo que diría que si tiene mucho cuidado, puede sacar algunas conclusiones limitadas con sus datos limitados.
También puede hacer un análisis de potencia para determinar qué tan pequeño es un efecto que puede detectar, dados los parámetros de su diseño experimental.
Es posible que tampoco necesite descartar la variación adicional por año si hace un análisis cuidadoso
fuente
Modelar los datos fundamentalmente (especialmente para series de tiempo) supone que ha recopilado datos con una frecuencia suficiente para capturar los fenómenos de interés. El ejemplo más simple es para una onda sinusoidal: si está recopilando datos a una frecuencia de n * pi donde n es un número entero, entonces no verá nada más que ceros y perderá el patrón sinusoidal por completo. Hay artículos sobre teoría de muestreo que analizan con qué frecuencia se deben recopilar los datos.
fuente
No estoy seguro de entender este bit: "Desafortunadamente, dado que la respuesta es el valor medio (sin mirar la media, solo una variación interanual regular inundará la señal)"
Con un modelado cuidadoso, me parece que podría ganar mucho modelando esto como datos del panel. Dependiendo del alcance espacial de sus datos, puede haber grandes diferencias en las temperaturas a las que sus puntos de datos estuvieron expuestos dentro de un año determinado. Promediar todas estas variaciones parece costoso.
fuente
Yo diría que la validez de la prueba tiene menos que ver con el número de puntos de datos y más con la validez de la suposición de que tiene el modelo correcto.
Por ejemplo, el análisis de regresión que se utiliza para generar una curva estándar puede basarse en solo 3 estándares (bajo, medio y alto), pero el resultado es altamente válido ya que existe una fuerte evidencia de que la respuesta es lineal entre los puntos.
Por otro lado, incluso una regresión con miles de puntos de datos será defectuosa si se aplica un modelo incorrecto a los datos.
En el primer caso, cualquier variación entre las predicciones del modelo y los datos reales se debe a un error aleatorio. En el segundo caso, parte de la variación entre las predicciones del modelo y los datos reales se debe al sesgo de elegir el modelo incorrecto.
fuente
El número requerido de observaciones para identificar un modelo depende de la relación de señal a ruido en los datos y la forma del modelo. Si me dan los números, 1,2,3,4,5, predeciré 6,7,8, ... La identificación del modelo de Box-Jenkins es un enfoque para determinar el término general subyacente de manera muy similar a la prueba para " inteligencia numérica "que damos a los niños. Si la señal es fuerte, entonces necesitamos menos observaciones y viceversa. Si la frecuencia observada sugiere una posible "estructura estacional", entonces necesitamos repeticiones de este fenómeno, por ejemplo, al menos 3 estaciones (preferiblemente más) como regla general para extraer (identificar esto a partir de las estadísticas descriptivas básicas (acf / pacf).
fuente
Quizás pueda tratar de manejar su serie temporal como un sistema de ecuaciones lineales y resolverlo mediante la eliminación de Gauss. Por supuesto, en ese caso, se limita a los datos disponibles, pero este es el único precio que tiene que pagar.
fuente