Quiero ejecutar una regresión logística binaria para modelar la presencia o ausencia de conflicto (variable dependiente) a partir de un conjunto de variables independientes durante un período de 10 años (1997-2006), y cada año tiene 107 observaciones. Mis independientes son:
- degradación de la tierra (categórica para 2 tipos de degradación);
- aumento de la población (0- no; 1-sí);
- tipo de sustento (0 - tipo uno; 1 - tipo dos);
- densidad de población (tres niveles de densidad);
- NDVI continuo (productividad máxima de verduras);
- NDVI t - 1 (disminución de verduras respecto al año anterior - 0 - no; 1 - sí) y
- y NDVI t - 2 (disminución de las verduras de dos años anteriores - 0- no; 1- sí).
Soy bastante nuevo en todo esto, este es un proyecto que mi profesor me ha dado, por lo que agradecería algún consejo u orientación. Ya he probado la multicoliniaridad.
Esencialmente, mis datos se dividen en 107 unidades de observación (regiones espaciales) que cubren 10 años (1070 en total) y para cada unidad de observación, da un valor de 'instantánea' de las condiciones de las variables independientes en ese momento dentro de esa unidad ( región). ¿Quiero saber cómo configurar mi regresión logística (o tabla) para reconocer los 107 valores de cada año por separado para que se puedan evaluar los cambios temporales del NDVI entre diferentes unidades de años?
fuente
Respuestas:
¡Este es realmente un problema extremadamente sofisticado y una pregunta difícil de su profesor!
En términos de cómo organizar sus datos, un rectángulo de 1070 x 10 está bien. Por ejemplo, en R:
Para ajustar un modelo, la función glm () como sugiere @ gui11aume hará lo básico ...
... pero esto tiene el problema de que trata el "país" (supongo que tiene el país como sus 107 unidades) como un efecto fijo, mientras que un efecto aleatorio es más apropiado. También trata el período como un factor simple, no se permite la autocorrelación.
Puede abordar el primer problema con un modelo de efectos mixtos lineales generalizados como, por ejemplo, en el paquete lme4 de Bates et al en R. Hay una buena introducción a algunos aspectos de esto aquí . Algo como
Sería un paso adelante.
Ahora su último problema restante es la autocorrelación en sus 10 períodos. Básicamente, sus 10 puntos de datos en cada país no valen tanto como si fueran 10 puntos distribuidos independientes e identificados elegidos al azar. No conozco una solución de software ampliamente disponible para la autocorrelación en los residuos de un modelo multinivel con una respuesta no normal. Ciertamente no está implementado en lme4. Otros pueden saber más que yo.
fuente
Este tutorial es completo.
En R, debe preparar sus datos, digamos variable
data
en adata.frame
, cuya primera columna es su variable 0-1 (conflicto) y las otras columnas son los predictores. Para las variables categóricas, debe asegurarse de que sean de tipofactor
. Para asegurarse de que la columna 3, por ejemplo, tenga esta propiedad, puede aplicarla mediantedata[,3] <- as.factor(data[,3])
.Entonces es solo cuestión de
Esto supone implícitamente que tiene un modelo aditivo y le da los valores estimados. Para obtener una salida más completa, con prueba para parámetros individuales, puede hacer
fuente