Comparación de dos modelos de regresión lineal.

12

Me gustaría comparar dos modelos de regresión lineal que representan las tasas de degradación de un ARNm a lo largo del tiempo en dos condiciones diferentes. Los datos para cada modelo recopilados de forma independiente.

Aquí está el conjunto de datos.

Registro de tiempo (horas) (Tratamiento A) registro (tratamiento B)
0 2.02 1.97
0 2.04 2.06
0 1.93 1.96
2 2.02 1.91
2 2.00 1.95
2 2.07 1.82
4 1.96 1.97
4 2.02 1.99
4 2.02 1.99
6 1.94 1.90
6 1.94 1.97
6 1.86 1.88
8 1.93 1.97
8 2.12 1.99
8 2.06 1.93
12 1.71 1.70
12 1.96 1.73
12 1.71 1.76
24 1,70 1,46
24 1.83 1.41
24 1.62 1.42

Estos son mis modelos:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
Llamada:
lm (fórmula = Exp1 $ Tiempo ~ Exp1 $ (Tratamiento A))

Derechos residuales de autor:
    Mínimo 1Q Mediano 3Q Máx. 
-6.8950 -1.2322 0.2862 1.2494 5.2494 

Coeficientes:
                   Estd Estd. Error t valor Pr (> | t |)    
(Intercepción) 74.68 6.27 11.91 2.94e-10 ***
Exp1 $ (Tratamiento A) -36.14 3.38 -10.69 1.77e-09 ***
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1

Error estándar residual: 2.97 en 19 grados de libertad
Múltiple R cuadrado: 0.8575, R cuadrado ajustado: 0.85 
Estadística F: 114.3 en 1 y 19 DF, valor p: 1.772e-09

Llamada:
lm (fórmula = Exp1 $ Tiempo ~ Exp1 $ (Tratamiento B))

Derechos residuales de autor:
   Mínimo 1Q Mediano 3Q Máx. 
-7.861 -3.278 -1.444 3.222 11.972 

Coeficientes:
                      Estd Estd. Error t valor Pr (> | t |)    
(Intercepción) 88.281 16.114 5.478 2.76e-05 ***
Exp1 $ (Tratamiento B) -41.668 8.343 -4.994 8.05e-05 ***
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1

Error estándar residual: 5.173 en 19 grados de libertad
Múltiple R cuadrado: 0.5676, R cuadrado ajustado: 0.5449 
Estadística F: 24.94 en 1 y 19 DF, valor p: 8.052e-05

Para comparar estos dos modelos, utilicé el siguiente código.

anova(Exp1.A.lm,Exp1.B.lm)
Tabla de análisis de varianza

Modelo 1: Exp1 $ Tiempo ~ Exp1 $ Exp1 $ (Tratamiento A)
Modelo 2: Exp1 $ Tiempo ~ Exp1 $ Exp1 $ (Tratamiento B)
  Res.Df RSS Df Suma de Sq F Pr (> F)
1 19 167.60                      
2 19 508,48 0 -340,88

Mi pregunta es por qué el análisis ANOVA no muestra una estadística F y un p.val. Mis disculpas si esta es una pregunta ingenua.

Basado en diferentes pendientes, la tasa de degradación es diferente en estos dos modelos, pero me gustaría saber cuán estadísticamente significativa es esta diferencia. Espero que esto tenga sentido.

Rooz
fuente
2
Puede observar que la tabla ANOVA enumera los grados de libertad asociados con el análisis como 0 ; tiene el mismo número de variables en ambos modelos, esa es la razón por la que no se pueden calcular valores F o p.
gung - Restablece a Monica
55
No me molestaría en comparar estos modelos hasta después de comprobar su bondad de ajuste. Creo que encontrará en el segundo que ni la respuesta ni su logaritmo son funciones lineales del tiempo. Esto pone (en serio) en duda cualquier comparación de las estimaciones de la pendiente.
whuber

Respuestas:

11

Si configura los datos en una columna larga con A y B como una nueva columna, puede ejecutar su modelo de regresión como un GLM con una variable de tiempo continuo y una variable de "experimento" nominal (A, B). La salida del ANOVA le dará la importancia de la diferencia entre los parámetros. "interceptar" es la intercepción común y el factor "experimento" reflejará las diferencias entre las intercepciones (en realidad significa en general) entre los experimentos. El factor "Tiempo" será la pendiente común, y la interacción es la diferencia entre los experimentos con respecto a la pendiente.

Tengo que admitir que hago trampa (?) Y ejecuto los modelos por separado primero para obtener los dos conjuntos de parámetros y sus errores y luego ejecuto el modelo combinado para adquirir las diferencias entre los tratamientos (en su caso A y B) ...

usuario24187
fuente
3
Este es un enfoque inteligente. Cuando "hace trampa", ¿verifica que las variaciones de error son aproximadamente las mismas en cada modelo? Y si parecen sustancialmente diferentes, ¿cómo afecta eso a sus recomendaciones?
whuber
El GLM es un buen enfoque, y para explorar los datos, el ajuste de modelos separados es una buena manera de juzgar la variación de error entre experimentos. Si uno estuviera realmente preocupado, podrían extender el modelo GLM para incluir variaciones de error específicas del grupo en lugar de la suposición implícita de una variación de error común para todos los datos experimentales.
prince_of_pears
Otra cosa que viene a la mente es si OP está interesado en comerciar si las tasas de degradación entre experimentos son simplemente diferentes entre sí (ignorando la tasa absoluta), o si estas tasas también son estadísticamente (o prácticamente) diferentes de cero. El primero equivale a una prueba de la hipótesis de que el coeficiente de interacción entre el tratamiento y el tiempo es igual a cero. El segundo es realizar dos pruebas separadas (o una prueba de hipótesis conjunta) de que cada tasa es diferente de cero. Podría estar más interesado en probar el segundo antes que el primero.
prince_of_pears
5

El análisis ANOVA no muestra una estadística F y un valor p, ya que ambos modelos tienen los mismos grados residuales de libertad (es decir, 19) y si toma la diferencia, ¡sería cero! Debe haber al menos un grado de libertad después de tomar la diferencia para realizar la prueba F.

Stat
fuente
No estoy seguro si entiendo tu respuesta. ¿Hay alguna razón para que los grados residuales de libertad sean iguales? ¿Alguna sugerencia sobre un enfoque alternativo para comparar las pendientes?
Rooz
Sí hay. En ambos modelos tiene 21 observaciones, es decir, . En la regresión lineal con una variable aleatoria explicativa (es decir, Exp1 (Tratamiento B)), el grado de libertad para los regresores es uno. El grado total de libertad es . Tenga en cuenta que . Entonces en ambos modelos, por lo tanto, no puede usar la prueba F aquí. ( T r e a t m e n t A ) o r E x p 1 d f T = n - 1 = 20 d f T = d f e r r o r + d f r e g r e s s o r s d f e r r o rn=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19
Estadísticas
Hay muchas formas de compararlas además de la prueba F. La más fácil es usar Múltiples R-cuadrado y R-cuadrado ajustado como lo has hecho en los resúmenes. El modelo con R-cuadrado más alto o R-cuadrado ajustado es mejor. Aquí el mejor modelo parece ser el que tiene Exp1 $ (Tratamiento A). Pero recuerde que debe verificar los residuos de su modelo para verificar la adecuación del modelo ajustado. Personalmente, no recomiendo confiar solo en los criterios de R cuadrado y también debe verificar otras suposiciones en el modelo lineal. Especialmente vea si los residuos están autocorrelacionados o no.
Estadísticas