Un colega mío me envió este problema aparentemente haciendo las rondas en Internet:
If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ?
La respuesta parece ser 200.
3*6
4*8
5*10
6*12
7*14
8*16
9*18
10*20=200
Cuando hago una regresión lineal en R:
data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98))
lm1 <- lm(b~a, data=data)
new.data <- data.frame(a=c(10,20,30))
predict <- predict(lm1, newdata=new.data, interval='prediction')
Yo obtengo:
fit lwr upr
1 154 127.5518 180.4482
2 354 287.0626 420.9374
3 554 444.2602 663.7398
Entonces mi modelo lineal predice .
Cuando trazo los datos parece lineal ... pero obviamente asumí algo que no es correcto.
Estoy tratando de aprender cómo usar mejor los modelos lineales en R. ¿Cuál es la forma correcta de analizar esta serie? ¿Qué hice mal?
r
regression
lm
Brett Phinney
fuente
fuente
Respuestas:
Un modelo de regresión, como el que se ajusta
lm()
implícitamente, supone que el proceso de generación de datos subyacente es probabilístico . Está asumiendo que la regla que está tratando de modelar es determinista . Por lo tanto, hay una falta de coincidencia entre lo que está tratando de hacer y la forma en que está tratando de hacerlo.Hay otro software (es decir, no R) que está diseñado explícitamente para encontrar / ajustar la función más simple a los datos deterministas (un ejemplo sería Eureqa ). Puede haber un paquete R para eso (que no conozco), pero R está destinado al modelado estadístico de datos probabilísticos.
En cuanto a la respuesta que
lm()
le dio, parece razonable y podría ser correcta. Sin embargo, el contexto en el que se presentó este problema implicaba que debería entenderse como determinista. Si ese no hubiera sido el caso, y se preguntaba si el ajuste era razonable, una cosa que podría notar es que los dos puntos de datos extremos están por encima de la línea de regresión, mientras que los datos del medio están por debajo. Esto sugiere una forma funcional mal especificada. Esto también se puede ver en los gráficos residuales vs. ajustados (plot(lm1, which=1
):En cuanto al modelo ajustado por @AlexWilliams, se ve mucho mejor:
fuente
La tendencia es cuadrática no lineal. Tratar:
Actualización: Aquí está el código.
Y salida:
fuente
Dudo en agregar a las excelentes respuestas dadas por Alex Williams y Gung, pero hay otro punto que debería pensar. La pregunta usa las frases 'regresión lineal' y 'modelo lineal', posiblemente sugiriendo que significan lo mismo. Sin embargo, el significado habitual de 'regresión lineal' se refiere al Modelo de regresión lineal clásico (CLRM) en el que 'lineal' significa 'lineal en los parámetros'. Esta es una condición en los parámetros, no en las variables independientes. Entonces, un modelo cuadrático como:
fuente