Quiero hacer retroceder la economía de combustible en el desplazamiento del motor, el tipo de combustible, la tracción en 2 contra 4 ruedas, la potencia, la transmisión manual en comparación con la automática, y la cantidad de velocidades. Mi conjunto de datos ( enlace ) contiene vehículos de 2012-2014.
fuelEconomy
en millas por galónengineDisplacement
: tamaño del motor en litrosfuelStd
: 1 para gas 0 para dieselwheelDriveStd
: 1 para 2 ruedas motrices, 0 para 4 ruedas motriceshp
: caballos de fuerzatransStd
: 1 para automático, 0 para manualtransSpeed
: Número de velocidades
Código R:
reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp +
transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd +
hp + transStd + transSpeed, data = a)
Residuals:
Min 1Q Median 3Q Max
-10.2765 -2.3142 -0.0655 2.0944 15.8637
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.147115 0.542910 88.683 < 2e-16 ***
engineDisplacement -3.673549 0.091272 -40.248 < 2e-16 ***
fuelStd -6.613112 0.403989 -16.370 < 2e-16 ***
wheelDriveStd 2.778134 0.137775 20.164 < 2e-16 ***
hp -0.005884 0.001008 -5.840 5.86e-09 ***
transStd -0.351853 0.157570 -2.233 0.0256 *
transSpeed -0.080365 0.052538 -1.530 0.1262
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.282 on 2648 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.7802, Adjusted R-squared: 0.7797
F-statistic: 1566 on 6 and 2648 DF, p-value: < 2.2e-16
- ¿Los resultados son realistas o estoy haciendo algo mal aquí ya que la mayoría de las variables son altamente significativas estadísticamente?
- ¿Es mejor usar otros modelos para este propósito?
- ¿Es ese resultado utilizable para la interpretación?
Sé muy poco acerca de la mecánica y la física involucradas, pero lo primero que consideraría es el diagnóstico de regresión, en particular, los gráficos de los residuos frente a los valores ajustados, para los cuales nos gustaría que no haya un patrón general.
Ha ajustado un modelo lineal para que cada covariable tenga una asociación lineal con
fuelEconomy
. ¿Está respaldado por la teoría mecánica y física subyacente? ¿Podría haber alguna asociación no lineal? Si es así, podría considerar modelos con términos no lineales, transformando ciertas variables, o podría considerar usar un modelo aditivo. Incluso si las asociaciones son plausiblemente lineales dentro de su conjunto de datos real, tenga mucho cuidado de extrapolar los resultados más allá de sus límites de datos.fuente
Una matriz de diagrama de dispersión con curvas de loess y valores de correlación (valores absolutos) puede ser un buen punto de partida:
Podemos notar aquí la posible relación cuadrática de
fuelEconomy
graficado contra amboslineDisplacement
yhp
, que también se refleja en una apariencia de Nike de la trama residual . Sería interesante investigar la presencia de una interacción entre estos términos.Esta falta de linealidad también es evidente si ejecutamos una regresión lineal de
fuelEconomy
contralinearDisplacement
(se pueden obtener resultados similares conhp
). Observe la línea roja ...Este efecto se puede rectificar parcialmente haciendo que el modelo sea más complejo e introduciendo un modelo cuadrático:
El nuevo modelo tiene un valor R cuadrado ajustado más alto (0.8205 ) que el primero (0,7798 )
La naturaleza dicotómica de
fuelStd
ywheeldriveStd
simplemente mueve la media de los valores pronosticados hacia abajo, y en efecto son variables o factores codificados. Esto también es evidente en el diagrama de dispersión inicial, pero se puede visualizar con gráficos de caja:Un último punto en el diagnóstico es la presencia de puntos de alto apalancamiento , que vale la pena considerar:
¿Qué concluir? Nada categórico Quizás solo para enfatizar la importancia de trazar en la comprensión del conjunto de datos y cualquier modelo que se le imponga.
fuente
La respuesta a su primera pregunta depende de su marco teórico, cómo declara las hipótesis sobre la relación entre variables dependientes e independientes y cómo interpreta los resultados. Por sí solo, obtener una relación estadísticamente significativa para la mayoría de las variables podría no decir nada acerca de cuán realistas son sus resultados.
Entonces, si estos resultados le parecen sospechosos (en base a su conocimiento previo), puede ejecutar algunas pruebas de diagnóstico para la regresión. Puede haber una violación de los supuestos del modelo y otros problemas (por ejemplo, valores atípicos). De hecho, siempre es útil ejecutar estas pruebas para evaluar su modelo de regresión. Como está utilizando
R
, puede verificar elcar
paquete que proporciona varias funciones para las pruebas de diagnóstico. Aquí puede encontrar las diapositivas del curso sobre diagnóstico de regresión por uno de los autores (y el creador) delcar
paquete, John Fox. También puede consultar su libro sobre el tema (1991). Kabacoff (2011) también discutió los diagnósticos de regresión y cómo usar lasR
funciones (incluidas las decar
paquete) e interpretar resultados (p.188-200). Creo que después de estas pruebas de diagnóstico, es mejor evaluar los resultados y su utilidad.Fox, J. (1991). Diagnóstico de regresión . Newbury Park, Londres, Nueva Delhi: Sage Publications.
Kabacoff, RI (2011). R en acción: Análisis de datos y gráficos con R . Shelter Island: Manning.
También:
Fox, J. y Weisberg, S. (2011). Diagnóstico de problemas en modelos lineales y lineales generalizados. En An R Companion to Applied Regression (2nd ed., Págs. 285–328). Los Ángeles: Publicaciones sabias.
fuente