¿Es realista que todas las variables sean altamente significativas en un modelo de regresión múltiple?

8

Quiero hacer retroceder la economía de combustible en el desplazamiento del motor, el tipo de combustible, la tracción en 2 contra 4 ruedas, la potencia, la transmisión manual en comparación con la automática, y la cantidad de velocidades. Mi conjunto de datos ( enlace ) contiene vehículos de 2012-2014.

fuelEconomy en millas por galón
engineDisplacement: tamaño del motor en litros
fuelStd: 1 para gas 0 para diesel
wheelDriveStd: 1 para 2 ruedas motrices, 0 para 4 ruedas motrices
hp: caballos de fuerza
transStd: 1 para automático, 0 para manual
transSpeed: Número de velocidades

Código R:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16

¿Los resultados son realistas o estoy haciendo algo mal aquí ya que la mayoría de las variables son altamente significativas estadísticamente?
¿Es mejor usar otros modelos para este propósito?
¿Es ese resultado utilizable para la interpretación?

r statistical-significance multiple-regression interpretation Bert
fuente

5

@AntoniParelleada ha hecho un buen trabajo demostrando algunas de las técnicas de diagnóstico del modelo estándar que puede utilizar para evaluar su modelo. Entiendo que su principal preocupación es que "la mayoría de las variables son altamente significativas estadísticamente".

No veo que deba preocuparse por eso, per se. De su salida veo que el modelo tiene un F-statistic: 1566 on 6 and 2648 DF. Eso significa que está ajustando parámetros para variables y tiene datos. Esto le da una enorme cantidad de poder estadístico . Bajo el supuesto de que existe alguna relación entre sus variables y la respuesta, que no es completamente trivial, debería obtener un resultado significativo. Estoy más sorprendido de que algo (a saber ) no sea significativo. $6$ $6$ $2655$ transSpeed

Quizás su pregunta esté motivada por la creencia de que, desde una perspectiva teórica, alguna variable no debería estar relacionada fuelEconomyy, por lo tanto, le sorprende que sea significativa. (Si eso fuera cierto, sin embargo, habría sido inusual haberlo incluido en el modelo). Pero un resultado significativo no necesariamente significa que una covariable tenga un efecto en la respuesta, por lo que no es necesario que sea del tipo I de error . Debido a que sus datos son casi seguramente observacionales, solo está detectando asociaciones marginales. Es decir, los automóviles que tienen tracción delantera, por ejemplo, también pueden diferir típicamente de los automóviles con tracción trasera en formas distintas a las ruedas que transmiten potencia y otras variables incluidas en el modelo. Por lo tanto, el coeficiente para wheelDriveStdmediría la asociación entre ély todas las variables no incluidas correlacionadas con él y fuelEconomy. Por lo tanto, puede ser razonable que sea significativo, incluso si supiéramos por la física / ingeniería que las ruedas transmiten potencia no están relacionadas con la eficiencia del combustible.

gung - Restablece a Monica
fuente

Tengo más conocimiento de aprendizaje automático que estadísticas. ¿Podemos decir que si tenemos datos grandes, digamos millones de filas y mil columnas, ya a nadie le importa la característica "importancia"?

Haitao Du

3

No necesariamente lo caracterizaría de esa manera, @ hxd1011. Si realmente no hay asociación, la tasa de error de tipo I seguirá siendo 0.05, por lo que a alguien aún le importaría, pero tendrá suficiente poder para detectar incluso efectos muy triviales. Como analogía, podría ser útil leer ¿Las pruebas de normalidad son 'esencialmente inútiles'?

gung - Restablece a Monica

Realmente informativo. Me pregunto si hay alguna frase que pueda agregar para darnos alguna referencia / perspectiva para que podamos obtener una comprensión intuitiva de su afirmación sobre la enorme cantidad de poder estadístico basado en la estadística F.

Antoni Parellada

2

Es solo que es una gran cantidad de datos, @AntoniParellada.

N = 2, 655

$N = 2,655$

gung - Restablece a Monica

¡Gracias! Con las estadísticas siempre asumo que tiene que haber más "oculto" ... :-)

Antoni Parellada

4

Sé muy poco acerca de la mecánica y la física involucradas, pero lo primero que consideraría es el diagnóstico de regresión, en particular, los gráficos de los residuos frente a los valores ajustados, para los cuales nos gustaría que no haya un patrón general.

Ha ajustado un modelo lineal para que cada covariable tenga una asociación lineal con fuelEconomy. ¿Está respaldado por la teoría mecánica y física subyacente? ¿Podría haber alguna asociación no lineal? Si es así, podría considerar modelos con términos no lineales, transformando ciertas variables, o podría considerar usar un modelo aditivo. Incluso si las asociaciones son plausiblemente lineales dentro de su conjunto de datos real, tenga mucho cuidado de extrapolar los resultados más allá de sus límites de datos.

Robert Long
fuente

4

Una matriz de diagrama de dispersión con curvas de loess y valores de correlación (valores absolutos) puede ser un buen punto de partida:

Podemos notar aquí la posible relación cuadrática de fuelEconomygraficado contra ambos lineDisplacementy hp, que también se refleja en una apariencia de Nike de la trama residual . Sería interesante investigar la presencia de una interacción entre estos términos.

Esta falta de linealidad también es evidente si ejecutamos una regresión lineal de fuelEconomycontra linearDisplacement(se pueden obtener resultados similares con hp). Observe la línea roja ...

Este efecto se puede rectificar parcialmente haciendo que el modelo sea más complejo e introduciendo un modelo cuadrático:

El nuevo modelo tiene un valor R cuadrado ajustado más alto ( $0.8205$ ) que el primero ( $0.7798$ )

La naturaleza dicotómica de fuelStdy wheeldriveStdsimplemente mueve la media de los valores pronosticados hacia abajo, y en efecto son variables o factores codificados. Esto también es evidente en el diagrama de dispersión inicial, pero se puede visualizar con gráficos de caja:

Un último punto en el diagnóstico es la presencia de puntos de alto apalancamiento , que vale la pena considerar:

¿Qué concluir? Nada categórico Quizás solo para enfatizar la importancia de trazar en la comprensión del conjunto de datos y cualquier modelo que se le imponga.

Antoni Parellada
fuente

1

La respuesta a su primera pregunta depende de su marco teórico, cómo declara las hipótesis sobre la relación entre variables dependientes e independientes y cómo interpreta los resultados. Por sí solo, obtener una relación estadísticamente significativa para la mayoría de las variables podría no decir nada acerca de cuán realistas son sus resultados.

Entonces, si estos resultados le parecen sospechosos (en base a su conocimiento previo), puede ejecutar algunas pruebas de diagnóstico para la regresión. Puede haber una violación de los supuestos del modelo y otros problemas (por ejemplo, valores atípicos). De hecho, siempre es útil ejecutar estas pruebas para evaluar su modelo de regresión. Como está utilizando R, puede verificar el carpaquete que proporciona varias funciones para las pruebas de diagnóstico. Aquí puede encontrar las diapositivas del curso sobre diagnóstico de regresión por uno de los autores (y el creador) del carpaquete, John Fox. También puede consultar su libro sobre el tema (1991). Kabacoff (2011) también discutió los diagnósticos de regresión y cómo usar las Rfunciones (incluidas las decarpaquete) e interpretar resultados (p.188-200). Creo que después de estas pruebas de diagnóstico, es mejor evaluar los resultados y su utilidad.

Fox, J. (1991). Diagnóstico de regresión . Newbury Park, Londres, Nueva Delhi: Sage Publications.

Kabacoff, RI (2011). R en acción: Análisis de datos y gráficos con R . Shelter Island: Manning.

También:

Fox, J. y Weisberg, S. (2011). Diagnóstico de problemas en modelos lineales y lineales generalizados. En An R Companion to Applied Regression (2nd ed., Págs. 285–328). Los Ángeles: Publicaciones sabias.

TEG
fuente

¿Es realista que todas las variables sean altamente significativas en un modelo de regresión múltiple?

Respuestas: