¿Es una idea errónea utilizar coeficientes estandarizados para evaluar la importancia relativa de los predictores de regresión?

9

Hay varias preguntas que hablan de los méritos relativos de varios métodos para evaluar la importancia de los predictores de regresión, por ejemplo, este .

Noté que en este comentario @gung se refiere a la práctica como una "idea equivocada", vinculando a esta respuesta en apoyo de esta afirmación. El párrafo final de la respuesta es la parte relevante.

Siento que este tema merece su propia pregunta, y también estoy un poco inseguro sobre algunos aspectos del razonamiento. El segmento más importante del párrafo en cuestión va

a menos que la verdadera r sea exactamente 0, la r estimada es impulsada en gran parte por el rango de valores covariables que se utilizan.

¿Es esto equivalente a decir que no deberíamos usar coeficientes estandarizados para evaluar la importancia porque podríamos haber muestreado aleatoriamente un rango restringido de valores y un rango más amplio de valores ? Entonces, cuando estandarizamos este problema no ha desaparecido, y terminamos pensando espuriosamente que es un predictor más débil que .X1X2X1X2

¿Por qué desaparece el problema si la verdadera es exactamente 0?r

¿Cómo otros métodos (por ejemplo, mirar los coeficientes semipaciales) eliminan este problema?

user1205901 - Restablecer Monica
fuente
2
Le dejaré a @gung que explique lo que quiso decir. Existe mucha literatura sobre la importancia relativa de las variables en la regresión y las betas estandarizadas son definitivamente la respuesta convencional de los estadísticos. Entre las debilidades de este enfoque están los problemas relacionados con el error estándar o la variabilidad en las estimaciones para beta. Ulrike Gromping aborda estos temas, así como una revisión exhaustiva de la literatura y posibles enfoques, en sus documentos sobre este tema. Además, ha desarrollado un módulo R, RELAIMPO ... prof.beuth-hochschule.de/groemping/relaimpo
Mike Hunter
Solo una nota para que el OP tenga cuidado si está en los EE. UU. Para descargar el paquete desde el sitio web de CRAN no UG, consulte la restricción en la página que recomienda
@DJohnson

Respuestas:

4

En mi opinión, la respuesta de Gungs es una crítica de la idea de comparar la fuerza relativa de diferentes variables en un análisis empírico sin tener un modelo en mente cómo interactúan esas variables o cómo se ve la distribución conjunta (verdadera) de todas las variables relevantes. Piense en el ejemplo de la importancia de las menciones de altura y peso de los atletas. Nadie puede probar que, por ejemplo, una regresión lineal aditiva es una buena aproximación de la función de expectativa condicional o, en otras palabras, la altura y el peso pueden ser importantes de una manera muy complicada para el rendimiento del atleta. Puede ejecutar una regresión lineal que incluya ambas variables y comparar los coeficientes estandarizados, pero no sabe si los resultados realmente tienen sentido.

Para dar un ejemplo de Mickey Mouse, mirando al escalador deportivo (mi deporte favorito), aquí hay una lista de los mejores escaladores masculinos de acuerdo con algunas medidas de rendimiento tomadas del sitio 8a.nu con información sobre su altura, peso y año de nacimiento (solo aquellos con información disponible). Estandarizamos todas las variables de antemano para poder comparar directamente la asociación entre un cambio de desviación estándar en los predictores en un cambio de desviación estándar en la distribución del rendimiento. Excluyendo para la ilustración al número uno, Adam Ondra, quien es inusualmente alto, obtenemos el siguiente resultado. :

    rm(list=ls(all=TRUE))
    # Show only two decimal places
    options(digits=2)
    # Read Data and attach
    climber<-read.table("https://drive.google.com/uc?export=&confirm=no_antivirus&id=0B70aDwYo0zuGNGJCRHNrY0ptSW8",sep="\t",header=T)
    head(climber)
    # Drop best climber Adam Ondra who is very tall (kind of outlier)
    climber<-subset(climber,name!="Adam Ondra")
    # Standardize Predictors
    climber$performance_std<-(climber$performance-mean(climber$performance))/sd(climber$performance)
    climber$height_std<-(climber$height-mean(climber$height))/sd(climber$height)
    climber$weight_std<-(climber$weight-mean(climber$weight))/sd(climber$weight)
    climber$born_std<-(climber$born-mean(climber$born))/sd(climber$born)
    # Simple Regression, excluding intercept because of the standardization
    lm(performance_std~height_std+weight_std-1,data=climber)$coef
height_std weight_std 
 -0.16      -0.25 

Ignorando los errores estándar, etc., parece que el peso es más importante que la altura o igualmente importante. Pero se podría argumentar que los escaladores han mejorado con el tiempo. ¿Quizás deberíamos controlar los efectos de la cohorte, por ejemplo, oportunidades de capacitación a través de mejores instalaciones en interiores? ¡Incluyamos el año de nacimiento!

    # Add year of birth
    lm(performance_std~height_std+weight_std+born_std-1,data=climber)$coef
height_std weight_std   born_std 
-0.293     -0.076      0.256

Ahora, descubrimos que ser joven y pequeño es más importante que ser delgado. ¿Pero ahora otra persona podría argumentar que esto es válido solo para los mejores escaladores? Podría tener sentido comparar los coeficientes estandarizados en toda la distribución del rendimiento (por ejemplo, a través de la regresión cuantil). Y, por supuesto, puede ser diferente para las escaladoras que son mucho más pequeñas y delgadas. Nadie lo sabe.

Este es un ejemplo de Mickey Mouse de lo que creo que se refiere al gung. No soy tan escéptico, creo que puede tener sentido mirar los coeficientes estandarizados, si crees que has especificado el modelo correcto o que la separabilidad aditiva tiene sentido. Pero esto depende tan frecuentemente de la pregunta en cuestión.

En cuanto a las otras preguntas:

¿Es esto equivalente a decir que no deberíamos usar coeficientes estandarizados para evaluar la importancia porque podríamos haber muestreado aleatoriamente un rango restringido de valores X1 y un rango más amplio de valores X2? Entonces, cuando estandarizamos este problema no ha desaparecido, y terminamos pensando espuriosamente que X1 es un predictor más débil que X2.

Sí, creo que se podría decir así. El "rango más amplio de valores de X2" podría surgir a través del sesgo de variable omitido al incluir variables importantes correlacionadas con X1 pero omitiendo aquellas que están correlacionadas con X2.

¿Por qué desaparece el problema si la verdadera r es exactamente 0?

El sesgo variable omitido es nuevamente un buen ejemplo de por qué esto se cumple. Las variables omitidas solo causan problemas (o sesgos) si están correlacionadas con los predictores, así como con el resultado, consulte la fórmula en la entrada de Wikipedia. Si la verdadera es exactamente 0, la variable no está correlacionada con el resultado y no hay problema (incluso si está correlacionada con los predictores).r

¿Cómo otros métodos (por ejemplo, mirar los coeficientes semipaciales) eliminan este problema?

Otros modelos tienen, como los coeficientes semipaciales, enfrentan el mismo problema. Si su conjunto de datos es lo suficientemente grande, puede hacer, por ejemplo, una regresión no paramétrica e intentar estimar la distribución conjunta completa sin suposiciones sobre la forma funcional (por ejemplo, la separabilidad aditiva) para justificar lo que está haciendo, pero esto nunca es una prueba.

En resumen, creo que puede tener sentido comparar coeficientes estandarizados o semipaciales, pero depende y usted tiene que razonarse a sí mismo oa los demás por qué cree que tiene sentido.

Arne Jonas Warnke
fuente