Cuándo y cómo usar variables explicativas estandarizadas en regresión lineal

37

Tengo 2 preguntas simples sobre regresión lineal:

  1. ¿Cuándo se aconseja estandarizar las variables explicativas?
  2. Una vez que la estimación se lleva a cabo con valores estandarizados, ¿cómo se puede predecir con nuevos valores (cómo se debe estandarizar los nuevos valores)?

Algunas referencias serían útiles.

teucer
fuente
3
Si su software está bien escrito, se estandariza automáticamente internamente para evitar problemas de precisión numérica. No deberías tener que hacer nada especial.
whuber
1
Tenga en cuenta que el siguiente hilo está relacionado y será de interés: ¿ Cuándo debe centrar sus datos y cuándo debe estandarizar? .
gung - Restablece a Monica

Respuestas:

26

Aunque la terminología es un tema polémico, prefiero llamar a las variables "explicativas", variables "predictoras".

Cuándo estandarizar los predictores:

  • Una gran cantidad de software para realizar regresión lineal múltiple proporcionará coeficientes estandarizados que son equivalentes a coeficientes no estandarizados en los que se estandarizan manualmente los predictores y la variable de respuesta (por supuesto, parece que solo se trata de predictores estandarizadores).
  • Mi opinión es que la estandarización es una herramienta útil para hacer que las ecuaciones de regresión sean más significativas. Esto es particularmente cierto en los casos en que la métrica de la variable carece de significado para la persona que interpreta la ecuación de regresión (por ejemplo, una escala psicológica en una métrica arbitraria). También se puede usar para facilitar la comparabilidad de la importancia relativa de las variables predictoras (aunque existen otros enfoques más sofisticados para evaluar la importancia relativa; vea mi publicación para una discusión ). En los casos en que la métrica tiene significado para la persona que interpreta la ecuación de regresión, los coeficientes no estandarizados suelen ser más informativos.
  • También creo que confiar en variables estandarizadas puede desviar la atención del hecho de que no hemos pensado en cómo hacer que la métrica de una variable sea más significativa para el lector.

  • Andrew Gelman tiene bastante que decir sobre el tema. Vea su página sobre estandarización, por ejemplo, y Gelman (2008, Stats Med, PDF GRATIS) en particular.

Predicción basada en la estandarización:

  • No usaría coeficientes de regresión estandarizados para la predicción.
  • Siempre puede convertir coeficientes estandarizados en coeficientes no estandarizados si conoce la media y la desviación estándar de la variable predictora en la muestra original.
Jeromy Anglim
fuente
3
+1, pero ¿por qué no usaría coeficientes de regresión no estandarizados para la predicción?
parada
1
(+1) Acerca de evaluar la importancia variable, creo que el paquete relaimpo R hace un buen trabajo (pero vea Comenzando con un enfoque moderno de la regresión ). También hubo un buen artículo de David V. Budescu sobre el análisis de dominancia (disponible gratuitamente a pedido).
chl
@onestep oops. error de tipografía. Ha cambiado ahora.
Jeromy Anglim
1
@ Jeromy, ¿podría explicar por qué no usaría coeficientes de regresión estandarizados para la predicción?
Michael Bishop
3
@MichaelBishop Estoy pensando en contextos donde tomas tu modelo de regresión y lo aplicas para predecir datos fuera de la muestra. En general, desearía predicciones no estandarizadas. Además, las medias y las desviaciones estándar pueden cambiar entre las muestras; el uso de predictores no estandarizados debería dar resultados más significativos.
Jeromy Anglim
-4

Permítanme responder con una respuesta breve que podría superponerse con la excelente respuesta escrita anteriormente.

  1. Estandarizar siempre, que le permite interpretar mejor la regresión, especialmente los coeficientes de la regresión.

  2. Para los nuevos datos que no están estandarizados, le recomiendo que almacene los valores que usó para cada variable que se estandarizará, como el máximo y el mínimo, y luego haga la misma transformación que hizo en el conjunto de datos del agujero antes, pero solo para esto única instancia.

mariana más suave
fuente