Tengo 2 preguntas simples sobre regresión lineal:
- ¿Cuándo se aconseja estandarizar las variables explicativas?
- Una vez que la estimación se lleva a cabo con valores estandarizados, ¿cómo se puede predecir con nuevos valores (cómo se debe estandarizar los nuevos valores)?
Algunas referencias serían útiles.
Respuestas:
Aunque la terminología es un tema polémico, prefiero llamar a las variables "explicativas", variables "predictoras".
Cuándo estandarizar los predictores:
También creo que confiar en variables estandarizadas puede desviar la atención del hecho de que no hemos pensado en cómo hacer que la métrica de una variable sea más significativa para el lector.
Andrew Gelman tiene bastante que decir sobre el tema. Vea su página sobre estandarización, por ejemplo, y Gelman (2008, Stats Med, PDF GRATIS) en particular.
Predicción basada en la estandarización:
fuente
Permítanme responder con una respuesta breve que podría superponerse con la excelente respuesta escrita anteriormente.
Estandarizar siempre, que le permite interpretar mejor la regresión, especialmente los coeficientes de la regresión.
Para los nuevos datos que no están estandarizados, le recomiendo que almacene los valores que usó para cada variable que se estandarizará, como el máximo y el mínimo, y luego haga la misma transformación que hizo en el conjunto de datos del agujero antes, pero solo para esto única instancia.
fuente