Las variables a menudo se ajustan (por ejemplo, estandarizadas) antes de hacer un modelo: ¿cuándo es una buena idea y cuándo es mala?

57

¿En qué circunstancias desearía, o no, escalar o estandarizar una variable antes del ajuste del modelo? ¿Y cuáles son las ventajas / desventajas de escalar una variable?

Andrés
fuente
Pregunta muy similar aquí: stats.stackexchange.com/q/7112/3748 ¿hay algo más que estés buscando?
Michael Bishop
Sí, me gustaría saber para los modelos en general en lugar de solo el modelo lineal
Andrew
1
Hay muchos modelos posibles y posibles usos de modelos. Si puede hacer sus preguntas más específicas y reducir la superposición con otras preguntas, eso es mejor.
Michael Bishop
Además del enlace anterior, esta pregunta: cuándo-debería-centrar-sus-datos-cuándo-debería-estandarizar será de interés.
gung - Restablece a Monica

Respuestas:

37

La estandarización tiene que ver con los pesos de diferentes variables para el modelo. Si hace la estandarización "solo" en aras de la estabilidad numérica, puede haber transformaciones que produzcan propiedades numéricas muy similares pero diferentes significados físicos que podrían ser mucho más apropiados para la interpretación. Lo mismo es cierto para el centrado, que generalmente es parte de la estandarización.

Situaciones en las que probablemente desee estandarizar:

  • las variables son diferentes cantidades físicas
  • y los valores numéricos están en escalas de magnitud muy diferentes
  • y no hay conocimiento "externo" de que las variables con alta variación (numérica) se consideren más importantes.

Situaciones en las que es posible que no desee estandarizar:

  • si las variables son la misma cantidad física y son (aproximadamente) de la misma magnitud, p. ej.
    • concentraciones relativas de diferentes especies químicas
    • absorbancias a diferentes longitudes de onda
    • intensidad de emisión (de lo contrario, las mismas condiciones de medición) a diferentes longitudes de onda
  • definitivamente no desea estandarizar las variables que no cambian entre las muestras (canales de línea de base); simplemente haría explotar el ruido de medición (es posible que desee excluirlas del modelo)
  • Si tiene variables físicamente relacionadas, el ruido de medición puede ser aproximadamente el mismo para todas las variables, pero la intensidad de la señal varía mucho más. Es decir, las variables con valores bajos tienen un ruido relativo más alto. La estandarización haría explotar el ruido. En otras palabras, es posible que deba decidir si desea estandarizar el ruido relativo o absoluto.
  • Puede haber valores físicamente significativos que puede usar para relacionar su valor medido, por ejemplo, en lugar de la intensidad transmitida, use el porcentaje de intensidad transmitida (transmitancia T).

Puede hacer algo "en el medio" y transformar las variables o elegir la unidad para que las nuevas variables sigan teniendo un significado físico pero la variación en el valor numérico no sea tan diferente, p. Ej.

  • si trabaja con ratones, use el peso corporal gy la longitud en cm (rango de variación esperado de aproximadamente 5 para ambos) en lugar de las unidades base kg ym (rango de variación esperado de 0.005 kg y 0.05 m, un orden de magnitud diferente).
  • para la transmitancia T anterior, puede considerar usar la absorbanciaA=log10T

Similar para centrar:

  • Puede haber (física / química / biológicamente / ...) valores de referencia significativos disponibles (por ejemplo, controles, persianas, etc.)
  • ¿Es la media realmente significativa? (El humano promedio tiene un ovario y un testículo)
cbeleites apoya a Monica
fuente
+1 y aceptado por la útil lista de cuándo y cuándo no estandarizar demasiado, gracias
Andrew
66
+1 para "El humano promedio tiene un ovario y un testículo" (y también para el resto de la respuesta ;-).
gung - Restablece a Monica
1
@cbeleites ¿hay alguna posibilidad de que pueda proporcionar un enlace a un recurso que explique los canales de referencia en el contexto que utilizó en su respuesta? No he escuchado el término antes y obtengo resultados de búsqueda que no son útiles para comprender el uso del término aquí. ¡Gracias!
mahonya
1
@sarikan: mira la fig. 1 en este artículo: americanlaboratory.com/913-Technical-Articles/… por razones biológicas y fisicoquímicas, en el rango entre 2000 y 2700 cm no se esperan señales. Esta región se puede usar para estimar la línea de base (a partir de efectos físicos que no son Raman) que luego se resta. Estas variaciones serán aproximadamente cero más un poco de ruido. 1
cbeleites apoya a Monica el
9

Una cosa que siempre me pregunto antes de estandarizar es: "¿Cómo interpretaré la salida?" Si hay una manera de analizar datos sin transformación, esto puede ser preferible puramente desde un punto de vista de interpretación.

jebyrnes
fuente
7

En general, no recomiendo escalar o estandarizar a menos que sea absolutamente necesario. La ventaja o el atractivo de dicho proceso es que, cuando una variable explicativa tiene una dimensión física y una magnitud totalmente diferentes de la variable de respuesta, el escalado a través de la división por desviación estándar puede ayudar en términos de estabilidad numérica, y permite comparar efectos a través de múltiples variables explicativas. Con la estandarización más común, el efecto variable es la cantidad de cambio en la variable de respuesta cuando la variable explicativa aumenta en una desviación estándar; también indica que el significado del efecto variable (la cantidad de cambio en la variable de respuesta cuando la variable explicativa aumenta en una unidad) se perdería aunque el valor estadístico para la variable explicativa permanece sin cambios. Sin embargo, cuando se considera la interacción en un modelo, la escala podría ser muy problemática incluso para las pruebas estadísticas debido a una complicación que implica un ajuste de escala estocástico al calcular el error estándar del efecto de interacción (Preacher, 2003). Por esta razón, generalmente no se recomienda escalar por desviación estándar (o estandarización / normalización), especialmente cuando hay interacciones involucradas.

Preacher, KJ, Curran, PJ y Bauer, DJ, 2006. Herramientas computacionales para probar los efectos de interacción en regresión lineal múltiple, modelado multinivel y análisis de curva latente. Journal of Educational and Behavioral Statistics, 31 (4), 437-448.

Bluepole
fuente
44
Cuestiono su afirmación de que generalmente no se recomienda estandarizar los predictores, especialmente cuando se trata de interacciones ". Ni Gelman y Hill, ni Raudenbush y Bryk mencionan esta preocupación en sus textos. Pero cuando tenga la oportunidad, miraré las referencias que mencionas con interés.
Michael Bishop
Si usamos el universo de calibración estándar como la variable de escala, entonces la escala no es estocástica.
Adam
¿Alguien puede confirmar si la escala es perjudicial en caso de términos de interacción? Eso no parece haberse resuelto en la discusión anterior.
Talik3233