La idea de hacer que los datos tengan una media cero

12

A menudo veo personas que hacen que una dimensión / característica de un conjunto de datos sea de media cero al eliminar la media de todos los elementos. ¿Pero nunca entendí por qué hacerlo? ¿Cuál es el efecto de hacer eso como un paso de preprocesamiento? ¿Mejora el rendimiento de la clasificación? ¿Ayuda a responder algo sobre el conjunto de datos? ¿Ayuda al hacer una visualización comprender los datos?

Jack Twain
fuente
99
Este enfoque se llama centrado . Una de sus aplicaciones es convertir la intersección del modelo de regresión en "predicha y cuando x está en promedio", haciendo que la intersección sea un poco más interpretable.
Penguin_Knight
También se puede decir que una característica / conjunto de datos centrado está bien acondicionado . Vea aquí para una explicación visual. La operación de entrada de normalización hace que el descenso del gradiente sea mucho más fácil.
sintonizado

Respuestas:

12

Algunos casos en los que es útil "centrar los datos en su significado" (en lo sucesivo, "de-significado"):

1) Detección visual de si una distribución es "igual" que otra distribución, solo que se ha desplazado en la línea real. Hacer que ambas distribuciones tengan una media cero hace que esta inspección visual sea mucho más fácil. A veces, si el valor medio difiere mucho, verlos en el mismo gráfico no es práctico. Piense en dos RV normales, digamos un y un . Las formas de los gráficos de densidad son idénticas, solo su posición en la línea real difiere. Ahora imagine que tiene las gráficas de sus funciones de densidad, pero no conoce su varianza. Densificarlos superpondrá un gráfico sobre el otro.N(10,4)N(100,4)

2) Simplifique los cálculos de los momentos más altos: aunque agregar una constante a una variable aleatoria no cambia su varianza o su covarianza con otra variable aleatoria, aún si tiene una media distinta de cero y debe escribir los cálculos detallados, usted tiene que escribir todos los términos y demostrar que se anulan. Si las variables están desmedidas, guarda muchos cálculos inútiles.

3) Las variables aleatorias centradas en su media son el tema del Teorema del límite central

4) Las desviaciones del "valor promedio" son en muchos casos el tema de interés, y si tienden a estar "por encima o por debajo del promedio", en lugar de los valores reales de las variables aleatorias. "Traducir" (visualmente y / o computacionalmente) las desviaciones por debajo de la media como valores negativos y las desviaciones por encima de la media como valores positivos, hace que el mensaje sea más claro y más fuerte.

Para discusiones más profundas, ver también

Cuando realice una regresión múltiple, ¿cuándo debería centrar sus variables predictoras y cuándo debería estandarizarlas?

Centrar datos en regresión múltiple

Si busca "datos centrados" en CV, también encontrará otras publicaciones interesantes.

Alecos Papadopoulos
fuente
@OP: Creo que esta respuesta debería ser aceptada.
Rottweiler
4

Además, por razones prácticas, es ventajoso centrar los datos, por ejemplo, al entrenar redes neuronales.

La idea es que para entrenar una red neuronal se necesita resolver un problema de optimización no convexo utilizando algún enfoque basado en gradiente. Los gradientes se calculan mediante retropropagación. Ahora, estos gradientes dependen de las entradas, y centrar los datos elimina posibles sesgos en los gradientes.

Concretamente, una media distinta de cero se refleja en un valor propio grande, lo que significa que los gradientes tienden a ser más grandes en una dirección que en otras (sesgo), lo que ralentiza el proceso de convergencia y finalmente conduce a soluciones peores.

jpmuc
fuente
1

Para agregar a lo que dijo Alecos, que es muy bueno, centrar sus datos en cero es extremadamente importante cuando se usan estadísticas bayesianas o regularización, ya que de lo contrario los datos se pueden correlacionar con la intercepción, lo que hace que la regularización no haga lo que generalmente desea.

Hacer que la media de los datos sea cero puede disminuir muchos términos fuera de la diagonal de la matriz de covarianza, por lo que hace que los datos sean más fácilmente interpretables y los coeficientes sean más directamente significativos, ya que cada coeficiente se aplica más principalmente a ese factor y actúa menos a través de la correlación con otros factores.

Joe
fuente