Media cero y varianza unitaria

10

Estoy estudiando el escalado de datos, y en particular el método de estandarización. He entendido las matemáticas detrás de esto, pero no me queda claro por qué es importante darles a las características media cero y varianza unitaria.

Me puedes explicar ?

Qwerto
fuente
Echa un vistazo aquí .
Medios de comunicación
Esto sería genial: medium.com/greyatom/…
Lerner Zhang

Respuestas:

8

Las preguntas sobre si es importante y por qué depende del contexto.

  • Para los árboles de decisión potenciados por gradiente, por ejemplo, no es importante: a estos algoritmos de ML "no les importa" las transformaciones monótonas en los datos; solo buscan puntos para dividirlo.

  • Para predictores lineales, por ejemplo, el escalado puede mejorar la interpretabilidad de los resultados. Si desea pensar en la magnitud de los coeficientes como una indicación de cuánto afecta una característica al resultado, entonces las características deben escalarse de alguna manera a la misma área.

  • Para algunos predictores, en particular NNs, la escala y, en particular, la escala a un rango particular, pueden ser importantes por razones técnicas. Algunas de las capas usan funciones que efectivamente cambian solo dentro de un área (similar a la familia de funciones hiperbólicas ), y si las características están demasiado fuera del rango, puede ocurrir saturación. Si esto sucede, las derivadas numéricas funcionarán mal y es posible que el algoritmo no pueda converger a un buen punto.

ingrese la descripción de la imagen aquí

Ami Tavory
fuente
2

En el caso de la media cero, eso se debe a que algunos modelos de aprendizaje automático no incluyen el término de sesgo en su representación, por lo que tenemos que mover los datos alrededor del origen antes de alimentarlos al algoritmo para compensar la falta de término de sesgo. En el caso de la variación de la unidad, esto se debe a que muchos algoritmos de aprendizaje automático utilizan algún tipo de distancia (por ejemplo, Euclidiana) para decidir o predecir. Si una característica particular tiene valores amplios (es decir, gran varianza), la distancia se verá muy afectada por esa característica y se ignorará el efecto de otras características. Por cierto, algunos algoritmos de optimización (incluido el descenso de gradiente) tienen un mejor rendimiento cuando los datos están estandarizados.

Pythinker
fuente
2
  • Siempre que comenzamos con cualquier conjunto de datos en el aprendizaje automático, a menudo asumimos que todas las características de los datos son igualmente importantes con respecto a la salida y una característica no debe dominar sobre otra característica. Esa es GENERALMENTE la razón por la que elegimos llevar todas las características a la misma escala.
    Sin embargo, aquí puede surgir una duda de que, incluso si las características no están normalizadas, los pesos asignados al aprendizaje pueden ayudar a que el conjunto de datos converja con la salida esperada durante el entrenamiento. El problema con esto es que tomará mucho tiempo entrenar y producir resultados.
  • Elegir el número específico 0 como media y varianza 1 es solo la facilidad de visualizar y mantener números tan pequeños ayudaría en un entrenamiento más rápido.

Por lo tanto, se sugiere llevar todas las características a la misma escala lo suficientemente pequeña como para entrenar fácilmente. El siguiente enlace también analiza un concepto similar. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

Divyanshu Shekhar
fuente