¿Cuál es la diferencia entre normalización y estandarización?

118

En el trabajo estábamos discutiendo esto ya que mi jefe nunca había oído hablar de normalización. En álgebra lineal, la normalización parece referirse a la división de un vector por su longitud. Y en estadística, la estandarización parece referirse a la resta de una media que luego se divide por su DE. Pero también parecen intercambiables con otras posibilidades.

Al crear algún tipo de puntaje universal, que conforma métricas diferentes, que tienen diferentes medios y diferentes SD, ¿Normalizaría, Estandarizaría u otra cosa? Una persona me dijo que es solo una cuestión de tomar cada métrica y dividirla por su SD, individualmente. Luego sumando los dos. Y eso dará como resultado un puntaje universal que puede usarse para juzgar ambas métricas.2

Por ejemplo, supongamos que tiene la cantidad de personas que toman el metro para ir a trabajar (en Nueva York) y la cantidad de personas que conducen al trabajo (en Nueva York).

Auto y

Trainx
Cary

mean(x)mean(y)

mean(x)=8,000,000

mean(y)=800,000

xyxy

Cualquier artículo o capítulos de libros de referencia sería muy apreciado. ¡GRACIAS!

También aquí hay otro ejemplo de lo que estoy tratando de hacer.

Imagina que eres un decano universitario y estás discutiendo los requisitos de admisión. Es posible que desee estudiantes con al menos un cierto GPA y un cierto puntaje en la prueba. Sería bueno si ambos estuvieran en la misma escala porque entonces podría sumar los dos juntos y decir: "cualquier persona con al menos un 7.0 puede ser admitido". De esa manera, si un posible estudiante tiene un promedio de calificaciones de 4.0, podría obtener un puntaje tan bajo como 3.0 y aún así ser admitido. Inversamente, si alguien tuviera un promedio de calificaciones de 3.0, aún podrían ser admitidos con una calificación de 4.0.

Pero no es así. El ACT está en una escala de 36 puntos y la mayoría de los GPA están en 4.0 (algunos son 4.3, sí molesto). Como no puedo agregar un ACT y un GPA para obtener algún tipo de puntaje universal, ¿cómo puedo transformarlos para que se puedan agregar, creando así un puntaje de admisión universal? Y luego, como decano, podría aceptar automáticamente a cualquiera con un puntaje por encima de cierto umbral. O incluso aceptar automáticamente a todos los que tengan una puntuación dentro del 95% superior ... ese tipo de cosas.

¿Sería eso normalización? ¿Estandarización? o simplemente dividiendo cada uno por su SD y luego sumando?

Chris
fuente
44
La última parte de la pregunta parece que está intentando crear una valoración a partir de múltiples atributos. Para obtener más información al respecto, consulte la pregunta y las respuestas en stats.stackexchange.com/q/9137 y stats.stackexchange.com/q/9358 . En particular, tenga en cuenta que ni la normalización ni la estandarización tienen relevancia directa para el problema del decano.
whuber

Respuestas:

65

La normalización reescala los valores en un rango de [0,1]. Esto puede ser útil en algunos casos donde todos los parámetros deben tener la misma escala positiva. Sin embargo, los valores atípicos del conjunto de datos se pierden.

Xchanged=XXminXmaxXmin

μσ

Xchanged=Xμσ

Para la mayoría de las aplicaciones se recomienda la estandarización.

Vivek Kumar
fuente
77
¿Podría explicar por qué "se pierden los valores atípicos del conjunto de datos" tras la normalización de los datos?
alumno
3
Los valores atípicos en este caso de reescalado afectarían el resultado y no se perderían.
Feras
@learner Imagine si tiene [1 2 3 4 5 1000 2 4 5 2000 ...]. El valor normalizado de 1000 puntos de datos sería menor porque tenemos 2000
COLD ICE
3
@COLDICE Creo que depende del algoritmo de normalización que use. Por ejemplo, si divide cada número en su conjunto de datos por el valor máximo (por ejemplo, 2000), variarían entre 0 y 1, y no afectaría los valores atípicos.
Alisson
3
Creo que esto no afecta a los valores atípicos, de lo contrario, esto no se haría en el software de detección de anomalías.
Alisson
44

En el mundo de los negocios, "normalización" generalmente significa que el rango de valores está "normalizado para ser de 0.0 a 1.0". "Estandarización" generalmente significa que el rango de valores está "estandarizado" para medir cuántas desviaciones estándar es el valor de su media. Sin embargo, no todos estarían de acuerdo con eso. Es mejor explicar sus definiciones antes de usarlas.

En cualquier caso, su transformación debe proporcionar algo útil.

En su ejemplo de tren / automóvil, ¿gana algo al saber cuántas desviaciones estándar de su media, cada valor reside? Si traza esas medidas "estandarizadas" entre sí como una gráfica xy, es posible que vea una correlación (vea la primera gráfica a la derecha):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Si es así, ¿eso significa algo para ti?

En cuanto a su segundo ejemplo, si quiere "equiparar" un GPA de una escala a otra, ¿qué tienen en común estas escalas? En otras palabras, ¿cómo podría transformar esos mínimos para que sean equivalentes y los máximos para que sean equivalentes?

Aquí hay un ejemplo de "normalización":

Enlace de normalización

Una vez que obtenga sus puntajes de GPA y ACT en una forma intercambiable, ¿tiene sentido sopesar los puntajes de ACT y GPA de manera diferente? Si es así, ¿qué peso significa algo para usted?

Edición 1 (03/05/2011) ========================================= =

Primero, verificaría los enlaces sugeridos por whuber arriba. La conclusión es que, en sus dos problemas de dos variables, tendrá que llegar a una "equivalencia" de una variable frente a la otra. Y, una forma de diferenciar una variable de la otra. En otras palabras, incluso si puede simplificar esto a una relación lineal simple, necesitará "pesos" para diferenciar una variable de la otra.

Aquí hay un ejemplo de un problema de dos variables:

Utilidades de atributos múltiples

Desde la última página, si puede decir que el tráfico de trenes estandarizado U1(x)versus el tráfico de automóviles estandarizado U2(y)es "aditivamente independiente", entonces podría salirse con una ecuación simple como:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Donde k1 = 0.5 significa que eres indiferente al tráfico estandarizado de automóviles / trenes. Un k1 más alto significaría que el tráfico de trenes U1(x)es más importante.

Sin embargo, si estas dos variables no son "aditivamente independientes", entonces tendrá que usar una ecuación más complicada. Una posibilidad se muestra en la página 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

En cualquier caso, tendrá que encontrar una utilidad U(x, y)que tenga sentido.

Los mismos conceptos generales de ponderación / comparación son válidos para su problema GPA / ACT. Incluso si están "normalizados" en lugar de "estandarizados".

Un último tema. Sé que no le va a gustar esto, pero la definición del término "aditivamente independiente" se encuentra en la página 4 del siguiente enlace. Busqué una definición menos geek, pero no pude encontrar una. Puedes mirar alrededor para encontrar algo mejor.

Aditivamente independiente

Citando el enlace:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Como se sugiere en la parte superior de esta respuesta, si traza el tráfico de trenes estandarizado versus el tráfico de automóviles estandarizado en un diagrama xy, es posible que vea una correlación. Si es así, entonces estás atrapado con la ecuación de utilidad no lineal anterior o algo similar.

bill_080
fuente
Okay. Tienes razón. Es mejor explicar mis definiciones. Y al pensarlo nuevamente, no son las definiciones lo que necesito. Lo que necesito es el método apropiado para crear 1 puntaje universal. Ya sea un puntaje de admisión o un puntaje de tráfico. ¿Cómo se puede crear una métrica universal que sea función de otras variables, que se transformaron para ponerlas a ambas en una escala similar? Y no te preocupes por los pesos. Entiendo que incluso la suma directa es ponderar las métricas 1/1. Pero eso no me preocupa en este momento.
Chris
@ Chris, agregué mi respuesta como una edición anterior.
bill_080
2
(+1) Buena edición. @ Chris: es posible que le interesen las notas de un breve conjunto de diapositivas de PowerPoint aquí : esta es una presentación sobre el tema que di a personas no técnicas. Lo menciono porque tiene algunas ilustraciones y orientación sobre cómo "crear una métrica universal".
whuber
El enlace de Utilidades de atributos múltiples está
inactivo
6

La respuesta es simple, pero no te va a gustar: depende. Si valoras 1 desviación estándar de ambos puntajes por igual, entonces la estandarización es el camino a seguir (nota: de hecho, estás estudiando , porque estás dividiendo entre una estimación del DE de la población).

De lo contrario, es probable que la estandarización sea un buen primer paso, después del cual puede darle más peso a uno de los puntajes al multiplicarlo por un factor bien elegido.

Nick Sabbe
fuente
Entonces, ¿está diciendo que al menos comience con lo que describí como Estandarización (studentización) y luego ajuste los pesos para que se ajusten mejor a los datos / escenario? Eso tiene sentido. Simplemente no entiendo por qué dividiría por SD. Y al investigar encontré algo llamado la diferencia de medias estandarizada ... y me he estado confundiendo. Parece que debería ser simple. O los pones a ambos en la Escala-A, o uno en la misma escala que el otro, luego suma. Pero no. En cambio, estoy confundido y todo Wiki salió por el momento.
Chris
0

Para resolver el problema de GPA / ACT o tren / automóvil, ¿por qué no usar la media geométrica ?

n√ (a1 × a2 × ... × an)

Donde a*es el valor de la distribución y nes el índice de la distribución.

Esta media geométrica asegura que cada valor presente su escala, igualmente contribuye al valor medio. Ver más en Media Geométrica

LingxB
fuente
3
No veo que la media geométrica sea apropiada para las situaciones que describe el OP.
gung
1
Estoy de acuerdo con gung. La media geométrica no es una solución a este problema.
Ferdi
La media geométrica evitará la reducción de la contribución de números más pequeños. Por lo tanto, puede ser una alternativa a la estandarización o normalización cuando se tienen que combinar escalas desiguales.
rnso
0

En mi campo, la ciencia de datos, la normalización es una transformación de datos que permite una fácil comparación de los datos aguas abajo. Hay muchos tipos de normalizaciones. Escalar siendo uno de ellos. También puede registrar los datos o hacer cualquier otra cosa que desee. El tipo de normalización que use dependerá del resultado que desee, ya que todas las normalizaciones transforman los datos en otra cosa.

Aquí algunos de los que considero ejemplos de normalización. Normalizaciones de escala normalización cuantílica

yevishere
fuente