En el trabajo estábamos discutiendo esto ya que mi jefe nunca había oído hablar de normalización. En álgebra lineal, la normalización parece referirse a la división de un vector por su longitud. Y en estadística, la estandarización parece referirse a la resta de una media que luego se divide por su DE. Pero también parecen intercambiables con otras posibilidades.
Al crear algún tipo de puntaje universal, que conforma métricas diferentes, que tienen diferentes medios y diferentes SD, ¿Normalizaría, Estandarizaría u otra cosa? Una persona me dijo que es solo una cuestión de tomar cada métrica y dividirla por su SD, individualmente. Luego sumando los dos. Y eso dará como resultado un puntaje universal que puede usarse para juzgar ambas métricas.
Por ejemplo, supongamos que tiene la cantidad de personas que toman el metro para ir a trabajar (en Nueva York) y la cantidad de personas que conducen al trabajo (en Nueva York).
Auto ⟶ y
Cualquier artículo o capítulos de libros de referencia sería muy apreciado. ¡GRACIAS!
También aquí hay otro ejemplo de lo que estoy tratando de hacer.
Imagina que eres un decano universitario y estás discutiendo los requisitos de admisión. Es posible que desee estudiantes con al menos un cierto GPA y un cierto puntaje en la prueba. Sería bueno si ambos estuvieran en la misma escala porque entonces podría sumar los dos juntos y decir: "cualquier persona con al menos un 7.0 puede ser admitido". De esa manera, si un posible estudiante tiene un promedio de calificaciones de 4.0, podría obtener un puntaje tan bajo como 3.0 y aún así ser admitido. Inversamente, si alguien tuviera un promedio de calificaciones de 3.0, aún podrían ser admitidos con una calificación de 4.0.
Pero no es así. El ACT está en una escala de 36 puntos y la mayoría de los GPA están en 4.0 (algunos son 4.3, sí molesto). Como no puedo agregar un ACT y un GPA para obtener algún tipo de puntaje universal, ¿cómo puedo transformarlos para que se puedan agregar, creando así un puntaje de admisión universal? Y luego, como decano, podría aceptar automáticamente a cualquiera con un puntaje por encima de cierto umbral. O incluso aceptar automáticamente a todos los que tengan una puntuación dentro del 95% superior ... ese tipo de cosas.
¿Sería eso normalización? ¿Estandarización? o simplemente dividiendo cada uno por su SD y luego sumando?
Respuestas:
La normalización reescala los valores en un rango de [0,1]. Esto puede ser útil en algunos casos donde todos los parámetros deben tener la misma escala positiva. Sin embargo, los valores atípicos del conjunto de datos se pierden.
Para la mayoría de las aplicaciones se recomienda la estandarización.
fuente
En el mundo de los negocios, "normalización" generalmente significa que el rango de valores está "normalizado para ser de 0.0 a 1.0". "Estandarización" generalmente significa que el rango de valores está "estandarizado" para medir cuántas desviaciones estándar es el valor de su media. Sin embargo, no todos estarían de acuerdo con eso. Es mejor explicar sus definiciones antes de usarlas.
En cualquier caso, su transformación debe proporcionar algo útil.
En su ejemplo de tren / automóvil, ¿gana algo al saber cuántas desviaciones estándar de su media, cada valor reside? Si traza esas medidas "estandarizadas" entre sí como una gráfica xy, es posible que vea una correlación (vea la primera gráfica a la derecha):
http://en.wikipedia.org/wiki/Correlation_and_dependence
Si es así, ¿eso significa algo para ti?
En cuanto a su segundo ejemplo, si quiere "equiparar" un GPA de una escala a otra, ¿qué tienen en común estas escalas? En otras palabras, ¿cómo podría transformar esos mínimos para que sean equivalentes y los máximos para que sean equivalentes?
Aquí hay un ejemplo de "normalización":
Enlace de normalización
Una vez que obtenga sus puntajes de GPA y ACT en una forma intercambiable, ¿tiene sentido sopesar los puntajes de ACT y GPA de manera diferente? Si es así, ¿qué peso significa algo para usted?
Edición 1 (03/05/2011) ========================================= =
Primero, verificaría los enlaces sugeridos por whuber arriba. La conclusión es que, en sus dos problemas de dos variables, tendrá que llegar a una "equivalencia" de una variable frente a la otra. Y, una forma de diferenciar una variable de la otra. En otras palabras, incluso si puede simplificar esto a una relación lineal simple, necesitará "pesos" para diferenciar una variable de la otra.
Aquí hay un ejemplo de un problema de dos variables:
Utilidades de atributos múltiples
Desde la última página, si puede decir que el tráfico de trenes estandarizado
U1(x)
versus el tráfico de automóviles estandarizadoU2(y)
es "aditivamente independiente", entonces podría salirse con una ecuación simple como:Donde k1 = 0.5 significa que eres indiferente al tráfico estandarizado de automóviles / trenes. Un k1 más alto significaría que el tráfico de trenes
U1(x)
es más importante.Sin embargo, si estas dos variables no son "aditivamente independientes", entonces tendrá que usar una ecuación más complicada. Una posibilidad se muestra en la página 1:
En cualquier caso, tendrá que encontrar una utilidad
U(x, y)
que tenga sentido.Los mismos conceptos generales de ponderación / comparación son válidos para su problema GPA / ACT. Incluso si están "normalizados" en lugar de "estandarizados".
Un último tema. Sé que no le va a gustar esto, pero la definición del término "aditivamente independiente" se encuentra en la página 4 del siguiente enlace. Busqué una definición menos geek, pero no pude encontrar una. Puedes mirar alrededor para encontrar algo mejor.
Aditivamente independiente
Citando el enlace:
Como se sugiere en la parte superior de esta respuesta, si traza el tráfico de trenes estandarizado versus el tráfico de automóviles estandarizado en un diagrama xy, es posible que vea una correlación. Si es así, entonces estás atrapado con la ecuación de utilidad no lineal anterior o algo similar.
fuente
La respuesta es simple, pero no te va a gustar: depende. Si valoras 1 desviación estándar de ambos puntajes por igual, entonces la estandarización es el camino a seguir (nota: de hecho, estás estudiando , porque estás dividiendo entre una estimación del DE de la población).
De lo contrario, es probable que la estandarización sea un buen primer paso, después del cual puede darle más peso a uno de los puntajes al multiplicarlo por un factor bien elegido.
fuente
Para resolver el problema de GPA / ACT o tren / automóvil, ¿por qué no usar la media geométrica ?
n√ (a1 × a2 × ... × an)
Donde
a*
es el valor de la distribución yn
es el índice de la distribución.Esta media geométrica asegura que cada valor presente su escala, igualmente contribuye al valor medio. Ver más en Media Geométrica
fuente
En mi campo, la ciencia de datos, la normalización es una transformación de datos que permite una fácil comparación de los datos aguas abajo. Hay muchos tipos de normalizaciones. Escalar siendo uno de ellos. También puede registrar los datos o hacer cualquier otra cosa que desee. El tipo de normalización que use dependerá del resultado que desee, ya que todas las normalizaciones transforman los datos en otra cosa.
Aquí algunos de los que considero ejemplos de normalización. Normalizaciones de escala normalización cuantílica
fuente