¿Cuál es la diferencia entre la 'Normalización' de datos y la 'Escala' de datos? Hasta ahora pensé que ambos términos se refieren al mismo proceso, pero ahora me doy cuenta de que hay algo más que no sé / entiendo. Además, si hay una diferencia entre Normalización y Escalado, ¿cuándo deberíamos usar Normalización pero no Escalado y viceversa?
Por favor explique con algún ejemplo.
Respuestas:
No conozco una definición "oficial" e incluso si la hay, no debe confiar en ella, ya que verá que se usa de manera inconsistente en la práctica.
Dicho esto, la escala en las estadísticas generalmente significa una transformación lineal de la forma .f(x)=ax+b
Normalizar puede significar aplicar una transformación para que los datos transformados se distribuyan más o menos normalmente, pero también puede significar simplemente poner diferentes variables en una escala común. La estandarización, que significa restar la media y dividir por la desviación estándar, es un ejemplo del uso posterior. Como puede ver, también es un ejemplo de escala. Un ejemplo para el primero sería tomar el registro de datos distribuidos lognormal.
Pero lo que debe quitar es que cuando lo lea, debe buscar una descripción más precisa de lo que hizo el autor. A veces puedes obtenerlo del contexto.
fuente
La escala es una elección personal para hacer que los números se sientan bien, por ejemplo, entre cero y uno, o uno y cien. Por ejemplo, convertir datos dados en milímetros a metros porque es más conveniente, o imperial a métrico.
Si bien la normalización se trata de escalar a un 'estándar' externo, la norma local, como eliminar el valor medio y dividir por la desviación estándar de la muestra, por ejemplo, para que sus datos ordenados se puedan comparar con un Poisson acumulativo normal o un Poisson acumulativo, o lo que sea.
Entonces, si un profesor o gerente quiere que los datos se "normalicen", significa "volver a escalar a mi manera " ;-)
fuente
No sé si te refieres exactamente a esto, pero veo a muchas personas refiriéndose a Normalización que significa Normalización de datos. La estandarización está transformando sus datos, por lo que tiene una media 0 y una desviación estándar 1:
También veo personas que usan el término Normalización para el escalado de datos, como al transformar sus datos en un rango de 0-1:
¡Puede ser confuso!
Ambas técnicas tienen sus pros y sus contras. Al escalar un conjunto de datos con demasiados valores atípicos, sus datos no atípicos pueden terminar en un intervalo muy pequeño. Entonces, si su conjunto de datos tiene demasiados valores atípicos, puede considerar estandarizarlo. No obstante, cuando lo haga, terminará con datos negativos (a veces no lo desea) y datos ilimitados (es posible que tampoco lo desee).
fuente
Centrar significa sustraer la media de la variable aleatoria de las variables. Es decir, xxi
Escalar significa dividir la variable por su desviación estándar. Es decir, xi / s
La combinación de los dos se llama normalización o standization. Es decir, x-xi / s
fuente