¿Qué significa "normalización" y cómo verificar que una muestra o una distribución esté normalizada?

18

Tengo una pregunta en la que pide verificar si la distribución Uniforme ( Uniform(a,b) ) está normalizada.

  1. Por un lado, ¿qué significa que cualquier distribución se normalice?
  2. Y dos, ¿cómo hacemos para verificar si una distribución está normalizada o no?

Entiendo computando

Xmeansd
obtenemosdatosnormalizados, pero aquí se solicita verificar si unadistribuciónestá normalizada o no.
Ada
fuente
3
Lo que significa que una distribución se normalice no es tan simple (y generalmente no se normaliza la distribución en sí, sino la variable aleatoria). Por ejemplo, en el caso de la uniforme, algunas personas pueden significar "linealmente reajustarán a fin de obtener un uniforme estándar" (es decir, para obtener a=0 y b=1 ) ... mientras que otra persona puede significar "linealmente reajustarán a fin para obtener media 0 y sd 1 ". Para el uniforme, normalmente asumiría el primero, pero como puede ver en una respuesta a continuación, otras personas pueden tomarlo como algo más. La mejor opción es pedirle a la persona que usa el término que sea menos ambigua.
Glen_b -Reinstate Monica
1
Los términos más convencionales están estandarizados (para lograr una media de cero y SD de uno) y normalizados (para llevar el rango al intervalo o para reescalar una norma vectorial a 1 ). Así, la reexpresión X ( X - media ) / S D es una estandarización, mientras que multiplica una densidad f por una constante C para hacer - C f ( x ) d x =[0,1]1X(Xmean)/SDfC es unanormalización, porquef ( x ) d x es lanorma L 1 de f . Cf(x)dx=1f(x)dxL1f
whuber
También preguntado en matemáticas.
Dilip Sarwate
1
Por favor no publique , @Ada. Eso va en contra de la política de SE. Si publica un sitio Q en 1 y luego cree que debería haberlo publicado en otro, marque su Q y solicite a los moderadores que lo migren por usted.
gung - Restablece a Monica

Respuestas:

33

Desafortunadamente, los términos se usan de manera diferente en diferentes campos, por diferentes personas dentro del mismo campo, etc., por lo que no estoy seguro de qué tan bien se puede responder aquí. Debe asegurarse de conocer la definición que su instructor / libro de texto está usando para "normalizado". Sin embargo, aquí hay algunas definiciones comunes:

Centrado: Estandarizado: X - media

Xmean
Normalizado:X-min(X)
Xmeansd
normalizaciónen este sentido reescala sus datos al intervalo de la unidad. La estandarizaciónconvierte sus datos enpuntuacionesz, como señala @Jeff. Ycentrarsolo hace que la media de sus datos sea igual a0.
Xmin(X)max(X)min(X)
z0

Vale la pena reconocer aquí que las tres son transformaciones lineales ; como tal, no cambian la forma de su distribución . Es decir, a veces las personas llaman a la transformación score "normalizar" y creen, debido a la asociación de z -scores con la distribución normal, que esto ha hecho que sus datos se distribuyan normalmente. Esto no es así (como @Jeff también señala, y como podría ver al trazar sus datos antes y después). Si está interesado, puede cambiar la forma de sus datos utilizando la familia de transformaciones Box-Cox , por ejemplo. zz

Con respecto a cómo podría verificar estas transformaciones, depende de qué se entiende exactamente por eso. Si significan simplemente verificar que el código se ejecutó correctamente, puede verificar los medios, las SD, los mínimos y los máximos.

gung - Restablece a Monica
fuente
1
He visto normalizados utilizados para sugerir estandarizados o sugerir ajustados a una distribución normal estándar, es decir, , por lo que es muy probable que los tres normalizados sean mal interpretados. El comentario de Ada sobre la aplicación de una constante de normalización a una función de probabilidad es otra posible interpretación. Φ1(F(X))
Henry
4

Al utilizar la fórmula que proporcionó en cada puntaje de su muestra, los está convirtiendo todos en puntajes z .

01

El propósito de hacer esto es poner todo en unidades en relación con la desviación estándar de su muestra. Esto puede ser útil para una variedad de propósitos, como comparar dos conjuntos de datos diferentes que se puntuaron usando diferentes unidades (centímetros y pulgadas, tal vez).

Es importante no confundir esto con preguntar si una distribución es normal , es decir, si se aproxima a una distribución gaussiana .

Jeff
fuente
entonces, para verificar si la distribución Uniforme se normalizó o no, ¿sería equivalente decir E (X) = 0 y Var (X) = 1 donde X ~ Uniforme (a, b)?
2
los datos ni siquiera tienen que ser de una distribución uniforme, pueden ser de cualquier distribución. Además, esto solo es cierto utilizando la fórmula que proporcionó; los datos se pueden normalizar de otras maneras que no sean las puntuaciones z. por ejemplo, se dice que los puntajes del coeficiente intelectual se normalizan con un puntaje de 100 y una desviación estándar de 15.
Jeff
1

Después de consultar a la AT, lo que se preguntaba era si

f(x)dx=1

f(x)

Ada
fuente
2
1
Esto es lo que se nos pide que verifiquemos. f (x) realmente no tiene que ser un pdf, y puede ser cualquier función no negativa. Para cualquier función no negativa donde lo anterior no satisface, siempre podemos multiplicar por una constante de normalización
Ada
1
f(x)=eX
Es cierto que no hay ninguna función no negativa donde podamos hacer que satisfaga la condición anterior, incluso si multiplicamos por una constante de normalización.
Ada