¿Por qué se utilizan siempre las distribuciones media 0 y desviación estándar 1?

15

Mis estadísticas han sido autodidactas, pero una gran cantidad de material que leo apunta a un conjunto de datos que tiene una media de 0 y una desviación estándar de 1.

Si ese es el caso, entonces:

  1. ¿Por qué la media 0 y la SD 1 son buenas propiedades?

  2. ¿Por qué una variable aleatoria extraída de esta muestra es igual a 0.5? La posibilidad de sacar 0.001 es la misma que 0.5, por lo que debería ser una distribución plana ...

  3. Cuando la gente habla de Z Scores, ¿qué quieren decir realmente aquí?

Jack Kada
fuente

Respuestas:

11
  1. Al principio, la respuesta más útil es probablemente que la media de 0 y la SD de 1 son matemáticamente convenientes. Si puede calcular las probabilidades para una distribución con una media de 0 y una desviación estándar de 1, puede calcularlas para cualquier distribución similar de puntajes con una ecuación muy simple.

  2. No estoy siguiendo esta pregunta. La media de 0 y la desviación estándar de 1 generalmente se aplican a la distribución normal estándar, a menudo llamada curva de campana. El valor más probable es la media y se cae a medida que te alejas. Si tiene una distribución verdaderamente plana, entonces no hay valor más probable que otro. Su pregunta aquí está mal formada. ¿Estaba buscando preguntas sobre lanzamientos de monedas tal vez? Busque la distribución binomial y el teorema del límite central.

  3. "significa aquí"? ¿Dónde? La respuesta simple para los puntajes z es que son sus puntajes escalados como si su media fuera 0 y la desviación estándar fuera 1. Otra forma de pensar al respecto es que toma un puntaje individual como el número de desviaciones estándar que el puntaje es del media. La ecuación está calculando la (puntuación - media) / desviación estándar. Las razones por las que haría eso son bastante variadas, pero una es que en los cursos de introducción de estadísticas tiene tablas de probabilidades para diferentes puntajes z (vea la respuesta 1).

Si buscó primero el puntaje z, incluso en wikipedia, habría obtenido respuestas bastante buenas.

John
fuente
En 2) creo que la confusión es lo que significa p (X = .01) cuando X es una variable aleatoria continua. Intuitivamente, la probabilidad parece ser cero en todas partes porque no hay posibilidad de que X sea exactamente .01. El interlocutor debe revisar la definición de una función de densidad en el caso continuo, que se define como la derivada de la función de densidad acumulativa.
Tristan
7

Para comenzar, de lo que estamos hablando aquí es de la distribución normal estándar, una distribución normal con una media de 0 y una desviación estándar de 1. La abreviatura de una variable que se distribuye como una distribución normal estándar es Z.

Aquí están mis respuestas a sus preguntas.

(1) Creo que hay dos razones clave por las que las distribuciones normales estándar son atractivas. En primer lugar, cualquier variable distribuida normalmente puede convertirse o transformarse en una normal estándar restando su media de cada observación antes de dividir cada observación por la desviación estándar. Esto se llama transformación Z o creación de puntuaciones Z. Esto es muy útil, especialmente en los días anteriores a las computadoras.

(Xyo-X¯)σX=Z(75-65,6)10,2=0,9215
Usando la tabla Z, encuentro que la probabilidad acumulada P (z <Z) - 0.8212 y, por lo tanto, la probabilidad de encontrar una mujer tan alta o más alta que 75 pulgadas es 17.88%. Podemos hacer esto con cualquier variable normalmente distribuida, por lo que esta distribución normal estándar es muy útil.

La segunda razón por la cual la distribución normal estándar se usa con frecuencia se debe a la interpretación que se brinda en términos de puntajes Z. Cada "observación" en una variable transformada en Z es cuántas desviaciones estándar era la observación original no transformada de la media. Esto es particularmente útil para pruebas estandarizadas donde el rendimiento bruto o absoluto es menos importante que el rendimiento relativo.

(2) No te sigo aquí. Creo que puede estar confundido sobre lo que queremos decir con una función de distribución acumulativa. Tenga en cuenta que el valor esperado de una distribución normal estándar es 0, y este valor corresponde al valor de .5 en la función de distribución acumulativa asociada.

(3) Las puntuaciones Z son las "observaciones" o datos individuales en una variable que ha sido transformada en Z. Regrese a mi ejemplo de la variable: altura de las mujeres estadounidenses en pulgadas. Una observación particular de los cuales puede ser una mujer alta de 75 pulgadas de altura. La puntuación Z para esto es el resultado de la transformación Z de la variable como lo hicimos anteriormente:

(Xyo-X¯)σX=Z(75-65,6)10,2=0,9215
El puntaje Z en este caso es 0.9215. La interpretación del puntaje Z es que esta mujer en particular es 0.9215 desviaciones estándar más altas que la altura media. Una persona que mide 55.4 pulgadas de alto tiene un puntaje Z de 1 y sería 1 desviación estándar por debajo de la altura media.
Graham Cookson
fuente
1

Como recibió excelentes explicaciones de Graham y John, solo voy a responder su última pregunta:

Cuando la gente habla de Z Scores, ¿qué quieren decir realmente aquí?

La mejor manera de responder esto es pensar en esta pregunta: las calificaciones en la clase CS 101 normalmente se distribuyen con μ = 80 y σ = 5. ¿Cuál es el puntaje z para el grado 65?

Entonces: (65-80) / 5 = -3

Puede decir que el puntaje z para el grado 65 es -3 ; o en otras palabras, 3 desviaciones estándar a la izquierda.

adhg
fuente