¿Puedo usar una puntuación Z con datos asimétricos y no normales? [cerrado]

12

He estado trabajando con algunos datos de tiempo de ciclo de proceso y escalado utilizando el puntaje z estándar para comparar entre partes del tiempo de ciclo completo.

¿Debo usar alguna otra transformación ya que los datos están muy sesgados a la derecha / no son normales? (Los "valores atípicos" nunca pueden llevar un tiempo negativo y, a menudo, tardan mucho más que el "promedio")

Usar el puntaje z todavía parece "funcionar" ...

###############
# R code    
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))
TMOD
fuente
55
zz

Respuestas:

5

Si X está muy sesgado, el estadístico Z no se distribuirá normalmente (o t si se debe estimar la desviación estándar. Por lo tanto, los percentiles de Z no serán normales normales. Entonces, en ese sentido, no funciona.

Michael R. Chernick
fuente
A mi entender, X siendo muy sesgado significa que el tamaño de la muestra no era lo suficientemente grande (teorema del límite central). Sin embargo, no estoy seguro de si la población en sí misma debe ser normal, para que la estadística Z funcione. ¿Lo hace?
Andrzej Gis
1
El OP habla de la distribución de la población y no de la distribución de la media. Por lo tanto, el tamaño de la muestra y el teorema del límite central no se aplican.
Michael R. Chernick
2

El código R funcionará, pero la puntuación z será tan significativa como la frase "Las uvas están llamando a la pluma estilográfica a la ligera". Es una oración válida, pero no transmite nada significativo.

A juzgar por su código R, parece que cree que sus datos están distribuidos por Weibull. En ese caso, usaría la estadística de Weibull y no escalaría nada a menos que sea absolutamente necesario. Aunque las puntuaciones z se enseñan en todas las clases de estadísticas de introducción, eso no significa que deba usarlas todo el tiempo, y especialmente si no tiene datos simétricos.

Brandon Sherman
fuente
1

Si la población no se distribuye normalmente. En ese caso, la distribución de la barra (X) {muestra media} se aproxima a una distribución normal según el teorema del límite central; para muestras de gran tamaño. Aunque teóricamente decimos que estamos usando Student's-t pero para valores más altos de n (tamaño de muestra o grado de libertad), la distribución t y la distribución Z son casi iguales.

Arpan Halder
fuente
-4

SUS DATOS NO TIENEN QUE SER NORMALES PARA UNA PRUEBA Z. (TOWNEND, 2002) SIN EMBARGO, LAS VARIANZAS DEBEN SER APROXIMADAMENTE IGUALES. PARA VERIFICAR QUE REALICE UNA PRUEBA F EN SUS DOS BASES DE DATOS, Y SI SUS VARIANZAS SON APROXIMADAMENTE IGUALES, EL RESULTADO DE LA PRUEBA Z ES ÚTIL. SI NO, TRANSFORME LOS DATOS.

usuario24546
fuente
99
La pregunta es sobre la transformación de una variable, no una prueba, por lo que no creo que se aplique su respuesta. Además, probablemente sea más informativo si proporciona la referencia completa en lugar de solo una referencia de nombre y año y algunas personas se oponen a SHOUTING.
Maarten Buis
Estoy de acuerdo con @MaartenBuis pero, a diferencia de él, lo rechazaré.
Erik