Aquí hay un gráfico QQ para mi muestra (observe el eje Y logarítmico); :
Como señaló Whuber, esto indica que la distribución subyacente está sesgada hacia la izquierda (la cola derecha es más corta).
Utilizando shapiro.test
(sobre los datos transformados logarítmicamente) en R, tengo una prueba estadística de y un valor de p de , lo que significa que formalmente rechazar la hipótesis nula al nivel de confianza del 95%.5.172 ⋅ 10 - 13 H 0 : la muestra está distribuida normalmente
Mi pregunta es: ¿es esto lo suficientemente bueno en la práctica para un análisis posterior asumiendo (log-) normalidad? En particular, me gustaría calcular los intervalos de confianza para las medias de muestras similares utilizando el método aproximado de Cox y Land (descrito en el documento: Zou, GY, cindy Yan Huo y Taleban, J. (2009). Intervalos de confianza simples para medios lognormales y sus diferencias con las aplicaciones ambientales. Environmetrics 20, 172–180):
ci <- function (x) {
y <- log(x)
n <- length(y)
s2 <- var(y)
m <- mean(y) + s2 / 2
z <- qnorm(1 - 0.05 / 2) # 95%
#z <- qnorm(1 - 0.10 / 2) # 90%
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
return(c(exp(m - d), exp(m + d)))
}
Me di cuenta de que los intervalos de confianza tienden a centrarse en un punto que está ligeramente por encima de la media muestral real. Por ejemplo:
> mean(x)
[1] 82.3076
> y <- log(x)
> exp(mean(y) + var(y) / 2)
[1] 91.22831
Creo que estos dos valores deberían ser iguales bajo .
fuente
Respuestas:
Estos datos tienen una cola corta en comparación con una distribución lognormal, no muy diferente de una distribución Gamma:
Sin embargo, debido a que los datos están fuertemente sesgados, podemos esperar que los valores más grandes desempeñen un papel importante en la estimación de la media y su intervalo de confianza. Por lo tanto , debemos anticipar que un estimador lognormal (LN) tenderá a sobreestimar la media y los dos límites de confianza .
Verifiquemos y, para comparación, usemos los estimadores habituales: es decir, la media muestral y su intervalo de confianza de la teoría normal. Tenga en cuenta que los estimadores habituales se basan únicamente en la normalidad aproximada de la media de la muestra , no de los datos, y, con un conjunto de datos tan grande, se puede esperar que funcionen bien. Para hacer esto, necesitamos una ligera modificación de la
ci
función:Aquí hay una función paralela para las estimaciones de la teoría normal:
Aplicado a este conjunto de datos simulado, las salidas son
Las estimaciones de la teoría normal producidas por1.9
ci.u
mirar un poco más cerca de la media real de , pero es difícil saber a partir de un conjunto de datos qué procedimiento tiende a funcionar mejor. Para averiguarlo, simulemos muchos conjuntos de datos:Estamos interesados en comparar los resultados con la media real de . Un panel de histogramas es revelador a ese respecto:1.9
Ahora está claro que los procedimientos lognormales tienden a sobreestimar la media y los límites de confianza, mientras que los procedimientos habituales hacen un buen trabajo. Podemos estimar las coberturas de los procedimientos de intervalo de confianza:
Este cálculo dice:
El límite inferior de LN no cubrirá la media real aproximadamente el 22,3% del tiempo (en lugar del 2,5% previsto).
El límite inferior habitual no cubrirá la media real aproximadamente el 2,3% del tiempo, cerca del 2,5% previsto.
El límite superior de LN siempre excederá la media real (en lugar de caer por debajo del 2.5% del tiempo según lo previsto). Esto lo convierte en un 100% de dos lados - (22.3% + 0%) = 77.7% de intervalo de confianza en lugar de un intervalo de confianza de 95%.
El límite superior habitual no cubrirá la media verdadera aproximadamente 100 - 96.5 = 3.5% del tiempo. Esto es un poco mayor que el valor previsto de 2.5%. Por lo tanto, los límites habituales comprenden un 100% de dos lados - (2.3% + 3.5%) = 94.2% de intervalo de confianza en lugar de un intervalo de confianza de 95%.
La reducción de la cobertura nominal del 95% al 77,7% para el intervalo lognormal es terrible. La reducción al 94.2% para el intervalo habitual no es mala en absoluto y puede atribuirse al efecto de la asimetría (de los datos en bruto, no de sus logaritmos).
Tenemos que concluir que los análisis posteriores de la media no deben suponer lognormalidad.
¡Ten cuidado! Algunos procedimientos (como los límites de predicción) serán más sensibles a la asimetría que estos límites de confianza para la media, por lo que es posible que se deba tener en cuenta su distribución sesgada. Sin embargo, parece poco probable que los procedimientos logarítmicos funcionen bien con estos datos para prácticamente cualquier análisis previsto.
fuente
abline()
lugar deqqline()
(que produce una línea diferente) en el primer ejemplo?trial()
función no usa sus argumentos.trial
:trial <- function(y) { x <- sample(y, length(y), TRUE); cbind(ci(x), ci.u(x)) }
. A continuación, emita solo un comando,sim <- sapply(1:5000, function(i) trial(x))
. Es posible que desee explorar los histogramas de las seis filas de mássim
adelante.