¿Cómo puedo calcular el intervalo de confianza de una media en una muestra no distribuida normalmente?
Entiendo que los métodos de arranque se usan comúnmente aquí, pero estoy abierto a otras opciones. Si bien estoy buscando una opción no paramétrica, si alguien puede convencerme de que una solución paramétrica es válida, estaría bien. El tamaño de la muestra es> 400.
Si alguien pudiera dar una muestra en R, sería muy apreciado.
Respuestas:
En primer lugar, comprobaría si la media es un índice apropiado para la tarea en cuestión. Si está buscando "un valor típico / central" de una distribución sesgada, la media podría indicarle un valor bastante no representativo. Considere la distribución log-normal:
La media (línea roja) está bastante lejos del grueso de los datos. La media recortada del 20% (verde) y la mediana (azul) están más cerca del valor "típico".
Los resultados dependen del tipo de distribución "no normal" (sería útil un histograma de sus datos reales). Si no está sesgado, pero tiene colas pesadas, sus CI serán muy amplios.
En cualquier caso, creo que el bootstrapping es un buen enfoque, ya que también puede proporcionar CI asimétricos. El
R
paquetesimpleboot
es un buen comienzo:... te da el siguiente resultado:
fuente
Si está abierto a una solución semiparamétrica, aquí hay una: Johnson, N. (1978) Pruebas t modificadas e intervalos de confianza para poblaciones asimétricas, JASA . El centro del intervalo de confianza se desplaza por , donde es la estimación del tercer momento de la población, y el ancho permanece igual. Dado que el ancho del intervalo de confianza es , y la corrección de la media es , debe tener un sesgo realmente considerable (del orden ) para que importe conκ^/ (6 s2n ) κ^ O ( n- 1 / 2) O ( n- 1) norte1 / 2> 20 n > 400 . El bootstrap debería darle un intervalo asintóticamente equivalente, pero también tendría el ruido de simulación agregado a la imagen. (El CI de bootstrap se corrige automáticamente para el mismo término de primer orden, de acuerdo con la teoría general de Bootstrap y Edgeworth Expansion (Hall 1995)) . Por lo que puedo recordar sobre la evidencia de simulación, los CI de bootstrap son algo más gordos que los CI basados en el análisis expresiones, sin embargo.
kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877
s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197
2*s*qnorm(0.975)/sqrt(n) = 0.2678999
kappa*s/(6*n) = 0.00222779
kappa
fuente
Pruebe una distribución logarítmica normal, calculando:
Terminará con un intervalo de confianza asimétrico alrededor del valor esperado (que no es la media de los datos sin procesar).
fuente