Cómo comparar la media de dos muestras cuyos datos se ajustan a distribuciones exponenciales

10

Tengo dos muestras de datos, una muestra de referencia y una muestra de tratamiento.

La hipótesis es que la muestra de tratamiento tiene una media más alta que la muestra de referencia.

Ambas muestras tienen forma exponencial. Como los datos son bastante grandes, solo tengo la media y el número de elementos para cada muestra en el momento en que ejecutaré la prueba.

¿Cómo puedo probar esa hipótesis? Supongo que es muy fácil, y he encontrado varias referencias para usar la Prueba F, pero no estoy seguro de cómo se mapean los parámetros.

Jonathan Dobbie
fuente
2
¿Por qué no tienes los datos? Si las muestras son realmente grandes, las pruebas no paramétricas deberían funcionar muy bien, pero parece que está intentando ejecutar una prueba a partir de las estadísticas de resumen. ¿Está bien?
Mimshot
¿Los valores basales y de tratamiento del mismo paciente están establecidos o los dos grupos son independientes?
Michael M
1
@Mimshot, los datos se transmiten, pero tienes razón en que estoy tratando de ejecutar una prueba a partir de las estadísticas de resumen. Funciona bastante bien con una prueba Z para datos normales
Jonathan Dobbie
1
En estas circunstancias, una prueba z aproximada es quizás lo mejor que puede hacer. Sin embargo, me importaría más cuán grande es el verdadero efecto del tratamiento, no la significación estadística. Recuerde que con muestras lo suficientemente grandes, cualquier efecto verdadero diminuto conducirá a un valor p pequeño.
Michael M
1
n1=n2=100

Respuestas:

14

Puede probar la igualdad de los parámetros medios con la alternativa de que los parámetros medios son desiguales con una prueba de razón de probabilidad (prueba LR). (Sin embargo, si los parámetros medios difieren y la distribución es exponencial, este es un cambio de escala, no un cambio de ubicación).

x¯/y¯

i1/μxexp(xi/μx)j1/μyexp(yj/μy)

XiΓ(1,μx)XSxΓ(nx,μx)YSyΓ(ny,μy)

2/μxSxχ2nx2μyμxSx/nxSy/nyF2nx,2ny

x¯/y¯F2nx,2ny


Simulación para verificar que no cometimos un simple error en el álgebra:

XY

F

ejemplo de distribución simulada de estadística de razón bajo nulo


Ejemplo, con la discusión del cálculo de los valores p de dos colas :

Para ilustrar el cálculo, aquí hay dos pequeñas muestras de distribuciones exponenciales. La muestra X tiene 14 observaciones de una población con una media de 10, la muestra Y tiene 17 observaciones de una población con una media de 15:

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

Las medias muestrales son 12.082 y 16.077 respectivamente. La razón de medias es 0.7515

El área a la izquierda es directa, ya que está en la cola inferior (calc en R):

 > pf(r,28,34) 
 [1] 0.2210767

Necesitamos la probabilidad de la otra cola. Si la distribución fuera simétrica en el inverso, sería sencillo hacer esto.

Una convención común con la relación de varianzas de la prueba F (que es similarmente de dos colas) es simplemente duplicar el valor p de una cola (efectivamente, lo que está sucediendo aquí ; eso también es lo que parece hacerse en R, por ejemplo ); en este caso da un valor p de 0.44.

α/2α

Glen_b -Reinstate a Monica
fuente
Supongo que esto solo soy yo siendo grueso, pero ¿de dónde viene 0.7515?
Jonathan Dobbie
r = media (x) / media (y) = 0.7515 - es decir, "La razón de las medias"
Glen_b -Reinstala a Monica el
Ok, genial Obtuve 0.67, pero eso probablemente se deba a un error de entrada de datos.
Jonathan Dobbie
1
Yo he hecho la distinción entre las medias de la población y las medias de las muestras resultantes más claras
Glen_b -Reinstate Monica
αα2
3

nxlognxxi+nylognyyj(nx+ny)lognx+nyxi+yj
nxlog(nxny+1r)+nylog(nynx+r)+nxlognynx+ny+nylognxnx+ny
r=x¯y¯r=1

rELRrobsPr(R>rELR)rELR=1.3272Pr(R>rELR)=0.21420.43520.4315

ingrese la descripción de la imagen aquí

Pero duplicar el valor p de una cola es quizás la forma más común de obtener un valor p de dos colas: es equivalente a encontrar el valor de la razón de la muestra significa para el cual la probabilidad de cola es igual a , y luego encuentra . Explicado así, puede parecer que está poniendo el carro delante del caballo al permitir que las probabilidades de cola definan la extrema de un estadístico de prueba, pero puede justificarse como que en efecto son dos pruebas de una cola (cada una el LRT) con múltiples comparaciones corrección— y las personas generalmente están interesadas en afirmar que o querETPPr(R>rETP)Pr(R<robs)Pr(R>rETP)μx>μyμx<μyμx>μy o . También es menos problemático, e incluso para tamaños de muestra bastante pequeños, da la misma respuesta que el LRT de dos colas propiamente dicho.μx<μy

ingrese la descripción de la imagen aquí

El código R sigue:

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)
Scortchi - Restablece a Monica
fuente