Tengo dos muestras de datos, una muestra de referencia y una muestra de tratamiento.
La hipótesis es que la muestra de tratamiento tiene una media más alta que la muestra de referencia.
Ambas muestras tienen forma exponencial. Como los datos son bastante grandes, solo tengo la media y el número de elementos para cada muestra en el momento en que ejecutaré la prueba.
¿Cómo puedo probar esa hipótesis? Supongo que es muy fácil, y he encontrado varias referencias para usar la Prueba F, pero no estoy seguro de cómo se mapean los parámetros.
hypothesis-testing
statistical-significance
exponential
Jonathan Dobbie
fuente
fuente
Respuestas:
Puede probar la igualdad de los parámetros medios con la alternativa de que los parámetros medios son desiguales con una prueba de razón de probabilidad (prueba LR). (Sin embargo, si los parámetros medios difieren y la distribución es exponencial, este es un cambio de escala, no un cambio de ubicación).
Simulación para verificar que no cometimos un simple error en el álgebra:
Ejemplo, con la discusión del cálculo de los valores p de dos colas :
Para ilustrar el cálculo, aquí hay dos pequeñas muestras de distribuciones exponenciales. La muestra X tiene 14 observaciones de una población con una media de 10, la muestra Y tiene 17 observaciones de una población con una media de 15:
Las medias muestrales son 12.082 y 16.077 respectivamente. La razón de medias es 0.7515
El área a la izquierda es directa, ya que está en la cola inferior (calc en R):
Necesitamos la probabilidad de la otra cola. Si la distribución fuera simétrica en el inverso, sería sencillo hacer esto.
Una convención común con la relación de varianzas de la prueba F (que es similarmente de dos colas) es simplemente duplicar el valor p de una cola (efectivamente, lo que está sucediendo aquí ; eso también es lo que parece hacerse en R, por ejemplo ); en este caso da un valor p de 0.44.
fuente
Pero duplicar el valor p de una cola es quizás la forma más común de obtener un valor p de dos colas: es equivalente a encontrar el valor de la razón de la muestra significa para el cual la probabilidad de cola es igual a , y luego encuentra . Explicado así, puede parecer que está poniendo el carro delante del caballo al permitir que las probabilidades de cola definan la extrema de un estadístico de prueba, pero puede justificarse como que en efecto son dos pruebas de una cola (cada una el LRT) con múltiples comparaciones corrección— y las personas generalmente están interesadas en afirmar que o querETP Pr(R>rETP) Pr(R<robs) Pr(R>rETP) μx>μy μx<μy μx>μy o . También es menos problemático, e incluso para tamaños de muestra bastante pequeños, da la misma respuesta que el LRT de dos colas propiamente dicho.μx<μy
El código R sigue:
fuente