Pruebe la diferencia significativa en las proporciones de variables aleatorias distribuidas normalmente

9

¿Relacionado con el análisis de razones de variables y cómo parametrizar la razón de dos variables distribuidas normalmente, o la inversa de una? .

Supongamos que tengo varias muestras de cuatro distribuciones aleatorias continuas diferentes, todas las cuales podemos suponer que son más o menos normales. En mi caso, corresponden a algunas métricas de rendimiento de dos sistemas de archivos diferentes (por ejemplo, ext4 y XFS), con y sin cifrado. La métrica puede ser, por ejemplo, el número de archivos creados por segundo, o la latencia promedio para alguna operación de archivo. Podemos suponer que todas las muestras extraídas de estas distribuciones siempre serán estrictamente positivas. Llamemos a estas distribuciones donde $\textrm{Perf}_{fstype,encryption}$ y . $fstype \in \{xfs,ext4\}$ $encryption \in \{crypto,nocrypto\}$

Ahora, mi hipótesis es que el cifrado ralentiza uno de los sistemas de archivos en un factor mayor que el otro. ¿Hay alguna prueba simple para la hipótesis ? $\frac{E[\textrm{Perf}_{xfs,crypto}]}{E[\textrm{Perf}_{xfs,nocrypto}]} < \frac{E[\textrm{Perf}_{ext4,crypto}]}{E[\textrm{Perf}_{ext4,nocrypto}]}$

distributions hypothesis-testing statistical-significance Sami Liedes
fuente

Algunos textos parecen haber sido eliminados de la mitad de esta pregunta. ¿Crees que podrías restaurarlo?

whuber

Creo que el "Así, el" quedó allí por error, al menos no puedo pensar en lo que hubiera querido agregar a eso. Probablemente fue algo que finalmente pasé al segundo párrafo.

Sami Liedes

Podría ajustar un modelo lineal generalizado para una distribución normal con una función de enlace de registro.

parada

1

El "número de archivos" y la "latencia promedio" no se pueden distribuir normalmente (ninguno de los dos puede ser negativo para empezar). Es probable que ambos sean algo sesgados. El número de archivos es un recuento discreto.

Glen_b -Reinstate Monica

12

Una alternativa a la buena respuesta de StasK es usar una prueba de permutación. El primer paso es definir una estadística de prueba , tal vez: $T$

$T = \frac{\widehat{Perf}_{ext4,crypto}}{\widehat{Perf}_{ext4,nocrypto}} - \frac{\widehat{Perf}_{xfs,crypto}}{\widehat{Perf}_{xfs,nocrypto}}$

donde es, quizás, la media muestral de las observaciones de , etc. (Esto se ajusta a su definición de la hipótesis como la razón de las expectativas en lugar de la posibilidad alternativa de la expectativa de la razón, qué alternativa puede ser lo que realmente desea). El segundo paso es permutar aleatoriamente las etiquetas $\widehat{Perf}_{ext4,crypto}$ $\text{Perf}_{ext4,crypto}$ en los datos muchas veces, digamos, y calcule para cada permutación. El paso final es comparar su originalcon la observada; el valor p de permutación-estimado sería la fracción de la . $ext4, \space xfs$ $i=1, \dots, 10000$ $T_i$ $T$ $T_i$ $T_i \leq T$

La prueba de permutación lo libera de la dependencia de los asintóticos, pero, por supuesto, dependiendo del tamaño de su muestra (y también de los datos, por supuesto), el método delta, que también uso ocasionalmente, puede funcionar bien.

jbowman
fuente

¡Esa también es una buena sugerencia!

StasK

Tenga en cuenta que la relación de dos variables normales centradas es una variable de Cauchy.

Xi'an

1

@ Xi'an: ¿Está claro que podemos asumir que son independientes aquí? Como saben, eso sería necesario para que este resultado se mantenga (y tenga la oportunidad de ser útil).

cardenal

@cardinal: sí, de hecho, ¡tendrían que ser independientes!

Xi'an

1

Como punto técnico muy snob, la permutación funciona un poco mejor cuando el estadístico de prueba es fundamental / no involucra parámetros desconocidos / está estabilizado por varianza ... al menos por debajo de la nula. Con proporciones, puedes hacer una transformación de arco de pecado. Con cantidades continuas estrictamente positivas, probablemente comenzaría con registros. Pero esto es realmente la guinda del pastel.

StasK

4

Puede calcular el error estándar (asintótico) de la relación utilizando el método delta . Si tiene dos variables aleatorias e modo que $X$ $Y$

\sqrt{n} (\begin{matrix} \bar{X} - μ_{X} \\ \bar{Y} - μ_{Y} \end{matrix}) \to N ((\begin{matrix} 0 \\ 0 \end{matrix}), (\begin{array}{cc} σ_{X X} & σ_{X Y} \\ σ_{X Y} & σ_{Y Y} \end{array}))

$\sqrt{n}\left(\begin{array}{c} \bar X-\mu_X \\ \bar Y-\mu_Y\end{array}\right) \rightarrow N\left( \left( \begin{array}{c} 0 \\ 0 \end{array}\right), \left( \begin{array}{cc} \sigma_{XX} & \sigma_{XY} \\ \sigma_{XY} & \sigma_{YY} \end{array} \right) \right)$

r = \bar{Y} / \bar{X}

$r=\bar Y/\bar X$

r_{o} = μ_{Y} / μ_{X}

$r_o = \mu_Y/\mu_X$

\sqrt{n} (r - r_{0}) \to N (0, \frac{μ_{Y}^{2}}{μ_{X}^{4}} σ_{X X} - 2 \frac{μ_{Y}}{μ_{X}^{3}} σ_{X Y} + \frac{1}{μ_{X}^{2}} σ_{Y Y})

$\sqrt{n}(r-r_0) \to N(0,\frac{\mu_Y^2}{\mu_X^4}\sigma_{XX} - 2\frac{\mu_Y}{\mu_X^3}\sigma_{XY} + \frac1{\mu_X^2}\sigma_{YY})$

X

$X$

Y

$Y$

σ_{X Y}

$\sigma_{XY}$

{C V}^{2} [r] = {C V}^{2} [\bar{X}] + {C V}^{2} [\bar{Y}]

${\rm CV}^2[r] = {\rm CV}^2[\bar X] + {\rm CV}^2[\bar Y]$

z

$z$

H_{0} :

$H_0:$

Espero que pueda tomarlo desde allí y realizar los cálculos restantes del sobre para obtener la fórmula final.

$r$ $r_0$ $O(1/n)$ $O(1/\sqrt{n})$

StasK
fuente

¡Gracias por la excelente y esclarecedora respuesta! Creo que elegiré la prueba de permutación de jbowban para mis estudios porque creo que lo entiendo mejor y sus limitaciones, pero el método delta definitivamente se parece a algo que necesito estudiar y resolver.

Sami Liedes

@stask, ¿podría hacerse esto aquí? stats.stackexchange.com/questions/398436/…

Xavier Bourret Sicotte

Xavier, creo que @ usεr11852 dio una buena respuesta. No me molestaré en agregar a eso.

StasK

@StasK: ¿bajo qué condiciones son válidas las condiciones que usted establece en su respuesta? ¿La convergencia de la estadística de razón está garantizada por el supuesto anterior y el método Delta?

Xavier Bourret Sicotte

Son asintóticos ... nada está garantizado, y los límites de error son difíciles de conseguir. Todo el método delta (o cualquier otro resultado de convergencia débil) dice que a medida que aumenta el tamaño de la muestra, la diferencia entre la distribución de muestra finita real de la distribución asintótica se hará más pequeña. Eso puede significar que a medida que aumenta el tamaño de la muestra de 1000 a 10000, la diferencia vertical entre los cdfs bajaría de 0.2 a 0.1, y este último aún es inaceptable para fines prácticos. O puede significar que la diferencia va de 0.01 a 0.001.

StasK

0

La relación de las variables normales se distribuye Cauchy. Sabiendo eso, simplemente puede realizar una prueba de factor de Bayes.

Esta fue una idea bastante espontánea. Ahora no estoy seguro sobre el mecanismo de generación de datos. ¿Instala diferentes sistemas de archivos en la misma PC y luego compara los dos casos, para que podamos asumir una estructura de datos jerárquica?

Además, no estoy seguro de que buscar proporciones tenga sentido.

Y luego escribiste la razón de los valores esperados, mientras que pensé en el valor esperado de las razones. Supongo que necesito más información sobre la generación de datos antes de continuar.

articulación_p
fuente

1

La proporción de normales es solo de Cauchy si (a) son independientes y (b) tienen la misma varianza.

cardenal

Xi'an tuvo el mismo pensamiento, supongo ...

joint_p

1

No está claro (para mí, al menos) que exista tal estructura de independencia o que tengan una media cero. Quizás, si puede ampliar su respuesta, ayudará a aclarar el enfoque que sugiere. :)

cardenal

1

@cardinal: pensé que era una relación de normales independientes con una media cero era cauchy con una mediana cero y un parámetro de escala igual a la relación de las desviaciones estándar normales. Si tienen una media distinta de cero, entonces no es cauchy.

probabilityislogic

@prob: (+1) ¡Tienes razón! Gracias por atrapar eso. Dejé caer el "estándar" y el "cero" en mi primer comentario (el último logró llegar al segundo).

cardenal

0

En casos en los que no puede realizar permutaciones, por ejemplo, cuando el tamaño de la muestra crea millones de posibilidades, otra solución sería el muestreo de Monte Carlo.

$ext4$ $xfs$ $nocrypto$ $crypto$ $\frac{ext4}{xfs}$ $nocrypto$ $crypto$

$H_{0}:T_{observed}=\frac{\sum x_{nocrypto} }{n_{nocrypto}}-\frac{\sum x_{crypto} }{n_{crypto}}=0$

$x=\frac{ext4}{xfs}$

$n=sample\, size$

$H_{0}$ $nocrypto$ $crypto$ $T_{observed}=0$

$T_{resampling}=\frac{x_{1}^{random}{+ x}_{n}^{random}}{n_{nocrypto}}-\frac{x_{1}^{random}{+ x}_{n}^{random}}{n_{crypto}}$

$T_{resampling}$ $H_{0}$ $nocrypto$ $crypto$ $T_{observed}$ $(p < 0.05)$ $T_{resampling}$

usuario1979481
fuente

Pruebe la diferencia significativa en las proporciones de variables aleatorias distribuidas normalmente

Respuestas: