¿Relacionado con el análisis de razones de variables y cómo parametrizar la razón de dos variables distribuidas normalmente, o la inversa de una? .
Supongamos que tengo varias muestras de cuatro distribuciones aleatorias continuas diferentes, todas las cuales podemos suponer que son más o menos normales. En mi caso, corresponden a algunas métricas de rendimiento de dos sistemas de archivos diferentes (por ejemplo, ext4 y XFS), con y sin cifrado. La métrica puede ser, por ejemplo, el número de archivos creados por segundo, o la latencia promedio para alguna operación de archivo. Podemos suponer que todas las muestras extraídas de estas distribuciones siempre serán estrictamente positivas. Llamemos a estas distribuciones donde f s t y e n c r y p t i o n ∈ { c r y p t o , n o c r y p t o } .
Ahora, mi hipótesis es que el cifrado ralentiza uno de los sistemas de archivos en un factor mayor que el otro. ¿Hay alguna prueba simple para la hipótesis ?
Respuestas:
Una alternativa a la buena respuesta de StasK es usar una prueba de permutación. El primer paso es definir una estadística de prueba , tal vez:T
donde es, quizás, la media muestral de las observaciones de Perf e x t 4 , c r y p t o , etc. (Esto se ajusta a su definición de la hipótesis como la razón de las expectativas en lugar de la posibilidad alternativa de la expectativa de la razón, qué alternativa puede ser lo que realmente desea). El segundo paso es permutar aleatoriamente las etiquetas e x t 4 , x fPAGe r fˆe x t 4 , c r yp t o Perfe x t 4 , c r yp t o en los datos muchas veces, digamos, i = 1 , ... , 10000 y calcule T i para cada permutación. El paso final es comparar su T originalcon la T i observada; el valor p de permutación-estimado sería la fracción de la T i ≤ T . ext4, xfs i=1,…,10000 Ti T Ti Ti≤T
La prueba de permutación lo libera de la dependencia de los asintóticos, pero, por supuesto, dependiendo del tamaño de su muestra (y también de los datos, por supuesto), el método delta, que también uso ocasionalmente, puede funcionar bien.
fuente
Puede calcular el error estándar (asintótico) de la relación utilizando el método delta . Si tiene dos variables aleatorias e Y de modo que √X Y
Espero que pueda tomarlo desde allí y realizar los cálculos restantes del sobre para obtener la fórmula final.
fuente
La relación de las variables normales se distribuye Cauchy. Sabiendo eso, simplemente puede realizar una prueba de factor de Bayes.
Esta fue una idea bastante espontánea. Ahora no estoy seguro sobre el mecanismo de generación de datos. ¿Instala diferentes sistemas de archivos en la misma PC y luego compara los dos casos, para que podamos asumir una estructura de datos jerárquica?
Además, no estoy seguro de que buscar proporciones tenga sentido.
Y luego escribiste la razón de los valores esperados, mientras que pensé en el valor esperado de las razones. Supongo que necesito más información sobre la generación de datos antes de continuar.
fuente
En casos en los que no puede realizar permutaciones, por ejemplo, cuando el tamaño de la muestra crea millones de posibilidades, otra solución sería el muestreo de Monte Carlo.
fuente