Estoy evaluando la efectividad de 5 métodos diferentes para predecir un resultado binario particular (llámelos 'Éxito' y 'Fracaso'). Los datos se ven así:
Method Sample_Size Success Percent_Success
1 28 4 0.14
2 19 4 0.21
3 24 7 0.29
4 21 13 0.61
5 22 9 0.40
Me gustaría realizar una prueba entre estos 5 métodos para evaluar la superioridad relativa de los métodos. En otras palabras, quiero ordenar los métodos en orden de rendimiento como método 1> método 2> ... método 5. Para evitar el problema de las comparaciones múltiples, planeo hacer una prueba de permutación en las siguientes líneas:
Paso 1: agrupe todos los datos para que el tamaño de la muestra general sea 114 con 37 éxitos generales.
Paso 2: Divida aleatoriamente los datos en 5 grupos con los tamaños de muestra correspondientes de 28, 19, 24, 21 y 22.
Paso 3: Incremente un contador si el orden observado de Percent_Success del paso 2 es consistente con el orden de mis datos.
Paso 4: Repita los pasos 2 y 3 muchas veces (digamos 10000).
Valor p deseado = Valor de contador final / 10000.
Preguntas:
¿Está bien el procedimiento anterior?
¿Hay algo en R que me permita realizar la prueba anterior?
Cualquier sugerencia de mejora o métodos alternativos sería útil.
Respuestas:
El procedimiento propuesto no responde a su pregunta. Solo estima la frecuencia, bajo la hipótesis nula, con la cual ocurriría su orden observado. Pero bajo ese nulo, para una buena aproximación, ¡todas las órdenes son igualmente probables, de donde su cálculo producirá un valor cercano a 1/5! = aproximadamente 0,83%. Eso no nos dice nada.
Una observación más obvia: el orden, basado en sus datos, es 4> 5> 3> 2> 1. Sus estimaciones de sus superioridades relativas son 0.61 - 0.40 = 21%, 0.40 - 0.21 = 11%, etc.
Ahora, suponga que su pregunta se refiere a la medida en que cualquiera de las diferencias en proporciones podría deberse al azar bajo la hipótesis nula de no diferencia. De hecho, puede evaluar estas diez preguntas con una prueba de permutación. Sin embargo, en cada iteración necesita rastrear diez indicadores de diferencia relativa en proporción, no un indicador global del orden total.(52)=10
Para sus datos, una simulación con 100,000 iteraciones da los resultados.
Es poco probable que las diferencias en las proporciones entre el método 4 y los métodos 1, 2 y 3 se deban al azar (con probabilidades estimadas de 0.03%, 0.37%, 0.88%, respectivamente), pero las otras diferencias podrían serlo. Existe alguna evidencia (p = 2.44%) de una diferencia entre los métodos 1 y 5. Por lo tanto, parece que puede confiar en que las diferencias en las proporciones involucradas en las relaciones 4> 3, 4> 2 y 4> 1 son todas positivas , y lo más probable es que sea la diferencia en 5> 1.
fuente
Su procedimiento de prueba de permutación Monte-Carlo sugerido producirá un valor p para una prueba de la hipótesis nula de que la probabilidad de éxito es la misma para todos los métodos. Pero hay pocas razones para hacer una prueba de permutación de Monte Carlo aquí cuando la prueba de permutación exacta correspondiente es perfectamente factible. Esa es la prueba exacta de Fisher (bueno, algunas personas reservan ese nombre para tablas de 2x2, en cuyo caso es una prueba exacta condicional). Acabo de escribir sus datos en Stata y -tabi ..., exacto- dio p = .0067 (en comparación, la prueba de chi cuadrado de Pearson da p = .0059). Estoy seguro de que hay una función equivalente en R que los gurús de R pronto agregarán.
Si realmente desea ver la clasificación, puede ser mejor utilizando un enfoque bayesiano, ya que puede dar una interpretación simple como la probabilidad de que cada método sea realmente el mejor, el segundo mejor, el tercer mejor ... Eso tiene el precio de exigirle que ponga prioridades en sus probabilidades, por supuesto. La estimación de máxima probabilidad de los rangos es simplemente el orden observado, pero es difícil cuantificar la incertidumbre en la clasificación en un marco frecuentista de una manera que pueda interpretarse fácilmente, hasta donde yo sé.
Me doy cuenta de que no he mencionado comparaciones múltiples, pero simplemente no veo cómo eso llega a esto.
fuente