¿Hay algún ejemplo en el que dos pruebas defendibles diferentes con probabilidades proporcionales conducirían a inferencias marcadamente diferentes (e igualmente defendibles), por ejemplo, donde los valores p son orden de magnitud muy separados, pero el poder de las alternativas es similar?
Todos los ejemplos que veo son muy tontos, comparando un binomio con un binomio negativo, donde el valor p del primero es del 7% y del segundo 3%, que son "diferentes" solo en la medida en que uno toma decisiones binarias en umbrales arbitrarios de importancia como el 5% (que, por cierto, es un estándar bastante bajo para la inferencia) y ni siquiera se molestan en mirar el poder. Si cambio el umbral del 1%, por ejemplo, ambos conducen a la misma conclusión.
Nunca he visto un ejemplo en el que conduciría a inferencias marcadamente diferentes y defendibles . ¿Existe tal ejemplo?
Lo pregunto porque he visto tanta tinta gastada en este tema, como si el Principio de Probabilidad fuera algo fundamental en los fundamentos de la inferencia estadística. Pero si el mejor ejemplo que uno tiene son ejemplos tontos como el anterior, el principio parece completamente intrascendente.
Por lo tanto, estoy buscando un ejemplo muy convincente, donde si uno no sigue el LP, el peso de la evidencia apuntaría abrumadoramente en una dirección dada una prueba, pero, en una prueba diferente con probabilidad proporcional, el peso de la evidencia sería apunten abrumadoramente en una dirección opuesta, y ambas conclusiones parecen sensatas.
Idealmente, uno podría demostrar que podemos tener respuestas arbitrariamente separadas, pero sensibles, como pruebas con versus con probabilidades proporcionales y potencia equivalente para detectar la misma alternativa.
PD: La respuesta de Bruce no aborda la pregunta en absoluto.
fuente
Respuestas:
Piense en una situación hipotética cuando una hipótesis de punto nulo es verdadera pero uno sigue muestreando hasta (esto siempre sucederá tarde o temprano, es decir, sucederá con probabilidad 1) y luego decide detener la prueba y rechazar el nulo. Esta es una regla de detención extremadamente extrema, pero considérela por el argumento.p<0.05
Este procedimiento imbécil tendrá una tasa de error de Tipo I del 100%, pero no tiene nada de malo según el Principio de Probabilidad.
Yo diría que esto cuenta como "realmente" importante. Por supuesto, puede elegir cualquier en este argumento. Los bayesianos pueden usar un límite fijo en el factor Bayes si así lo desean. Se aplica la misma lógica. La lección principal aquí es que no puede adherirse a LP y tener una garantía de tasa de error. No hay almuerzo gratis.α
fuente
Descargo de responsabilidad: creo que esta respuesta está en el centro de todo el argumento, por lo que vale la pena discutirlo, pero no he explorado completamente el problema. Como tal, agradezco las correcciones, mejoras y comentarios.
El aspecto más importante se refiere a los datos recopilados secuencialmente. Por ejemplo, suponga que observó resultados binarios y vio 10 éxitos y 5 fracasos. El principio de probabilidad dice que debe llegar a la misma conclusión sobre la probabilidad de éxito, independientemente de si recopiló datos hasta que tuvo 10 éxitos (binomio negativo) o ejecutó 15 ensayos, de los cuales 10 fueron éxitos (binomio) .
¿Por qué es esto de alguna importancia?
Porque de acuerdo con el principio de probabilidad (o al menos, una cierta interpretación de la misma), está totalmente bien dejar que los datos influyan cuando vas a dejar de recopilar datos, sin tener que alterar tus herramientas de inferencia.
Conflicto con métodos secuenciales
La idea de que usar sus datos para decidir cuándo dejar de recopilar datos sin alterar sus herramientas inferenciales va completamente en contra de los métodos tradicionales de análisis secuencial. El ejemplo clásico de esto es con los métodos utilizados en ensayos clínicos. Para reducir la exposición potencial a tratamientos nocivos, los datos a menudo se analizan en momentos intermedios antes de que se realice el análisis. Si el ensayo aún no ha terminado, pero los investigadores ya tienen suficientes datos para concluir que el tratamiento funciona o es dañino, la ética médica nos dice que debemos detener el ensayo; Si el tratamiento funciona, es ético detener el ensayo y comenzar a poner el tratamiento a disposición de los pacientes que no están en el ensayo. Si es perjudicial, es más ético detenerse para que dejemos de exponer a los pacientes de prueba a un tratamiento perjudicial.
El problema ahora es que hemos comenzado a hacer comparaciones múltiples, por lo que hemos aumentado nuestra tasa de error Tipo I si no ajustamos nuestros métodos para tener en cuenta las comparaciones múltiples. Esto no es lo mismo que los problemas tradicionales de comparaciones múltiples, ya que en realidad son comparaciones parciales múltiples (es decir, si analizamos los datos una vez con el 50% de los datos recopilados y una vez con el 100%, ¡estas dos muestras claramente no son independientes!) , pero en general, mientras más comparaciones hagamos, más necesitamos cambiar nuestros criterios para rechazar la hipótesis nula para preservar la tasa de error de tipo I, con más comparaciones planificadas que requieren más evidencia para rechazar el nulo.
Esto pone a los investigadores clínicos en un dilema; ¿Desea verificar sus datos con frecuencia, pero luego aumentar la evidencia requerida para rechazar la anulación, o desea verificar sus datos con poca frecuencia, aumentando su poder pero potencialmente no actuando de manera óptima con respecto a la ética médica (es decir, puede retrasar la comercialización del producto o exponer a los pacientes innecesariamente a tratamientos nocivos).
Tengo entendido (tal vez equivocado) que el principio de probabilidad parece decirnos que no importa cuántas veces verifiquemos los datos, debemos hacer la misma inferencia. Esto básicamente dice que todos los enfoques para el diseño de prueba secuencial son completamente innecesarios; solo use el principio de probabilidad y deténgase una vez que haya recopilado suficientes datos para llegar a una conclusión. Dado que no necesita alterar sus métodos de inferencia para ajustar la cantidad de análisis que ha preparado, no existe un dilema de compensación entre la cantidad de veces que se verifica y la potencia. Bam, todo el campo de análisis secuencial está resuelto (de acuerdo con esta interpretación).
Personalmente, lo que es muy confuso para mí es que un hecho bien conocido en el campo del diseño secuencial, pero bastante sutil, es que la regla de detención altera en gran medida la probabilidad del estadístico de prueba final ; básicamente, las reglas de detención aumentan la probabilidad de manera discontinua en los puntos de detención. Aquí hay una trama de tal distorsión; la línea discontinua es el PDF del estadístico de prueba final debajo del valor nulo si los datos solo se analizan después de que se recopilan todos los datos, mientras que la línea continua le da la distribución debajo del nulo del estadístico de prueba si verifica los datos 4 veces con un determinado regla.
Dicho esto, entiendo que el principio de probabilidad parece implicar que podemos tirar todo lo que sabemos sobre el diseño secuencial frequentista y olvidar cuántas veces analizamos nuestros datos. Claramente, las implicaciones de esto, especialmente para el campo de los diseños clínicos, son enormes. Sin embargo, no he pensado cómo justifican ignorar cómo las reglas de detención alteran la probabilidad de la estadística final.
Aquí se puede encontrar una discusión ligera , principalmente en las diapositivas finales.
fuente
Esquema de las pruebas LR para datos exponenciales.
Sea una muestra aleatoria de modo que Para la función de densidad es y el CDF esX1,X2,…,Xn Exp(rate=λ), E(Xi)=μ=1/λ. x>0, f(x)=λe−λx F(x)=1−e−λx.
1. La estadística de prueba es un mínimo de muestra.
DejeEntonces Como resumen de la prueba, modo que paraV=X(1)=minn(Xi). V∼Exp(nλ). P(V>v)=P(X1>v,…,Xn>v)=[e−λv]n=e−nλv, P(V≤v)=1−e−nλv, v>0.
Para probar contra en el nivel consideramos como una observación única de su distribución exponencial. Encontramos que la razón de probabilidad logarítmica indica rechazo cuando dondeH9:μ≤μ0 Ha:μ>μ0, α=5%, V V>c, P(V>c|μ=μ0)=0.05.
Para el caso específico en el que y tenemos una tasa exponencial modo que desde R, donde el exponencial La distribución está parametrizada por la tasa.n=100 μ0=10,λ0=0.1, 10=n/μ0=100/10=10, c=0.2295
En consecuencia, el poder contra la alternativa (tasa es aproximadamente del 74%.μa=100 n/μa=1)
2. La estadística de prueba es la media muestral.
Las notas de clase U de Oxford (segunda página) muestran que la prueba de razón de probabilidad de contra en el nivel de significancia del 5% rechaza para donde Además, uno puede mostrar usando funciones generadoras de momentos queH0:μ≤μ0 H0:μ>μ0 X¯>c, P(X¯>c|μ=μ0)=0.5. X¯∼Gamma(n,nλ).
Para el caso específico en el que y tenemos modo quen=100 μ0=10,λ0=0.1, X¯∼Gamma(100,10), c=11.7.
En consecuencia, el poder contra la alternativa es aproximadamente del 95,6%.μa=14
Claramente, para propósitos de probar hipótesis sobre la media exponencial la información en el estadístico suficiente es mucho mayor que la información en el mínimo de la muestra.μ, X¯
fuente
Violación por diferentes funciones de pdf yf(x,θ) g(x,θ)
Este caso será un ejemplo de 'violación' porque las funciones de distribución de probabilidad son intrínsecamente diferentes. Incluso cuando y , difieren, pueden relacionarse con el principio de verosimilitud porque en fijo de medición se dan las mismas funciones de hasta de escala. La diferencia, abre una posibilidad de "violaciones".f(x,θ) g(x,θ) f g x θf g x θ
El lanzamiento de la moneda con o sin regla de detención opcional
El lanzamiento de la moneda con o sin una regla de detención opcional es un ejemplo típico, el pdf es binomial o binomial negativo, que son diferentes funciones de pdf y conducen a diferentes cálculos de valores p e intervalos de confianza, pero conducen a las mismas funciones de probabilidad para fijos muestra / medida (hasta escala).
Ejemplo más extremo
Considere alguna medida de que se distribuye comoX
donde es un parámetro conocido que depende del tipo de experimento, y es un parámetro que puede ser desconocido y podría inferirse de la medición .a θ x
Para cualquier dadas y función de la probabilidad es proporcional a la misma función que es independiente de :x a a
Pero, aunque la misma función de probabilidad, el valor p puede variar ampliamente dependiendo del experimento (es decir, el valor de ). Por ejemplo, cuando mide y prueba contra entonces el valor p esa x=2 H0:θ=1 H0:θ<1
Intuición: la razón de la violación en estos casos es que los valores de p y las pruebas de hipótesis no se basan únicamente en la función de probabilidad para el valor observado particular .x
El valor p no se calcula a partir de la probabilidad con fijo, sino con el pdf con fijo, que es un segmento diferente. Los intervalos de confianza, el valor p y las pruebas de hipótesis son cosas diferentes a la información de las razones de probabilidad.f(θ|x) x f(x|θ) θ
Los valores p no son realmente evidencia: el valor p se relaciona con el error de tipo I, que es una medida que se relaciona con un conjunto de mediciones en lugar de con una sola medición. Este error tipo I o valor p no es lo mismo que el 'significado probatorio' de los fundamentos de evidencia estadística de Birnbaums. Esto se relaciona mucho con los problemas con los valores p y los científicos que buscan resultados únicamente con significación estadística en lugar de efectos importantes.
¿Necesitamos ejemplos en los que las inferencias sean marcadamente diferentes? El caso extremo es un ejemplo artificial. Tal caso, o cualquier cosa con una diferencia extrema similar, por supuesto no ocurre fácilmente en la práctica. Es más frecuente que la diferencia sea pequeña, como en los casos a los que se refiere como tontos.
Pedir ejemplos donde el principio de probabilidad 'realmente importa', o donde dos inferencias diferentes conducen a resultados extremadamente diferentes, es una pregunta un poco cargada . Al menos cuando la intención de esta pregunta se relaciona con algún argumento filosófico. Es una pregunta cargada porque presupone que los principios importantes deberían conducir a resultados extremadamente variables. Sin embargo, en muchos casos prácticos los resultados son pequeños (en términos de diferentes valores de p menores que un orden). Creo que esto no es extraño para dos métodos diferentes, pero ambos plausibles, para obtener resultados más o menos similares. Consideraría que el principio de probabilidad no es 'menos violado' cuando las diferencias son solo pequeñas.
fuente
Aquí hay un ejemplo adaptado de la teoría de decisión estadística y el análisis bayesiano de James O. Berger (Segunda edición, página 29).
Digamos que dos especies de avispas se pueden distinguir por el número de muescas en las alas (llame a esto ) y por el número de anillos negros alrededor del abdomen (llame a esto ). La distribución de los caracteres en las dos especies (etiquetadas y ) es la siguiente:x y H0 H1
Digamos que encontramos un espécimen con 1 muesca en las alas y 1 anillo alrededor del abdomen. El peso de la evidencia es 100 veces mayor a favor de contra para ambos personajes.H1 H0
Ahora, si alguien quisiera configurar una prueba para a un nivel de 5%, la regla de decisión sería para el primer carácter "aceptar si hay 1 muesca en el ala, de lo contrario rechazarlo", y para el segundo carácter "aceptar si hay 3 anillos alrededor del abdomen, de lo contrario rechazarlo ". Hay muchas otras posibilidades, pero estas son las pruebas más poderosas a este nivel. Sin embargo, conducen a conclusiones diferentes para ambos personajes.H0 H0 H0
Nota : por supuesto, se podría configurar una prueba con la regla "aceptar si hay 1 o 3 anillos alrededor del abdomen, de lo contrario rechazarlo". La pregunta es si preferimos una prueba al nivel del 5% con riesgo de tipo II 0, o una prueba al nivel del 4.9% con riesgo de tipo II 0.00001. La diferencia es tan pequeña que probablemente no nos importaría, pero, según tengo entendido, este es el núcleo del argumento del principio de probabilidad: no es una buena idea hacer que el resultado dependa de algo que parece irrelevante.H0
Las funciones de probabilidad son proporcionales y, sin embargo, el valor p de es 0.95, y el de es 0.001 (suponiendo que rechacemos con eventos de la forma ). Es obvio por la estructura de la tabla que podría haber elegido cualquier número menor que 0.001. Además, el riesgo de rechazo de tipo II es 0, por lo que parece que no hay nada "incorrecto" aquí.x=1 y=1 H0 y≤α
Aún así, admito que este ejemplo es un tanto artificial y no completamente honesto porque juega con la dificultad de organizar pruebas con datos discretos. Se podrían encontrar ejemplos equivalentes con datos continuos, pero serían aún más artificiales. Estoy de acuerdo con el OP en que el principio de probabilidad casi no tiene valor práctico; Lo interpreto como un principio para garantizar cierta coherencia dentro de la teoría.
fuente