¿Un ejemplo donde el principio de probabilidad * realmente * importa?

20

¿Hay algún ejemplo en el que dos pruebas defendibles diferentes con probabilidades proporcionales conducirían a inferencias marcadamente diferentes (e igualmente defendibles), por ejemplo, donde los valores p son orden de magnitud muy separados, pero el poder de las alternativas es similar?

Todos los ejemplos que veo son muy tontos, comparando un binomio con un binomio negativo, donde el valor p del primero es del 7% y del segundo 3%, que son "diferentes" solo en la medida en que uno toma decisiones binarias en umbrales arbitrarios de importancia como el 5% (que, por cierto, es un estándar bastante bajo para la inferencia) y ni siquiera se molestan en mirar el poder. Si cambio el umbral del 1%, por ejemplo, ambos conducen a la misma conclusión.

Nunca he visto un ejemplo en el que conduciría a inferencias marcadamente diferentes y defendibles . ¿Existe tal ejemplo?

Lo pregunto porque he visto tanta tinta gastada en este tema, como si el Principio de Probabilidad fuera algo fundamental en los fundamentos de la inferencia estadística. Pero si el mejor ejemplo que uno tiene son ejemplos tontos como el anterior, el principio parece completamente intrascendente.

Por lo tanto, estoy buscando un ejemplo muy convincente, donde si uno no sigue el LP, el peso de la evidencia apuntaría abrumadoramente en una dirección dada una prueba, pero, en una prueba diferente con probabilidad proporcional, el peso de la evidencia sería apunten abrumadoramente en una dirección opuesta, y ambas conclusiones parecen sensatas.

Idealmente, uno podría demostrar que podemos tener respuestas arbitrariamente separadas, pero sensibles, como pruebas con versus con probabilidades proporcionales y potencia equivalente para detectar la misma alternativa.p=0.1p=1010

PD: La respuesta de Bruce no aborda la pregunta en absoluto.

statslearner2
fuente
55
Al realizar pruebas de significación, siempre se puede cambiar la decisión cambiando el umbral. ¿Podría, por lo tanto, explicar qué quiere decir con "marcadamente", "tonto" u "convincente"? Por cierto, parece que estás leyendo el artículo de Wikipedia .
whuber
2
Bienvenido a CV, @statslearner. ¿Puede dar un ejemplo de uno o más enfoques específicos de inferencia que no utilicen el principio de probabilidad que le gustaría ver contrastado?
Alexis
1
@whuber idealmente, me gustaría ver que puede construir respuestas arbitrariamente diferentes, como, por ejemplo, si desea usar valores p, algo así como versus , y ambos cálculos aún parecerían defendibles. p = 10 - 5p=0.5p=105
statslearner2
3
No puedo seguir ese comentario porque no tiene sentido. De todos modos, ¿ha considerado simplemente cambiar los números dados en el ejemplo de Wikipedia? p=105
whuber
66
La diferencia significativa con las implicaciones prácticas es el procesamiento de reglas de detención: bajo el LP no importan, fuera del LP que sí importan. Verifique Berger y Wolpert (1987) para más detalles.
Xi'an el

Respuestas:

7

Piense en una situación hipotética cuando una hipótesis de punto nulo es verdadera pero uno sigue muestreando hasta (esto siempre sucederá tarde o temprano, es decir, sucederá con probabilidad 1) y luego decide detener la prueba y rechazar el nulo. Esta es una regla de detención extremadamente extrema, pero considérela por el argumento.p<0.05

Este procedimiento imbécil tendrá una tasa de error de Tipo I del 100%, pero no tiene nada de malo según el Principio de Probabilidad.

Yo diría que esto cuenta como "realmente" importante. Por supuesto, puede elegir cualquier en este argumento. Los bayesianos pueden usar un límite fijo en el factor Bayes si así lo desean. Se aplica la misma lógica. La lección principal aquí es que no puede adherirse a LP y tener una garantía de tasa de error. No hay almuerzo gratis.α

ameba dice Reinstate Monica
fuente
44
Estaba pensando en este ejemplo también. Pero no lo mencioné porque de hecho es tonto. Pero en realidad, es lo que sucede en la práctica de manera indirecta e informal.
Sextus Empiricus
1
¿Cuáles son las 2 estadísticas y su probabilidad en su ejemplo? En el neg. caso binomial vs binomial tenemos: 1) estadística 1, número de ensayos hasta 3 cabezas, probabilidad neg binomial; 2) estadísticas 2, número de jefes en n juicios, semejanza binomail. En su ejemplo, no veo cuáles son las dos estadísticas y si tienen probabilidades proporcionales.
statslearner2
1
En su ejemplo, probablemente sería "número de ensayos hasta p <0.05", lo cual no dudo que sea proporcional al binomio, por lo que no estoy seguro de que su ejemplo sea válido, Amoeba.
statslearner2
1
No creo que el principio de probabilidad diga "no tiene nada de malo". El principio de probabilidad filtra los malos procedimientos. El hecho de que el procedimiento no obedezca el principio de probabilidad no es lo mismo que lo respalda el principio de probabilidad. Un análisis bayesiano de este problema de prueba secuencial, que por supuesto obedece al principio de probabilidad, tiene propiedades perfectamente finas, ya que no implementará el procedimiento "imbécil" que usted describe.
chico
3
@amoeba considere bajo la alternativa o bajo nulo, con . Es fácil mostrar que el log del factor Bayes es aproximadamente donde es la estadística de prueba habitual . Rechazar cuando el factor Bayes es mayor que es equivalente a rechazar cuando . Bajo nulo, no se garantiza que esto suceda en la configuración de prueba secuencial (cf la ley del logaritmo iterado); por lo tanto, el procedimiento bayesiano no será víctima del problema que describió. θ = 0 Y iN ( θ , 1 ) 1θN(0,τ1)θ=0YiN(θ,1)Z n Z 1 | Z n | > O ( 12[log(τ/n)+Zn2]ZnZ1|Zn|>O(logn)
chico
4

Descargo de responsabilidad: creo que esta respuesta está en el centro de todo el argumento, por lo que vale la pena discutirlo, pero no he explorado completamente el problema. Como tal, agradezco las correcciones, mejoras y comentarios.

El aspecto más importante se refiere a los datos recopilados secuencialmente. Por ejemplo, suponga que observó resultados binarios y vio 10 éxitos y 5 fracasos. El principio de probabilidad dice que debe llegar a la misma conclusión sobre la probabilidad de éxito, independientemente de si recopiló datos hasta que tuvo 10 éxitos (binomio negativo) o ejecutó 15 ensayos, de los cuales 10 fueron éxitos (binomio) .

¿Por qué es esto de alguna importancia?

Porque de acuerdo con el principio de probabilidad (o al menos, una cierta interpretación de la misma), está totalmente bien dejar que los datos influyan cuando vas a dejar de recopilar datos, sin tener que alterar tus herramientas de inferencia.

Conflicto con métodos secuenciales

La idea de que usar sus datos para decidir cuándo dejar de recopilar datos sin alterar sus herramientas inferenciales va completamente en contra de los métodos tradicionales de análisis secuencial. El ejemplo clásico de esto es con los métodos utilizados en ensayos clínicos. Para reducir la exposición potencial a tratamientos nocivos, los datos a menudo se analizan en momentos intermedios antes de que se realice el análisis. Si el ensayo aún no ha terminado, pero los investigadores ya tienen suficientes datos para concluir que el tratamiento funciona o es dañino, la ética médica nos dice que debemos detener el ensayo; Si el tratamiento funciona, es ético detener el ensayo y comenzar a poner el tratamiento a disposición de los pacientes que no están en el ensayo. Si es perjudicial, es más ético detenerse para que dejemos de exponer a los pacientes de prueba a un tratamiento perjudicial.

El problema ahora es que hemos comenzado a hacer comparaciones múltiples, por lo que hemos aumentado nuestra tasa de error Tipo I si no ajustamos nuestros métodos para tener en cuenta las comparaciones múltiples. Esto no es lo mismo que los problemas tradicionales de comparaciones múltiples, ya que en realidad son comparaciones parciales múltiples (es decir, si analizamos los datos una vez con el 50% de los datos recopilados y una vez con el 100%, ¡estas dos muestras claramente no son independientes!) , pero en general, mientras más comparaciones hagamos, más necesitamos cambiar nuestros criterios para rechazar la hipótesis nula para preservar la tasa de error de tipo I, con más comparaciones planificadas que requieren más evidencia para rechazar el nulo.

Esto pone a los investigadores clínicos en un dilema; ¿Desea verificar sus datos con frecuencia, pero luego aumentar la evidencia requerida para rechazar la anulación, o desea verificar sus datos con poca frecuencia, aumentando su poder pero potencialmente no actuando de manera óptima con respecto a la ética médica (es decir, puede retrasar la comercialización del producto o exponer a los pacientes innecesariamente a tratamientos nocivos).

Tengo entendido (tal vez equivocado) que el principio de probabilidad parece decirnos que no importa cuántas veces verifiquemos los datos, debemos hacer la misma inferencia. Esto básicamente dice que todos los enfoques para el diseño de prueba secuencial son completamente innecesarios; solo use el principio de probabilidad y deténgase una vez que haya recopilado suficientes datos para llegar a una conclusión. Dado que no necesita alterar sus métodos de inferencia para ajustar la cantidad de análisis que ha preparado, no existe un dilema de compensación entre la cantidad de veces que se verifica y la potencia. Bam, todo el campo de análisis secuencial está resuelto (de acuerdo con esta interpretación).

Personalmente, lo que es muy confuso para mí es que un hecho bien conocido en el campo del diseño secuencial, pero bastante sutil, es que la regla de detención altera en gran medida la probabilidad del estadístico de prueba final ; básicamente, las reglas de detención aumentan la probabilidad de manera discontinua en los puntos de detención. Aquí hay una trama de tal distorsión; la línea discontinua es el PDF del estadístico de prueba final debajo del valor nulo si los datos solo se analizan después de que se recopilan todos los datos, mientras que la línea continua le da la distribución debajo del nulo del estadístico de prueba si verifica los datos 4 veces con un determinado regla.

Dicho esto, entiendo que el principio de probabilidad parece implicar que podemos tirar todo lo que sabemos sobre el diseño secuencial frequentista y olvidar cuántas veces analizamos nuestros datos. Claramente, las implicaciones de esto, especialmente para el campo de los diseños clínicos, son enormes. Sin embargo, no he pensado cómo justifican ignorar cómo las reglas de detención alteran la probabilidad de la estadística final.

Aquí se puede encontrar una discusión ligera , principalmente en las diapositivas finales.

Acantilado
fuente
2
+1. Conceptualmente me resulta más fácil pensar en una situación hipotética cuando la hipótesis nula es cierta, pero uno sigue muestreando hasta (este muro siempre ocurre tarde o temprano, es decir, sucederá con probabilidad 1) y luego decide detener el ensayo. Este procedimiento imbécil tendrá una tasa de error de Tipo I del 100%, aunque cumpla con el LP. p<0.05
ameba dice Reinstate Monica
@amoeba: Estoy de acuerdo en que su ejemplo es bastante sencillo (+1). El objetivo de mi respuesta es enfatizar por qué hay incluso una discusión. Creo que la respuesta es que si las implicaciones e interpretaciones del LP fueran correctas, significaría que los ensayos clínicos ya no tendrían que elegir entre la potencia máxima y la exposición innecesaria, lo que sería una ganancia absolutamente enorme. En general, también liberaría a los investigadores de la necesidad de adivinar el tamaño adecuado de la muestra por adelantado, lo que mejoraría en gran medida la utilidad de las pruebas estadísticas.
Cliff AB
Bueno, creo que todo el marco de las pruebas frecuentes es inconsistente con el LP, y así es como es. Uno usa pruebas frecuentes si quiere una garantía sobre las tasas de error. Resulta que esto es inconsistente con LP. Ver también la paradoja de Lindley y todo eso. Bueno, duro Solía ​​estar entusiasmado con estos asuntos, pero ahora ya no lo estoy. No hay almuerzo gratis; uno tiene que tomar algunas decisiones. Tenga en cuenta que muchos procedimientos bayesianos también violan LP .
ameba dice Reinstate Monica
"la probabilidad de la estadística de prueba final se ve alterada en gran medida por la regla de detención". El pdf se modifica y también la probabilidad (pero solo por una constante), pero aún puede terminar con funciones de probabilidad que son las mismas hasta un constante de proporcionalidad. Por ejemplo, la distribución binomial y la distribución binomial negativa para éxitos y ensayos tienen una probabilidad que es proporcional an L ( p | n , k ) p k p nknL(p|n,k)pkpnk
Sextus Empiricus
3

Esquema de las pruebas LR para datos exponenciales.

Sea una muestra aleatoria de modo que Para la función de densidad es y el CDF esX1,X2,,XnExp(rate=λ),E(Xi)=μ=1/λ.x>0,f(x)=λeλxF(x)=1eλx.

1. La estadística de prueba es un mínimo de muestra.

DejeEntonces Como resumen de la prueba, modo que paraV=X(1)=minn(Xi).VExp(nλ).

P(V>v)=P(X1>v,,Xn>v)=[eλv]n=enλv,
P(Vv)=1enλv,v>0.

Para probar contra en el nivel consideramos como una observación única de su distribución exponencial. Encontramos que la razón de probabilidad logarítmica indica rechazo cuando donde H9:μμ0Ha:μ>μ0,α=5%,VV>c,P(V>c|μ=μ0)=0.05.

Para el caso específico en el que y tenemos una tasa exponencial modo que desde R, donde el exponencial La distribución está parametrizada por la tasa.n=100μ0=10,λ0=0.1,10=n/μ0=100/10=10,c=0.2295

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

En consecuencia, el poder contra la alternativa (tasa es aproximadamente del 74%.μa=100n/μa=1)

1 - pexp(0.2996, 1)
[1] 0.7411146

2. La estadística de prueba es la media muestral.

Las notas de clase U de Oxford (segunda página) muestran que la prueba de razón de probabilidad de contra en el nivel de significancia del 5% rechaza para donde Además, uno puede mostrar usando funciones generadoras de momentos que H0:μμ0H0:μ>μ0X¯>c,P(X¯>c|μ=μ0)=0.5.X¯Gamma(n,nλ).

Para el caso específico en el que y tenemos modo quen=100μ0=10,λ0=0.1,X¯Gamma(100,10),c=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

En consecuencia, el poder contra la alternativa es aproximadamente del 95,6%.μa=14

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

Claramente, para propósitos de probar hipótesis sobre la media exponencial la información en el estadístico suficiente es mucho mayor que la información en el mínimo de la muestra.μ,X¯

BruceET
fuente
No creo que esto aborde la pregunta en absoluto. ¿Son las dos probabilidades proporcionales? Primero debe mostrar que la probabilidad de que los dos experimentos sean proporcionales; de lo contrario, el principio de probabilidad no se aplica. En segundo lugar, en este ejemplo, las dos pruebas conducen a la misma conclusión, por lo que es aún más decepcionante que el ejemplo del binomio binomial versus el binomial negativo.
statslearner2
Acabo de revisar el documento, las probabilidades no son proporcionales, ya que la primera probabilidad tiene en el exponente y la otra tiene , por lo tanto, el principio de probabilidad no debería aplicarse aquí, está bien que las dos pruebas lleven a conclusiones diferentes según al principio de probabilidad. vxi
statslearner2
2
Bruce, solo para aclarar lo que dice el principio de probabilidad: dice que si tienes dos experimentos en los que las probabilidades difieren solo por una constante, entonces debes derivar la misma conclusión de ellos. Esto sucede en el caso binomial versus binomial negativo, donde difieren solo en la parte del coeficiente binomial (constante). Su ejemplo muestra dos pruebas en las que sus probabilidades no difieren solo por una constante, por lo que el LP no se aplica.
statslearner2
@ statslearner2 la función de probabilidad para observar una muestra es: Esto es lo mismo si selecciona el mínimo o la media como criterio para realizar la prueba. La violación que ocurre aquí puede verse como el tipo en el que la definición de 'casos extremos' es diferente y la integración para calcular el valor p se realiza de manera diferente. f ( x 1 , . . . , X n ) = n Π i = 1 λ e - λ x ix1,...,xn
f(x1,...,xn)=i=1nλeλxi
Sextus Empiricus
3

Violación por diferentes funciones de pdf yf(x,θ)g(x,θ)

Este caso será un ejemplo de 'violación' porque las funciones de distribución de probabilidad son intrínsecamente diferentes. Incluso cuando y , difieren, pueden relacionarse con el principio de verosimilitud porque en fijo de medición se dan las mismas funciones de hasta de escala. La diferencia, abre una posibilidad de "violaciones".f(x,θ) g(x,θ)f g x θfgxθ


El lanzamiento de la moneda con o sin regla de detención opcional

El lanzamiento de la moneda con o sin una regla de detención opcional es un ejemplo típico, el pdf es binomial o binomial negativo, que son diferentes funciones de pdf y conducen a diferentes cálculos de valores p e intervalos de confianza, pero conducen a las mismas funciones de probabilidad para fijos muestra / medida (hasta escala).

fNegative Binomial(n|k,p)=(n1k1)pk(1p)nkfBinomial(k|n,p)=(nk)pk(1p)nk


Ejemplo más extremo

Considere alguna medida de que se distribuye comoX

L(θ|x)=f(x|θ)={0 if x<0a if 0x<1(1a)θexp(θ(x1)) if x1

donde es un parámetro conocido que depende del tipo de experimento, y es un parámetro que puede ser desconocido y podría inferirse de la medición .aθx

Para cualquier dadas y función de la probabilidad es proporcional a la misma función que es independiente de :xaa

  • Si entoncesx<1L(θ|x)1
  • Si entoncesx1L(θ|x)θexp(θ(x1))

Pero, aunque la misma función de probabilidad, el valor p puede variar ampliamente dependiendo del experimento (es decir, el valor de ). Por ejemplo, cuando mide y prueba contra entonces el valor p esax=2H0:θ=1H0:θ<1

P(X>2|θ=1)=(1a)exp(1)


Intuición: la razón de la violación en estos casos es que los valores de p y las pruebas de hipótesis no se basan únicamente en la función de probabilidad para el valor observado particular .x

El valor p no se calcula a partir de la probabilidad con fijo, sino con el pdf con fijo, que es un segmento diferente. Los intervalos de confianza, el valor p y las pruebas de hipótesis son cosas diferentes a la información de las razones de probabilidad.f(θ|x)xf(x|θ)θ

Los valores p no son realmente evidencia: el valor p se relaciona con el error de tipo I, que es una medida que se relaciona con un conjunto de mediciones en lugar de con una sola medición. Este error tipo I o valor p no es lo mismo que el 'significado probatorio' de los fundamentos de evidencia estadística de Birnbaums. Esto se relaciona mucho con los problemas con los valores p y los científicos que buscan resultados únicamente con significación estadística en lugar de efectos importantes.

¿Necesitamos ejemplos en los que las inferencias sean marcadamente diferentes? El caso extremo es un ejemplo artificial. Tal caso, o cualquier cosa con una diferencia extrema similar, por supuesto no ocurre fácilmente en la práctica. Es más frecuente que la diferencia sea pequeña, como en los casos a los que se refiere como tontos.

Pedir ejemplos donde el principio de probabilidad 'realmente importa', o donde dos inferencias diferentes conducen a resultados extremadamente diferentes, es una pregunta un poco cargada . Al menos cuando la intención de esta pregunta se relaciona con algún argumento filosófico. Es una pregunta cargada porque presupone que los principios importantes deberían conducir a resultados extremadamente variables. Sin embargo, en muchos casos prácticos los resultados son pequeños (en términos de diferentes valores de p menores que un orden). Creo que esto no es extraño para dos métodos diferentes, pero ambos plausibles, para obtener resultados más o menos similares. Consideraría que el principio de probabilidad no es 'menos violado' cuando las diferencias son solo pequeñas.

Sexto Empírico
fuente
Con respecto al caso 1: creo que elegir una estadística de prueba diferente puede (¿debería?) Verse como un cambio en la función de probabilidad.
ameba dice Reinstate Monica
2
@MartijnWeterings sí, es elegir una estadística de prueba diferente, lo que importa es la probabilidad de las estadísticas, no de los datos. De lo contrario, puedo tomar una secuencia de 100 vueltas y calcular varias estadísticas: número de corridas de cabezas, número de alternancias de caras y colas. Nada de esto viola el LP.
statslearner2
Usted tiene que escoger dos estadísticas que tengan probabilidades proporcionales, tales como el número de ensayos hasta el 3 éxito o el número de éxitos en n ensayos, etc.
statslearner2
1

Aquí hay un ejemplo adaptado de la teoría de decisión estadística y el análisis bayesiano de James O. Berger (Segunda edición, página 29).

Digamos que dos especies de avispas se pueden distinguir por el número de muescas en las alas (llame a esto ) y por el número de anillos negros alrededor del abdomen (llame a esto ). La distribución de los caracteres en las dos especies (etiquetadas y ) es la siguiente:xyH0H1

Tabla adaptada de la teoría de decisión estadística y el análisis bayesiano de James O. Berger.

Digamos que encontramos un espécimen con 1 muesca en las alas y 1 anillo alrededor del abdomen. El peso de la evidencia es 100 veces mayor a favor de contra para ambos personajes.H1H0

Ahora, si alguien quisiera configurar una prueba para a un nivel de 5%, la regla de decisión sería para el primer carácter "aceptar si hay 1 muesca en el ala, de lo contrario rechazarlo", y para el segundo carácter "aceptar si hay 3 anillos alrededor del abdomen, de lo contrario rechazarlo ". Hay muchas otras posibilidades, pero estas son las pruebas más poderosas a este nivel. Sin embargo, conducen a conclusiones diferentes para ambos personajes.H0H0H0


Nota : por supuesto, se podría configurar una prueba con la regla "aceptar si hay 1 o 3 anillos alrededor del abdomen, de lo contrario rechazarlo". La pregunta es si preferimos una prueba al nivel del 5% con riesgo de tipo II 0, o una prueba al nivel del 4.9% con riesgo de tipo II 0.00001. La diferencia es tan pequeña que probablemente no nos importaría, pero, según tengo entendido, este es el núcleo del argumento del principio de probabilidad: no es una buena idea hacer que el resultado dependa de algo que parece irrelevante.H0


Las funciones de probabilidad son proporcionales y, sin embargo, el valor p de es 0.95, y el de es 0.001 (suponiendo que rechacemos con eventos de la forma ). Es obvio por la estructura de la tabla que podría haber elegido cualquier número menor que 0.001. Además, el riesgo de rechazo de tipo II es 0, por lo que parece que no hay nada "incorrecto" aquí.x=1y=1H0yα

Aún así, admito que este ejemplo es un tanto artificial y no completamente honesto porque juega con la dificultad de organizar pruebas con datos discretos. Se podrían encontrar ejemplos equivalentes con datos continuos, pero serían aún más artificiales. Estoy de acuerdo con el OP en que el principio de probabilidad casi no tiene valor práctico; Lo interpreto como un principio para garantizar cierta coherencia dentro de la teoría.

gui11aume
fuente