¿Ensayos correlacionados de Bernoulli, distribución multivariada de Bernoulli?

14

Estoy simplificando una pregunta de investigación que tengo en el trabajo. Imagine que tengo 5 monedas y llamemos a las cabezas un éxito. Estas son monedas MUY sesgadas con probabilidad de éxito p = 0.1. Ahora, si las monedas fueran independientes, entonces obtener la probabilidad de al menos 1 cara o más es muy simple, . En mi escenario, mis pruebas de Bernoulli (lanzamiento de monedas) no son independientes. La única información a la que tengo acceso es la probabilidad de éxito (cada una es p = .1) y las correlaciones teóricas de Pearson entre las variables binarias.1(11/10)5

¿Hay alguna manera de calcular la probabilidad de un éxito o más solo con esta información? Estoy tratando de evitar un enfoque basado en la simulación porque estos resultados teóricos se utilizarán para guiar la precisión de un estudio de simulación. He estado investigando la distribución multivariada de Bernoulli, pero no creo que pueda especificarla completamente solo con correlaciones y probabilidades marginales de éxito. Un amigo mío recomendó construir una cópula gaussiana con marginales de bernoulli (usando el paquete R copula) y luego usar la pMvdc()función en una muestra grande para obtener la probabilidad que quiero, pero no estoy exactamente seguro de cómo hacerlo.

S. Punky
fuente
La distribución multivariada de Bernoulli se describió aquí: arxiv.org/abs/1206.1874
Tim
¿Hay un elemento temporal entre las pruebas o están todas en paralelo? Si es anterior, ¿puede hacer una suposición simplificada según la cual solo depende de , donde le da el orden de su modelo de Markov? t r i a l i - n ntrialitrialinn
Zhubarb

Respuestas:

16

No, esto es imposible cuando tienes tres o más monedas.

El caso de dos monedas

Primero veamos por qué funciona para dos monedas, ya que esto proporciona cierta intuición sobre lo que se descompone en el caso de más monedas.

Supongamos que e Y denotan las variables distribuidas de Bernoulli correspondientes a los dos casos, X B e r ( p ) , Y B e r ( q ) . Primero, recuerde que la correlación de X e Y esXYXBer(p)YBer(q)XY

Corr(X,Y)=mi[XY]-mi[X]mi[Y]Vunr(X)Vunr(Y),

y dado que conoce los marginales, conoce , E [ Y ] , V a r ( X ) y V a r ( Y ) , de modo que al conocer la correlación, también conoce E [ X Y ] . Ahora, X Y = 1 si y solo si X = 1 e Y = 1 , entonces E [ X Y ] = P (E[X]E[Y]Var(X)Var(Y)E[XY]XY=1X=1Y=1

E[XY]=P(X=1,Y=1).

Al conocer los marginales, sabes y q = P ( X = 0 , Y = 1 ) + P ( X = 1 , Y = 1 ) . Como acabamos de descubrir que sabes P ( X = 1 , Yp=P(X=1,Y=0)+P(X=1,Y=1)q=P(X=0,Y=1)+P(X=1,Y=1) , esto significa que también conoce P ( X = 1 , Y = 0 ) y P ( X = 0 , Y = 0 ) , pero ahora ha terminado, ya que la probabilidad que está buscando esP(X=1,Y=1)P(X=1,Y=0)P(X=0,Y=0)

P(X=1,Y=0)+P(X=0,Y=1)+P(X=1,Y=1).

Ahora, personalmente encuentro todo esto más fácil de ver con una foto. Sea . Entonces podemos imaginar las diversas probabilidades como formando un cuadrado:Pij=P(X=i,Y=j)

Aquí, vimos que conocer las correlaciones significaba que podía deducir , marcado en rojo, y que conociendo los márgenes, sabía la suma de cada borde (uno de los cuales se indica con un rectángulo azul).P11

La caja de tres monedas.

Esto no será tan fácil para tres monedas; intuitivamente no es difícil ver por qué: al conocer los marginales y la correlación, conoce un total de parámetros, pero la distribución conjunta tiene 2 3 = 8 resultados, pero al conocer las probabilidades para 7 de ellos, puedes averiguar el último; ahora, 7 > 6 , por lo que parece razonable que uno pueda cocinar dos distribuciones conjuntas diferentes cuyos márgenes y correlaciones sean iguales, y que uno pueda permutar las probabilidades hasta que las que está buscando diferirán.6=3+323=877>6

Deje que , Y y Z sean las tres variables, y deje queXYZ

Pijk=P(X=i,Y=j,Z=k).

En este caso, la imagen de arriba se convierte en la siguiente:

ingrese la descripción de la imagen aquí

Las dimensiones han sido superadas por una: el vértice rojo se ha convertido en varios bordes de colores, y el borde cubierto por un rectángulo azul se ha convertido en una cara completa. Aquí, el plano azul indica que al conocer el marginal, se conoce la suma de las probabilidades internas; para el de la foto,

P(X=0)=P000+P010+P001+P011,

y de manera similar para todas las otras caras en el cubo. Los bordes coloreados indican que al conocer las correlaciones, se conoce la suma de las dos probabilidades conectadas por el borde. Por ejemplo, al conocer , conoce E [ X Y ] (exactamente como se indica arriba) ycorr(X,Y)E[XY]

E[XY]=P(X=1,Y=1)=P110+P111.

Entonces, esto pone algunas limitaciones en las posibles distribuciones conjuntas, pero ahora hemos reducido el ejercicio al ejercicio combinatorio de poner números en los vértices de un cubo. Sin más preámbulos, proporcionemos dos distribuciones conjuntas cuyos márgenes y correlaciones son iguales:

ingrese la descripción de la imagen aquí

1001/2Ber(1/2)

1P0001P000

P111

Ber(1/10)

Cuatro o más monedas

Finalmente, cuando tenemos más de tres monedas, no debería sorprendernos que podamos preparar ejemplos que fallen, ya que ahora tenemos una discrepancia aún mayor entre el número de parámetros requeridos para describir la distribución conjunta y los que nos proporcionan los marginales y correlaciones

Concretamente, para cualquier cantidad de monedas mayor que tres, podría simplemente considerar los ejemplos cuyas primeras tres monedas se comportan como en los dos ejemplos anteriores y para los cuales los resultados de las dos monedas finales son independientes de todas las demás monedas.

fuglede
fuente
3

Los ensayos correlacionados de Bernoulli conducen a una distribución beta-binomial para los resultados contados. Debería ser posible parametrizar esta distribución para dar un valor de correlación especificado y luego calcular la probabilidad que desea.

Reinstalar a Mónica
fuente
¿No es un binomio beta solo un binomio cuyo parámetro de probabilidad de éxito es una variable aleatoria que sigue a un Beta? ¿Cómo se aplica eso al problema del OP?
AG
1
Sí, esa es una caracterización de la distribución. También es una de las soluciones de los ensayos correlacionados de Bernoulli (véase, por ejemplo, Hisakado et al 2006 )
Monica
¡Así es! Votado
AG
Relacionado: stats.stackexchange.com/questions/363129
ameba dice Reinstate Monica