¿Cuál es la distribución de varios dados poliédricos todos tirados a la vez?

15

Tome los 5 sólidos platónicos de un conjunto de dados de Dungeons & Dragons. Estos consisten en un dado de 4 lados, 6 lados (convencional), 8 lados, 12 lados y 20 lados. Todos comienzan en el número 1 y cuentan hacia arriba en 1 hasta su total.

Tira todos a la vez, toma su suma (la suma mínima es 5, la máxima es 50). Hazlo varias veces. ¿Cuál es la distribución?

Obviamente, tenderán hacia el extremo inferior, ya que hay más números más bajos que más altos. ¿Pero habrá puntos de inflexión notables en cada límite del dado individual?

[Editar: Aparentemente, lo que parecía obvio no lo es. Según uno de los comentaristas, el promedio es (5 + 50) /2=27.5. No esperaba esto. Todavía me gustaría ver un gráfico.] [Edit2: Tiene más sentido ver que la distribución de n dados es la misma que cada dado por separado, sumados.]

Marcos
fuente
1
¿Quiere decir cuál es la distribución de la suma de uniformes discretos [1,4]+[1,6]+[1,8]+[1,12]+[1,20] ?
gung - Restablece a Monica
2
Una forma de examinarlo es la simulación. En R: hist(rowSums(sapply(c(4, 6, 8, 12, 20), sample, 1e6, replace = TRUE))). En realidad no tiende hacia el extremo inferior; de los posibles valores de 5 a 50, el promedio es 27.5 y la distribución (visualmente) no está lejos de lo normal.
David Robinson
2
Mi set de D&D tiene un d10, así como los 5 que mencionas (más un decader, que supongo que no incluyes)
Glen_b -Reinstate Monica
1
Wolfram Alpha calcula la respuesta exactamente . Aquí está la función de generación de probabilidad , desde la cual puede leer la distribución directamente. Por cierto, esta pregunta es un caso especial de uno que se hace y se responde a fondo en stats.stackexchange.com/q/3614 y en stats.stackexchange.com/questions/116792 .
whuber
2
@ AlecTeal: Fácil allí, tipo duro. Si hiciste tu investigación, verías que yo no tenía una computadora para ejecutar la simulación. Y rodar 100 veces, no parecía tan efectivo para una pregunta tan simple.
Marcos

Respuestas:

18

No quisiera hacerlo algebraicamente, pero puedes calcular el pmf simplemente (es solo convolución, que es realmente fácil en una hoja de cálculo).

Calculé esto en una hoja de cálculo *:

i        n(i)   100 p(i)
5         1     0.0022
6         5     0.0109
7        15     0.0326
8        35     0.0760
9        69     0.1497
10      121     0.2626
11      194     0.4210
12      290     0.6293
13      409     0.8876
14      549     1.1914
15      707     1.5343
16      879     1.9076
17     1060     2.3003
18     1244     2.6997
19     1425     3.0924
20     1597     3.4657
21     1755     3.8086
22     1895     4.1124
23     2014     4.3707
24     2110     4.5790
25     2182     4.7352
26     2230     4.8394
27     2254     4.8915
28     2254     4.8915
29     2230     4.8394
30     2182     4.7352
31     2110     4.5790
32     2014     4.3707
33     1895     4.1124
34     1755     3.8086
35     1597     3.4657
36     1425     3.0924
37     1244     2.6997
38     1060     2.3003
39      879     1.9076
40      707     1.5343
41      549     1.1914
42      409     0.8876
43      290     0.6293
44      194     0.4210
45      121     0.2626
46       69     0.1497
47       35     0.0760
48       15     0.0326
49        5     0.0109
50        1     0.0022

Aquí es el número de formas de obtener cada i total ; p ( i ) es la probabilidad, donde p ( i ) = n ( i ) / 46080norte(yo)yopag(yo)p(i)=n(i)/46080 . Los resultados más probables ocurren menos del 5% del tiempo.

El eje y es la probabilidad expresada como un porcentaje. ingrese la descripción de la imagen aquí

* El método que utilicé es similar al procedimiento descrito aquí , aunque la mecánica exacta involucrada en su configuración cambia a medida que cambian los detalles de la interfaz de usuario (esa publicación tiene aproximadamente 5 años ahora aunque la actualicé hace aproximadamente un año). Y esta vez utilicé un paquete diferente (esta vez lo hice en LibreOffice's Calc). Aún así, esa es la esencia de esto.

Glen_b -Reinstate a Monica
fuente
Increíble, no esperaba una distribución simétrica en absoluto. No estoy seguro de por qué mi intuición estaba tan lejos.
Marcos
66
La suma de variables aleatorias simétricas independientes también es simétrica en distribución.
Glen_b -Reinstate Monica
Buena regla ¿Está publicado en alguna parte?
Marcos
3
Sí, pero mi punto es que es demasiado trivial obtener un diario para publicarlo, solo se establecería como un ejercicio para un estudiante. Puede usar el hecho de que la función característica de una variable aleatoria que es simétrica alrededor del origen es real e incluso (hecho que puede encontrar en la página de wikipedia sobre la función característica ), bueno, y supongo que necesita una. propiedad de uno a uno de cfs vs pmfs también, o use la relación dual para establecer que un cf uniforme también implica un pmf simétrico ...
Glen_b -Reinstale Monica
2
... y el hecho de que un producto de funciones pares es par, pero en realidad es bastante obvio solo por la consideración directa de cómo funciona la convolución, en una convolución de dos funciones simétricas (pmfs en este caso), para cada término en la suma de productos en un extremo hay un término correspondiente del mismo tamaño en el otro extremo, colocado simétricamente alrededor del centro.
Glen_b -Reinstalar Monica
7

Entonces hice este código:

d4 <- 1:4  #the faces on a d4
d6 <- 1:6  #the faces on a d6
d8 <- 1:8  #the faces on a d8
d10 <- 1:10 #the faces on a d10 (not used)
d12 <- 1:12 #the faces on a d12
d20 <- 1:20 #the faces on a d20

N <- 2000000  #run it 2 million times
mysum <- numeric(length = N)

for (i in 1:N){
     mysum[i] <- sample(d4,1)+
                 sample(d6,1)+
                 sample(d8,1)+
                 sample(d12,1)+
                 sample(d20,1)
}

#make the plot
hist(mysum,breaks = 1000,freq = FALSE,ylim=c(0,1))
grid()

El resultado es esta trama. ingrese la descripción de la imagen aquí

Tiene un aspecto bastante gaussiano. Creo que (nuevamente) puede haber demostrado una variación en el teorema del límite central.

EngrStudent - Restablece a Monica
fuente
2
Hmm, la tirada más baja en tu simulación es 6. La probabilidad de tirarla (o cualquier tirada única, preservando la identidad del dado) es 1: 4 * 1: 6 * 1: 8 * 1: 10 * 1: 12 * 1: 20 = 1: 460800. Mis procedimientos exigirían un tamaño de muestra N al menos dos veces (tal vez 4 veces) esta cantidad (como un límite de Nyquist) para revelar cualquier error en mi modelado.
Marcos
Mi experiencia con Nyquist también dice 4 veces el mínimo. ... hecho. Si 2 millones no son suficientes, avíseme cuál debería ser.
EngrStudent - Restablece a Monica el
3
n
1
@EngrStudent: Por cierto, ¿su resultado no confirma CLT?
Marcos
1
@theDoctor no, no confirma el CLT por una serie de razones
Glen_b -Reinstale a Monica el
7

Un poco de ayuda para tu intuición:

Primero, considere lo que sucede si agrega uno a todas las caras de un dado, por ejemplo, el d4. Entonces, en lugar de 1,2,3,4, las caras ahora muestran 2,3,4,5.

Comparando esta situación con la original, es fácil ver que la suma total ahora es una más alta de lo que solía ser. Esto significa que la forma de la distribución no cambia, solo se mueve un paso hacia un lado.

Ahora resta el valor promedio de cada dado de cada lado de ese dado.

Esto da dados marcados

  • 32121232
  • 523212123252
  • 72-5 52-32-1212325 527 72

etc.

Ahora, la suma de estos dados aún debe tener la misma forma que el original, solo desplazada hacia abajo. Debe quedar claro que esta suma es simétrica alrededor de cero. Por lo tanto, la distribución original también es simétrica.

Stig Hemmer
fuente
4

PAG(X=yo)=pag(yo)
Xyo0 0,1,...,norte(0 0,1/ /6 6,1/ /6 6,1/ /6 6,1/ /6 6,1/ /6 6,1/ /6 6)pag(t)=0 06 6pag(yo)tyoq(j)j0 0,1,...,metro. Luego, la distribución de la suma de ojos en dos dados independientes dados por el producto de los pgf 's,pag(t)q(t). Al escribir el producto t podemos ver que está dado por la convolución de las secuencias de coeficientes, por lo que se puede encontrar por la función R convolve (). Probemos esto con dos tiros de dados estándar:
> p  <-  q  <-  c(0, rep(1/6,6))
> pq  <-  convolve(p,rev(q),type="open")
> zapsmall(pq)
 [1] 0.00000000 0.00000000 0.02777778 0.05555556 0.08333333 0.11111111
 [7] 0.13888889 0.16666667 0.13888889 0.11111111 0.08333333 0.05555556
[13] 0.02777778

y puede verificar que eso es correcto (cálculo manual). Ahora para la pregunta real, cinco dados con 4,6,8,12,20 lados. Haré el cálculo asumiendo sondeos uniformes para cada dado. Luego:

> p1  <-  c(0,rep(1/4,4))
> p2 <-  c(0,rep(1/6,6))
> p3 <-  c(0,rep(1/8,8))
> p4  <-  c(0, rep(1/12,12))
> p5  <-  c(0, rep(1/20,20))
> s2  <-  convolve(p1,rev(p2),type="open")
> s3 <-  convolve(s2,rev(p3),type="open")
> s4 <-  convolve(s3,rev(p4),type="open")
> s5 <- convolve(s4, rev(p5), type="open")
> sum(s5)
[1] 1
> zapsmall(s5)
 [1] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00002170
 [7] 0.00010851 0.00032552 0.00075955 0.00149740 0.00262587 0.00421007
[13] 0.00629340 0.00887587 0.01191406 0.01534288 0.01907552 0.02300347
[19] 0.02699653 0.03092448 0.03465712 0.03808594 0.04112413 0.04370660
[25] 0.04578993 0.04735243 0.04839410 0.04891493 0.04891493 0.04839410
[31] 0.04735243 0.04578993 0.04370660 0.04112413 0.03808594 0.03465712
[37] 0.03092448 0.02699653 0.02300347 0.01907552 0.01534288 0.01191406
[43] 0.00887587 0.00629340 0.00421007 0.00262587 0.00149740 0.00075955
[49] 0.00032552 0.00010851 0.00002170
> plot(0:50,zapsmall(s5))

La trama se muestra a continuación:

ingrese la descripción de la imagen aquí

Ahora puede comparar esta solución exacta con simulaciones.

kjetil b halvorsen
fuente
1

El teorema del límite central responde a su pregunta. Aunque sus detalles y su prueba (y ese artículo de Wikipedia) son un tanto alucinantes, la esencia es simple. Según Wikipedia, dice que

la suma de varias variables aleatorias independientes e idénticamente distribuidas con variaciones finitas tenderá a una distribución normal a medida que crezca la cantidad de variables.

Boceto de una prueba para su caso:

Cuando dices "tira todos los dados a la vez", cada tirada de todos los dados es una variable aleatoria.

Tus dados tienen números finitos impresos en ellos. La suma de sus valores, por lo tanto, tiene una varianza finita.

Cada vez que tira todos los dados, la distribución de probabilidad del resultado es la misma. (Los dados no cambian entre tiradas).

Si tira los dados de manera justa, cada vez que los tira, el resultado es independiente. (Las tiradas anteriores no afectan las tiradas futuras).

¿Independiente? Cheque. ¿Idénticamente distribuido? Cheque. Varianza finita? Cheque. Por lo tanto, la suma tiende hacia una distribución normal.

Ni siquiera importaría si la distribución de un lanzamiento de todos los dados fuera desigual hacia el extremo inferior. No importaría si hubiera cúspides en esa distribución. Todo el resumen lo suaviza y lo convierte en un gaussiano simétrico. ¡Ni siquiera necesita hacer álgebra o simulación para mostrarlo! Esa es la sorprendente visión del CLT.

Paul Cantrell
fuente
3
Si bien el CLT es relevante y, como lo muestran las otras publicaciones, las distribuciones son más o menos gaussianas, solo estamos tratando con la suma de 5 distribuciones independientes no idénticas . Entonces el punto 1) 5 no es realmente lo suficientemente grande como para invocar un teorema que se aplica "en el infinito". Punto 2) no puedes usar el CLT de vainilla, porque las cosas que sumas no son id. Necesitas el CLT de Lyapunov, creo.
Peter
2
No necesita el Teorema del límite central para decir que la suma de algunas variables aleatorias independientes con distribuciones simétricas sobre sus respectivos centros tiene una distribución simétrica sobre la suma de los centros.
Henry
@ Peter: Te estás perdiendo la estructura de mi prueba. El OP dice "tira todos a la vez". Estoy tomando cada tirada de todos los dados como una variable aleatoria. Esas variables aleatorias tienen una distribución idéntica. No hay necesidad de Lyapunov. Además, el OP dice "hazlo varias veces", lo que considero que significa "en el límite", por lo que tu punto # 1 no es válido. No solo estamos sumando una tirada de 5 dados aquí.
Paul Cantrell
2
@PaulCantrell Cada lanzamiento de todos los dados es la suma de cinco variables independientes no idénticamente distribuidas. El OP pregunta por la distribución de esa suma. Puede hacer muchas tiradas de los 5 dados, pero eso es solo un muestreo de la distribución en cuestión, nadie está sumando esas muestras.
Peter
1
@PaulCantrell Supongo que depende de cómo interpretes "Hazlo varias veces". Hágalo varias veces, y sumarán nuevamente (obteniendo un solo valor), o hágalo varias veces y observe el histograma de esas muestras (obteniendo múltiples valores). Tomé la última interpretación.
Peter