K éxitos en ensayos de Bernoulli, o experimento de película de George Lucas

23

Estoy leyendo "The Drunkard's Walk" ahora y no puedo entender una historia de ella.

Aquí va:

Imagine que George Lucas hace una nueva película de Star Wars y en una prueba de mercado decide realizar un experimento loco. Lanza la película idéntica bajo dos títulos: "Star Wars: Episodio A" y "Star Wars: Episodio B". Cada película tiene su propia campaña de marketing y calendario de distribución, con los detalles correspondientes idénticos, excepto que los trailers y anuncios de una película dicen "Episodio A" y los de la otra, "Episodio B".

Ahora hacemos un concurso de eso. ¿Qué película será más popular? Digamos que miramos a los primeros 20,000 espectadores y grabamos la película que eligen ver (ignorando a esos fanáticos acérrimos que irán a ambos y luego insistirán en que hubo diferencias sutiles pero significativas entre los dos). Dado que las películas y sus campañas de marketing son idénticas, podemos modelar matemáticamente el juego de esta manera: imagina alinear a todos los espectadores seguidos y lanzar una moneda por turno. Si la moneda cae cara arriba, él o ella ve el Episodio A; si la moneda cae hacia arriba, es el Episodio B. Debido a que la moneda tiene la misma probabilidad de aparecer de cualquier manera, podrías pensar que en esta guerra de taquilla experimental cada película debería estar a la cabeza la mitad del tiempo.

Pero la matemática de la aleatoriedad dice lo contrario: el número más probable de cambios en el plomo es 0, y es 88 veces más probable que una de las dos películas conduzca a todos los 20,000 clientes que es, digamos, el plomo sube y baja continuamente "

Probablemente, incorrectamente, atribuyo esto a un simple problema de pruebas de Bernoulli, y debo decir que no veo por qué el líder no sube y baja en promedio. ¿Alguien puede explicar?

andreister
fuente

Respuestas:

22

Aquí hay un código R para simular el experimento de George Lucas:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Al ejecutarlo, obtenemos imágenes como estas:

ingrese la descripción de la imagen aquí

donde la diferencia en boletos vendidos entre A y B está en el eje y.

A continuación, ejecutamos estos experimentos simulados de George Lucas. Para cada experimento, calculamos la proporción de tiempo invertido 0 , es decir, la proporción de los espectadores alineados para los cuales el número de boletos vendidos a A es mayor o igual al número de boletos vendidos a B. Intuitivamente, usted decir que esta proporción debe ser aproximadamente 1 / 2 . Aquí hay un histograma de los resultados:10,00001/2

ingrese la descripción de la imagen aquí

La proporción es , en promedio, en el sentido de que el valor esperado es 1 / 2 , pero 1 / 2 es un valor poco probable en comparación con valores próximos a 0 o 1 . ¡Para la mayoría de los experimentos, las diferencias son positivas o negativas la mayor parte del tiempo!1/21/21/201

La curva roja es la función de densidad de la distribución arcoseno, también conocido como el de distribuciónBeta(1/2,1/2) . Lo que se ilustra en la imagen de arriba es un teorema conocido como la primera ley de arscina para caminatas aleatorias , que dice que a medida que el número de pasos de la caminata aleatoria simétrica simple se aproxima al infinito, la distribución de la proporción de tiempo dedicado por encima de tiende a Distribución de arcoseno. Una referencia estándar para este resultado es la Sección III.4 de Una introducción a la teoría de la probabilidad y sus aplicaciones, Vol. 1 de William Feller.0 0


El código R para el estudio de simulación es

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)
MånsT
fuente
¡Gracias! Instalé R y me gustaría repetir todos sus pasos: ¿cómo puedo ejecutar 10,000 simulaciones y calcular la proporción de tiempo dedicado?
andreister
@andreister: edité mi respuesta, agregando el código para la simulación al final. ¡Espero que les sea útil!
MånsT
Gracias, eso es muy útil! Para asegurarme de que entiendo las cosas, hice pastebin.com/mtRdsPkP basado en su código, ¿puede pasar?
andreister
cumsumsumcumsumii
(cont.) Esta es la información que nos interesa, ya que queremos ver si el líder sube y baja. sumsimplemente sumaría todos los 1 y -1, lo que le daría el resultado final después de que se hayan contabilizado los 20,000 espectadores (es decir, el último elemento del cumsumvector).
MånsT
11

1/2tt=13/4t=3t

11

20,000

Si desea calcular algunas de las probabilidades, tiene que contar algo similar a los enrejados que no cruzan la diagonal. Existe un gran método combinatorio que se aplica a las caminatas aleatorias (y al movimiento browniano) que no cruza esa línea, llamado principio de reflexión o método de reflexión . Este es un método para determinar los números catalanes . Aquí hay otras dos aplicaciones:

A10,2009,800(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)si(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.B(10,200,9,800),96%

A(20,00010,000)220,000/10,000π.A1100π150π1/89.56

Douglas Zare
fuente
¡Gracias! ¡Sin embargo, necesito entender la notación antes de entender tu respuesta! ¿Qué significa "termina adelante 10,200−9,800", etc., de dónde obtiene los números? ¿Cómo ves que 20K es el modo?
andreister
10,2009,80011,0009,00010,0019,999.20,00000p0. El valor más probable es00
0

"Es 88 veces más probable que una de las dos películas llegue a todos los 20,000 clientes que, digamos, el plomo sube y baja continuamente"

En inglés simple: una de las películas tiene una ventaja temprana. Tiene que hacerlo, ya que el primer cliente tiene que ir a A o B. Esa película es tan probable que mantenga su liderazgo como lo pierda.

Suena 88 veces más probable , bueno, poco probable, hasta que recuerdes que la oscilación perfecta es muy improbable. El cuadro en la respuesta de MansT , que muestra esto gráficamente, es fascinante, ¿no?

Aparte: Personalmente, creo que será más de 88 veces, debido al <buzzword-alert>marketing viral </buzzword-alert>. Cada persona preguntará a otras personas qué vieron y es más probable que visiten la misma película. Incluso lo harán inconscientemente: es más probable que las personas se unan a una larga cola para ir a ver algo. Es decir, tan pronto como la aleatoriedad entre los primeros clientes haya creado un líder, la psicología humana lo mantendrá como líder :-).

Darren Cook
fuente