Estoy planeando mi boda Deseo estimar cuántas personas vendrán a mi boda. He creado una lista de personas y la posibilidad de que asistan en porcentaje. Por ejemplo
Dad 100%
Mom 100%
Bob 50%
Marc 10%
Jacob 25%
Joseph 30%
Tengo una lista de aproximadamente 230 personas con porcentajes. ¿Cómo puedo calcular cuántas personas asistirán a mi boda? ¿Puedo simplemente sumar los porcentajes y dividirlos por 100? Por ejemplo, si invito a 10 personas con un 10% de posibilidades de asistir, ¿puedo esperar a 1 persona? Si invito a 20 personas con un 50% de posibilidades de asistir, ¿puedo esperar 10 personas?
ACTUALIZACIÓN: 140 personas vinieron a mi boda :). Usando las técnicas descritas a continuación, predije alrededor de 150. ¡No está mal!
probability
Behacad
fuente
fuente
Respuestas:
Suponiendo que las decisiones de las personas invitadas a asistir a la boda son independientes, el número de invitados que acudirán a la boda se puede modelar como la suma de variables aleatorias de Bernoulli que no tienen necesariamente probabilidades idénticas de éxito. Esto corresponde a la distribución binomial de Poisson .
Sea una variable aleatoria correspondiente al número total de personas que asistirán a su boda de N personas invitadas. El número esperado de participantes es, de hecho, la suma de las probabilidades individuales de '' presentación '' p i , es decir E ( X ) = N ∑ i = 1 p i . La derivación de los intervalos de confianza no es sencilla dada la forma de la función de masa de probabilidad . Sin embargo, son fáciles de aproximar con simulaciones de Monte Carlo .X N pi
La siguiente figura muestra un ejemplo de la distribución del número de participantes a la boda en base a 10000 escenarios simulados (derecha) usando algunas probabilidades de aparición falsas para las 230 personas invitadas (izquierda). El código R utilizado para ejecutar esta simulación se muestra a continuación; Proporciona aproximaciones de intervalos de confianza.
fuente
j
, genero el número de "presentaciones" para cada uno de los 20 grupos de probabilidad utilizando una distribución binomial y la probabilidad de que aparezca ese grupo.Como se ha señalado, las expectativas simplemente se suman.
Sin embargo, sabiendo que la expectativa no es muy útil, también necesita tener una idea de la posible variación a su alrededor.
Hay tres cosas por las que debe preocuparse:
variación en los individuos en torno a sus expectativas (una persona con un 60% de posibilidades de venir en realidad no logra sus expectativas; siempre están por encima o por debajo de ellas)
dependencia entre personas. Las parejas que podrían venir ambas tenderán a asistir a ambas o a ninguna. Los niños pequeños no asistirán sin sus padres. En algunos casos, algunas personas pueden evitar venir si saben que otra persona estará allí.
error en la estimación de las probabilidades. Esas probabilidades son solo conjeturas; es posible que desee considerar el efecto de conjeturas algo diferentes (tal vez las evaluaciones de alguien de esos números)
El primero es susceptible de cálculo, ya sea por aproximación normal o por simulación. El segundo podría simularse bajo varios supuestos, ya sea específicos para las personas, o considerando alguna distribución de dependencias. (El tercer elemento es más difícil).
Editado para abordar las preguntas de seguimiento en los comentarios:
Si entiendo bien tu fraseo, para la familia de 4, tienes un 50% de posibilidades de que vengan 4 personas o ninguna. Es un número esperado de 2, sin duda, pero también querrás tener una idea de la variabilidad en torno a las expectativas, en cuyo caso probablemente quieras mantener la situación real del 50% de 0/50% de 4.
Si puede dividir a todos en grupos independientes, una buena primera aproximación (con muchos de esos grupos) sería agregar las medias y las variaciones entre los grupos independientes y luego tratar la suma como normal (quizás con corrección de continuidad). Un enfoque más preciso sería simular el proceso o calcular la distribución exactamente mediante convolución numérica; Si bien ambos enfoques son sencillos, este es un nivel innecesario de precisión para esta aplicación en particular, ya que hay tantas capas de aproximación: es como saber las dimensiones de una habitación al pie más cercano y luego calcular cuánta pintura necesitará al mililitro más cercano: la precisión adicional no tiene sentido.
Así que imagine (por simplicidad) que teníamos cuatro grupos:
1) grupo A (1 individual) - 70% de probabilidad de asistencia
2) grupo B (1 individual) - 60% de posibilidades de asistencia
3) grupo C (familia de 4) - 0: 0.5 4: 0.5 (si alguien se queda en casa, ninguno vendrá)
4) grupo D (par de 2) - 0: 0.4 1: 0.1 2: 0.5 (es decir, 50% de posibilidades de ambos, más 10% de posibilidades de que exactamente uno venga, por ejemplo, si el otro tiene compromisos de trabajo o está enfermo)
Luego obtenemos los siguientes medios y variaciones:
Entonces, una aproximación normal será bastante aproximada en este caso, pero sugeriría que más de 7 personas serían bastante improbables (del orden del 5%), y 6 o menos ocurrirían aproximadamente del 75 al 80% de las veces.
[Un enfoque más preciso sería simular el proceso, pero en el problema completo en lugar del ejemplo reducido esto probablemente sea innecesario ya que ya hay muchas capas de aproximación].
Una vez que tenga su distribución combinada que incorpore tales dependencias grupales, es posible que desee aplicar cualquier fuente de dependencia conjunta general (como el clima severo), o simplemente puede asegurarse o incluso ignorar tales eventualidades, dependiendo de las circunstancias .
fuente
(Ignore mi comentario anterior sobre esto, me acabo de dar cuenta de que estaba confundiendo la expectativa con algo más). Dado que esencialmente está tratando de encontrar la expectativa de la cantidad de personas que aparecen, en teoría puede agregar la probabilidad de que cada persona muestre para hacerlo
Sin embargo, esto solo le da el valor esperado; sin más suposiciones, parecería difícil estimar cosas como la varianza de las personas que aparecen, particularmente porque es bastante justo suponer que la persona A que aparece no es necesariamente independiente de la persona B.
Aparte de eso, aquí hay un artículo de la BBC vagamente relevante.
fuente
Para grandes números, el 80% es lo que esperarías. Esta puede ser una situación en la que un análisis detallado como usted propone solo agrega errores a los cálculos.
Por ejemplo, ¿la asistencia potencial de Marc es realmente 1/3 de la de Joseph? ¿Y es realmente Joseph el 30%, o podría ser el 25%? Las cosas suceden cuando alcanzas grandes números que simplemente hacen un 80% más válido que todo este análisis. Acabo de regresar de una boda. 550 invitados. Asistieron 452. Para planificar la sala y comenzar a hablar con el proveedor, la estimación inicial de 440 estaba bien.
¿Puedo ofrecer una línea de mi brindis a la pareja? "Recuerda, si tu esposa es feliz, pero tú no eres feliz, aún eres mucho más feliz que si tu esposa es infeliz, pero eres feliz".
fuente
Como estadístico que acaba de casarse, le diré que JoeTaxpayer tiene la respuesta correcta. La cifra del 80% me parece un poco alta, aunque podría ser precisa si la mayoría de las personas son locales (la nuestra fue una boda de destino y aterrizamos más cerca del 65%).
Pero, no obstante, supones que existe una gran variabilidad en las probabilidades anteriores de que la gente asista, creo que existe más de lo que realmente existe. Asumiendo que no invitas a personas a las que no les gustas activamente, debes asumir que casi todos vendrán para quienes están dentro de sus posibilidades y no tienen un conflicto (en un sentido amplio), pero al menos 10-20% TENDRÁ algo que les impide asistir. Para aquellos que tienen que viajar, eso aumenta el tiempo y el dinero necesarios, por lo que el 30-35% de los viajeros no asistirán (dependiendo de la distancia). De lo contrario, mantenga las probabilidades constantes (incluso si sus padres dicen "oh, tal y tal no volará hasta Austin, solo queremos invitarlos ..."). Si tiene una recepción divertida, especialmente con un bar abierto, la gente generalmente no se saltará eso a menos que sea necesario.
De todos modos, felicidades por casarte. Ahora, en cuanto a la probabilidad de que sigas casado, esta es siempre una buena lectura: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf
:-)
fuente
Sume todas las probabilidades, esa es la cantidad esperada de personas que vendrán.
Tienes i = 1..N eventos, cada uno tiene probabilidadPAGSyo . El número esperado de personas por venir es∑yo1yoPAGSyo , dónde 1yo - variable indicadora igual a uno si aparece una persona, y cero en caso contrario.
Por supuesto, estamos asumiendo que si alguien viene o no no depende de la asistencia de otras personas. Esta suposición es simplemente incorrecta. Considere las parejas, están altamente correlacionadas.
Como no tiene datos sobre correlaciones, lo mejor que puede hacer es manejar las parejas como una unidad, es decir2 × 1yoPAGSyo , dónde PAGSyo es la probabilidad de que la pareja se presente.
fuente
Para mi boda, hice dos listas: probable de asistir (80%) y poco probable (20%). Independientemente de cualquier evaluación más refinada por cualquier motivo, asigné a todos los invitados a uno de los dos grupos. Estaba fuera por 2 personas. N = 1. Puramente heurístico.
fuente
Me doy cuenta de que nadie ha señalado que no es necesario dividir por 100. Sus porcentajes se pueden ver como partes esperadas de una persona para aparecer, con el entendimiento de que, como el gato de Schrödinger, no obtendrá partes de una persona presente o no, pero el estado de asistencia de cada persona se resolverá por completo en el momento del evento.
Dado que el rango de sus porcentajes va del 0% (ninguna de las personas que aparecen) al 100% (todas las personas que aparecen), en sus dos ejemplos con 10 y 20 personas, sumó el valor esperado para la parte de cada persona para aparecer, y obtuve un número cuyas unidades eran "personas".
La ecuación prominente en la excelente respuesta de QuantIbex muestra que al sumar los porcentajes se obtiene el número esperado de personas en el evento, sin división involucrada.
fuente