¡Ayúdame a calcular cuántas personas vendrán a mi boda! ¿Puedo atribuir un porcentaje a cada persona y agregarlos?

37

Estoy planeando mi boda Deseo estimar cuántas personas vendrán a mi boda. He creado una lista de personas y la posibilidad de que asistan en porcentaje. Por ejemplo

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

Tengo una lista de aproximadamente 230 personas con porcentajes. ¿Cómo puedo calcular cuántas personas asistirán a mi boda? ¿Puedo simplemente sumar los porcentajes y dividirlos por 100? Por ejemplo, si invito a 10 personas con un 10% de posibilidades de asistir, ¿puedo esperar a 1 persona? Si invito a 20 personas con un 50% de posibilidades de asistir, ¿puedo esperar 10 personas?

ACTUALIZACIÓN: 140 personas vinieron a mi boda :). Usando las técnicas descritas a continuación, predije alrededor de 150. ¡No está mal!

Behacad
fuente
43
No veo ninguna figura para la persona con la que te casas. Esa es la cantidad más importante.
Nick Cox
66
Utilicé tu técnica para mi boda y funcionó bien; predijimos unas 80 personas y obtuvimos 85 más o menos. Observo que una vez que tenga todas esas personas en su hoja de cálculo, también puede usar la misma hoja de cálculo para hacer un seguimiento de cosas como a quién le ha enviado notas de agradecimiento, y así sucesivamente.
Eric Lippert
2
Relevante: timharford.com/2013/10/guest-list-angst-a-statistical-approach . Por lo que vale, he elegido el enlace al blog personal del autor, pero el artículo es de su columna en el Financial Times.
Steve Jessop
@EricLippert Intenté algo similar para mi boda pero no tuve tanto éxito. Hubo una tormenta muy severa el día de y todos <30% ish con una hora de viaje o más no se presentaron.
OSE
3
@NickCox También se olvidaron de los suyos.
JFA

Respuestas:

32

Suponiendo que las decisiones de las personas invitadas a asistir a la boda son independientes, el número de invitados que acudirán a la boda se puede modelar como la suma de variables aleatorias de Bernoulli que no tienen necesariamente probabilidades idénticas de éxito. Esto corresponde a la distribución binomial de Poisson .

Sea una variable aleatoria correspondiente al número total de personas que asistirán a su boda de N personas invitadas. El número esperado de participantes es, de hecho, la suma de las probabilidades individuales de '' presentación '' p i , es decir E ( X ) = N i = 1 p i . La derivación de los intervalos de confianza no es sencilla dada la forma de la función de masa de probabilidad . Sin embargo, son fáciles de aproximar con simulaciones de Monte Carlo .XNpi

E(X)=i=1Npi.

La siguiente figura muestra un ejemplo de la distribución del número de participantes a la boda en base a 10000 escenarios simulados (derecha) usando algunas probabilidades de aparición falsas para las 230 personas invitadas (izquierda). El código R utilizado para ejecutar esta simulación se muestra a continuación; Proporciona aproximaciones de intervalos de confianza.

ingrese la descripción de la imagen aquí

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 
QuantIbex
fuente
1
Wow esto es fantástico ¿Qué tipo de simulación es exactamente esto?
Behacad
44
Es una simulación de Monte Carlo
QuantIbex
¿Cómo se transforma el "tamaño del grupo" en número de invitados? Tengo una figura como la suya a la izquierda, pero no estoy seguro de cómo convertirla en la figura a la derecha ...
Behacad
Esto se hace en las líneas 11 a 18 del código provisto en la respuesta. Para el escenario j, genero el número de "presentaciones" para cada uno de los 20 grupos de probabilidad utilizando una distribución binomial y la probabilidad de que aparezca ese grupo.
QuantIbex
18

Como se ha señalado, las expectativas simplemente se suman.

Sin embargo, sabiendo que la expectativa no es muy útil, también necesita tener una idea de la posible variación a su alrededor.

Hay tres cosas por las que debe preocuparse:

  • variación en los individuos en torno a sus expectativas (una persona con un 60% de posibilidades de venir en realidad no logra sus expectativas; siempre están por encima o por debajo de ellas)

  • dependencia entre personas. Las parejas que podrían venir ambas tenderán a asistir a ambas o a ninguna. Los niños pequeños no asistirán sin sus padres. En algunos casos, algunas personas pueden evitar venir si saben que otra persona estará allí.

  • error en la estimación de las probabilidades. Esas probabilidades son solo conjeturas; es posible que desee considerar el efecto de conjeturas algo diferentes (tal vez las evaluaciones de alguien de esos números)

El primero es susceptible de cálculo, ya sea por aproximación normal o por simulación. El segundo podría simularse bajo varios supuestos, ya sea específicos para las personas, o considerando alguna distribución de dependencias. (El tercer elemento es más difícil).


Editado para abordar las preguntas de seguimiento en los comentarios:

Si entiendo bien tu fraseo, para la familia de 4, tienes un 50% de posibilidades de que vengan 4 personas o ninguna. Es un número esperado de 2, sin duda, pero también querrás tener una idea de la variabilidad en torno a las expectativas, en cuyo caso probablemente quieras mantener la situación real del 50% de 0/50% de 4.

Si puede dividir a todos en grupos independientes, una buena primera aproximación (con muchos de esos grupos) sería agregar las medias y las variaciones entre los grupos independientes y luego tratar la suma como normal (quizás con corrección de continuidad). Un enfoque más preciso sería simular el proceso o calcular la distribución exactamente mediante convolución numérica; Si bien ambos enfoques son sencillos, este es un nivel innecesario de precisión para esta aplicación en particular, ya que hay tantas capas de aproximación: es como saber las dimensiones de una habitación al pie más cercano y luego calcular cuánta pintura necesitará al mililitro más cercano: la precisión adicional no tiene sentido.

Así que imagine (por simplicidad) que teníamos cuatro grupos:

1) grupo A (1 individual) - 70% de probabilidad de asistencia

2) grupo B (1 individual) - 60% de posibilidades de asistencia

3) grupo C (familia de 4) - 0: 0.5 4: 0.5 (si alguien se queda en casa, ninguno vendrá)

4) grupo D (par de 2) - 0: 0.4 1: 0.1 2: 0.5 (es decir, 50% de posibilidades de ambos, más 10% de posibilidades de que exactamente uno venga, por ejemplo, si el otro tiene compromisos de trabajo o está enfermo)

Luego obtenemos los siguientes medios y variaciones:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Entonces, una aproximación normal será bastante aproximada en este caso, pero sugeriría que más de 7 personas serían bastante improbables (del orden del 5%), y 6 o menos ocurrirían aproximadamente del 75 al 80% de las veces.

[Un enfoque más preciso sería simular el proceso, pero en el problema completo en lugar del ejemplo reducido esto probablemente sea innecesario ya que ya hay muchas capas de aproximación].


Una vez que tenga su distribución combinada que incorpore tales dependencias grupales, es posible que desee aplicar cualquier fuente de dependencia conjunta general (como el clima severo), o simplemente puede asegurarse o incluso ignorar tales eventualidades, dependiendo de las circunstancias .

Glen_b -Reinstate a Monica
fuente
55
+1 por mencionar dependencias. Estos surgen por razones distintas a las relaciones interpersonales, como el clima y las condiciones de viaje. Muchos de ellos inducen correlaciones positivas, que amplían el rango de incertidumbre. Si las estimaciones se utilizarán para proporcionar logística (comidas, asientos, etc.), es valioso evaluar la variación con precisión. Aunque en una solicitud de boda no se puede hacer mucho más que hacer una suposición educada, tener una comprensión cualitativa de estos fenómenos estadísticos puede conducir a mejores suposiciones.
whuber
@whuber Buen punto sobre otras fuentes de dependencia, como el clima. En algunas circunstancias, tales cosas pueden afectar fácilmente los efectos que menciono.
Glen_b -Reinstate a Monica el
¿Cómo podría tener en cuenta fácilmente la dependencia? Por ejemplo, si conozco una pareja con dos hijos, y espero que los padres tengan aproximadamente un 50% de posibilidades de venir. Sé que traerán a sus hijos si vienen. ¿Es seguro atribuir el 50% a cada persona y básicamente asumir que vendrán 2 personas?
Behacad
2
@Behacad: si sabe que se trata de todo o nada con un grupo determinado, puede estimar la probabilidad de que el grupo se una como una sola unidad y ponderar al grupo por la cantidad de personas que lo componen. Estoy de acuerdo en que los márgenes de error también serían buenos para incluir en sus estimaciones.
Nick Stauner
Gracias. Tengo una pequeña tabla con porcentajes y cantidad de personas con ese porcentaje, pero no sé exactamente qué hacer ahora. ¿Qué medios debo agregar? ¿Qué variaciones? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Behacad
5

(Ignore mi comentario anterior sobre esto, me acabo de dar cuenta de que estaba confundiendo la expectativa con algo más). Dado que esencialmente está tratando de encontrar la expectativa de la cantidad de personas que aparecen, en teoría puede agregar la probabilidad de que cada persona muestre para hacerlo

0 01

Sin embargo, esto solo le da el valor esperado; sin más suposiciones, parecería difícil estimar cosas como la varianza de las personas que aparecen, particularmente porque es bastante justo suponer que la persona A que aparece no es necesariamente independiente de la persona B.

Aparte de eso, aquí hay un artículo de la BBC vagamente relevante.


fuente
¡Gracias! Entonces, para confirmar, si creo que 10 personas tienen un 10% de posibilidades de venir, puedo adivinar que vendrá 1 persona, por ejemplo.
Behacad
En teoría sí, pero parece difícil construir algo más útil (por ejemplo, intervalos de confianza) sin más suposiciones sobre las cosas.
Gracias. ¿Cómo podría llegar a intervalos de confianza?
Behacad
Que no estoy completamente seguro por varias razones. (Probablemente tendría que pasar más tiempo buscando algunas cosas para dar una respuesta más detallada sobre eso.)
4

Para grandes números, el 80% es lo que esperarías. Esta puede ser una situación en la que un análisis detallado como usted propone solo agrega errores a los cálculos.
Por ejemplo, ¿la asistencia potencial de Marc es realmente 1/3 de la de Joseph? ¿Y es realmente Joseph el 30%, o podría ser el 25%? Las cosas suceden cuando alcanzas grandes números que simplemente hacen un 80% más válido que todo este análisis. Acabo de regresar de una boda. 550 invitados. Asistieron 452. Para planificar la sala y comenzar a hablar con el proveedor, la estimación inicial de 440 estaba bien.

¿Puedo ofrecer una línea de mi brindis a la pareja? "Recuerda, si tu esposa es feliz, pero tú no eres feliz, aún eres mucho más feliz que si tu esposa es infeliz, pero eres feliz".

JTP - Disculpate con Monica
fuente
¡Gracias! Una preocupación es que la gente vendrá de todas partes y de diferentes distancias. Algunos bastante lejos, otros justo bajando la calle.
Behacad
3
Esta cifra podría depender de la cultura.
Juho Kokkala
@Juho: eso puede ser. Estoy en los Estados Unidos y en mi ejemplo reciente, fue una boda de destino para aproximadamente la mitad de los invitados, es decir, la boda fue en la ciudad natal de la novia. Me pregunto qué diferencias culturales afectarían la participación, pero sospecho que tienes razón.
JTP
44
Este es un maravilloso ejemplo de un estimador que existe en teoría pero parece inusual en la práctica (hasta que se busca este tipo de cosas): dado cualquier conjunto de datos, devuelve un número predeterminado (80% en este caso). Es fácil de calcular, muy económico (los costos de recopilación de datos pueden reducirse a cero) y tiene una variación cero. Es Bayes (para un prior atómico) y admisible. Todavía habrá preguntas persistentes sobre su sesgo y consistencia que pueden ser difíciles de abordar y no desaparecerán evitando un "análisis detallado".
whuber
2

Como estadístico que acaba de casarse, le diré que JoeTaxpayer tiene la respuesta correcta. La cifra del 80% me parece un poco alta, aunque podría ser precisa si la mayoría de las personas son locales (la nuestra fue una boda de destino y aterrizamos más cerca del 65%).

Pero, no obstante, supones que existe una gran variabilidad en las probabilidades anteriores de que la gente asista, creo que existe más de lo que realmente existe. Asumiendo que no invitas a personas a las que no les gustas activamente, debes asumir que casi todos vendrán para quienes están dentro de sus posibilidades y no tienen un conflicto (en un sentido amplio), pero al menos 10-20% TENDRÁ algo que les impide asistir. Para aquellos que tienen que viajar, eso aumenta el tiempo y el dinero necesarios, por lo que el 30-35% de los viajeros no asistirán (dependiendo de la distancia). De lo contrario, mantenga las probabilidades constantes (incluso si sus padres dicen "oh, tal y tal no volará hasta Austin, solo queremos invitarlos ..."). Si tiene una recepción divertida, especialmente con un bar abierto, la gente generalmente no se saltará eso a menos que sea necesario.

De todos modos, felicidades por casarte. Ahora, en cuanto a la probabilidad de que sigas casado, esta es siempre una buena lectura: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)

Mike Nute
fuente
1

Sume todas las probabilidades, esa es la cantidad esperada de personas que vendrán.

Tienes i = 1..N eventos, cada uno tiene probabilidad PAGSyo. El número esperado de personas por venir esyo1yoPAGSyo, dónde 1yo - variable indicadora igual a uno si aparece una persona, y cero en caso contrario.

Por supuesto, estamos asumiendo que si alguien viene o no no depende de la asistencia de otras personas. Esta suposición es simplemente incorrecta. Considere las parejas, están altamente correlacionadas.

Como no tiene datos sobre correlaciones, lo mejor que puede hacer es manejar las parejas como una unidad, es decir 2×1yoPAGSyo, dónde PAGSyo es la probabilidad de que la pareja se presente.

Aksakal
fuente
1

Para mi boda, hice dos listas: probable de asistir (80%) y poco probable (20%). Independientemente de cualquier evaluación más refinada por cualquier motivo, asigné a todos los invitados a uno de los dos grupos. Estaba fuera por 2 personas. N = 1. Puramente heurístico.

michaelcarniol
fuente
¿Puedo preguntar? ¿Cuál fue el% de participación final?
JTP
El 72% respondió que sí, pero olvido cuántas cancelaciones diarias.
michaelcarniol
0

Me doy cuenta de que nadie ha señalado que no es necesario dividir por 100. Sus porcentajes se pueden ver como partes esperadas de una persona para aparecer, con el entendimiento de que, como el gato de Schrödinger, no obtendrá partes de una persona presente o no, pero el estado de asistencia de cada persona se resolverá por completo en el momento del evento.

Dado que el rango de sus porcentajes va del 0% (ninguna de las personas que aparecen) al 100% (todas las personas que aparecen), en sus dos ejemplos con 10 y 20 personas, sumó el valor esperado para la parte de cada persona para aparecer, y obtuve un número cuyas unidades eran "personas".

La ecuación prominente en la excelente respuesta de QuantIbex muestra que al sumar los porcentajes se obtiene el número esperado de personas en el evento, sin división involucrada.

Travis Bemrose
fuente