¿Cómo puedo probar analíticamente que dividir aleatoriamente una cantidad resulta en una distribución exponencial (por ejemplo, ingresos y riqueza)?

36

En este artículo actual en CIENCIA se propone lo siguiente:

Suponga que divide al azar 500 millones en ingresos entre 10,000 personas. Solo hay una forma de darles a todos una participación igual de 50,000. Entonces, si está repartiendo ganancias al azar, la igualdad es extremadamente improbable. Pero hay innumerables maneras de dar a algunas personas mucho dinero en efectivo y a muchas personas poco o nada. De hecho, dadas todas las formas en que podría repartir los ingresos, la mayoría de ellos producen una distribución exponencial de los ingresos.

He hecho esto con el siguiente código R que parece reafirmar el resultado:

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99)))

fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE)

ingrese la descripción de la imagen aquí

Mi pregunta
¿Cómo puedo probar analíticamente que la distribución resultante es exponencial?

Anexo
Gracias por sus respuestas y comentarios. He pensado en el problema y se me ocurrió el siguiente razonamiento intuitivo. Básicamente sucede lo siguiente (Cuidado: simplificación excesiva más adelante): como que vas a lo largo de la cantidad y lanzas una moneda (sesgada). Cada vez que obtienes, por ejemplo, caras, divides la cantidad. Distribuyes las particiones resultantes. En el caso discreto, el lanzamiento de la moneda sigue una distribución binomial, las particiones se distribuyen geométricamente. ¡Los análogos continuos son la distribución de Poisson y la distribución exponencial respectivamente! (Por el mismo razonamiento, también queda intuitivamente claro por qué la distribución geométrica y la distribución exponencial tienen la propiedad de falta de memoria, porque la moneda tampoco tiene memoria).

vonjd
fuente
3
Si entrega el dinero uno por uno, hay muchas maneras de distribuirlos de manera uniforme y muchos más para distribuirlos de manera casi uniforme (por ejemplo, una distribución que es casi normal y con una media de y una desviación estándar cercana a )22450000224
Henry
@Henry: ¿Podría describir este procedimiento un poco más? Especialmente, ¿qué quieres decir con "uno por uno"? Quizás incluso podría proporcionar su código. Gracias.
vonjd
vonjd: Comience con 500 millones de monedas. Asigne cada moneda de forma independiente y aleatoria entre 10 mil individuos con la misma probabilidad. Sume cuántas monedas recibe cada individuo.
Henry
@Henry: La declaración original era que la mayoría de las formas de distribuir el efectivo producen una distribución exponencial. Las formas de distribuir el efectivo y las formas de distribuir las monedas no son isomorfas, ya que solo hay una forma de distribuir $ 500,000,000 de manera uniforme entre 10,000 personas (¡dale a cada $ 50,000) pero hay 500,000,000! / ((50,000!) ^ 10,000) formas de distribuir 50,000 monedas a cada una de 10,000 personas.
supercat
1
@Henry En el escenario que describiste en el comentario superior, se establece desde el principio que cada persona tiene la misma probabilidad de obtener la moneda. Esta condición efectivamente asigna un gran peso a la distribución normal, en lugar de considerar igualmente diferentes formas de distribuir las monedas.
higgsss

Respuestas:

27

Para simplificar el problema, consideremos el caso en que los valores permitidos de la parte de cada persona son discretos, por ejemplo, enteros. De manera equivalente, también se puede imaginar dividir el "eje de ingresos" en intervalos igualmente espaciados y aproximar todos los valores que caen en un intervalo dado por el punto medio.

Denotando el ingreso total como , las s -ésimo permitidos valor como x s , el número total de personas como N , y finalmente, el número de personas con acciones de x s como n s , las siguientes condiciones deben ser satisfechas: C 1 ( { n s } ) sigma s n s - N = 0 , y C 2 ( { n s } ) sigma s n sXsxsNxsns

C1({ns})snsN=0,
C2({ns})snsxsX=0.

Tenga en cuenta que muchas formas diferentes de dividir el recurso compartido pueden representar la misma distribución. Por ejemplo, si consideramos dividir $ 4 entre dos personas, dar $ 3 a Alice y $ 1 a Bob y viceversa, ambas darían distribuciones idénticas. Como la división es aleatoria, la distribución con el número máximo de formas correspondientes para dividir la participación tiene la mejor oportunidad de ocurrir.

Para obtener dicha distribución, uno tiene que maximizar bajo las dos restricciones dadas anteriormente. El método de los multiplicadores de Lagrange es un enfoque canónico para esto. Además, se puede elegir trabajar conlnW enlugar deW, ya que "ln" es una función monótona creciente. Es decir, lnW

W({ns})N!sns!,
lnWWEn dondeλ1,2son multiplicadores de Lagrange. Tenga en cuenta que de acuerdo conla fórmula de Stirling, lnn! nlnn-n, lo que lleva a dlnn!
EnWnortes=λ1do1nortes+λ2do1nortes=λ1+λ2Xs,
λ1,2
Ennorte!norteEnnorte-norte,
Por lo tanto, lnW
reEnnorte!renorteEnnorte.
Luego se deduce que nsexp(-λ1-λ2xs), que es una distribución exponencial. Se pueden obtener los valores de los multiplicadores de Lagrange utilizando las restricciones. Desde la primera restricción, N
EnWnortes-Ennortes.
nortesexp(-λ1-λ2Xs),
dondeΔxes el espacio entre los valores permitidos. Del mismo modo, X
norte=snortessexp(-λ1-λ2Xs)1ΔX0 0exp(-λ1-λ2X)reX=1λ2ΔXexp(-λ1),
ΔX Por lo tanto, tenemos exp(-λ1)=N2Δx
X=snortesXssXsexp(-λ1-λ2Xs)1ΔX0 0Xexp(-λ1-λ2X)reX=1λ22ΔXexp(-λ1).
y λ2=N
exp(-λ1)=norte2ΔXX,
El hessiano delnW-λ1C1-λ2C2puede ver que esto es realmente un máximo, en lugar de un mínimo o un punto de silla de montar. ComoC1,2son lineales enns, es lo mismo quelnW: 2 lnW
λ2=norteX.
EnW-λ1do1-λ2do2do1,2nortesEnW y 2lnW
2EnWnortes2=-1nortes<0 0,
Por lo tanto, el hessiano es cóncavo, y lo que hemos encontrado es de hecho un máximo.
2EnWnortesnorter=0 0(sr).

W({nortes})W({nortes})nortes1nortes

norte1023

higgsss
fuente
1
Gracias, eche un vistazo a la respuesta de Glen_b. ¿Es esto consistente con tu respuesta?
vonjd
2
@vonjd De nada! Creo que su respuesta es consistente con la mía. Para mí, parece que está haciendo una analogía con el proceso de Poisson en el siguiente sentido: considere un proceso de Poisson con el "intervalo de tiempo promedio" de 50,000 y cuente 10,000 eventos. Entonces, en promedio, el "intervalo de tiempo total" es 50,000 x 10,000 = 500 millones.
higgsss
2
@vonjd Actualicé mi respuesta. En particular, agregué la discusión con la condición de que la distribución que observamos típicamente es algo similar a la distribución más probable.
higgsss
2
Al considerar casos discretos, ¿sería útil observar que las cosas T pueden dividirse entre N personas ((N + T-1) elegir (N-1)) formas? Si la primera persona recibe f cosas, la cantidad de formas en que se puede distribuir el resto es ((N + Tf-2) elegir (N-2)); la suma de eso para valores de f de 0 a N es el número total de formas de distribuir todo.
supercat
1
Tnorte,FF(norte+T-F-2)(norte-2)=(norte+T-F-2)!/ /(norte-2)!/ /(T-F)! (norte+T-F-2)!/ /(T-F)!(T-F)norte-2Tnorte-2mi-(norte-2)F/ /T
17

De hecho, puedes demostrar que en realidad no es exponencial, casi trivial:

500500

Sin embargo, no es demasiado difícil ver que, para su ejemplo de brecha uniforme, debería ser casi exponencial.

Considere un proceso de Poisson , donde los eventos ocurren al azar a lo largo de alguna dimensión. El número de eventos por unidad del intervalo tiene una distribución de Poisson, y la brecha entre eventos es exponencial.

Si toma un intervalo fijo, los eventos en un proceso de Poisson que se encuentran dentro de él se distribuyen uniformemente en el intervalo. Ver aquí .

[Sin embargo, tenga en cuenta que debido a que el intervalo es finito, simplemente no puede observar huecos más grandes que la longitud del intervalo, y los huecos casi tan grandes serán poco probables (considere, por ejemplo, en un intervalo unitario, si observa huecos de 0.04 y 0.01, el siguiente espacio que ve no puede ser mayor que 0.95).]

norte

nortenorte+1norte

Más específicamente, cualquier brecha que comience en el intervalo colocado sobre el proceso de Poisson tiene la posibilidad de ser "censurado" (efectivamente, acortado más de lo que hubiera sido de otro modo) al llegar al final del intervalo.

ingrese la descripción de la imagen aquí

Es más probable que las brechas más largas hagan eso que las más cortas, y más brechas en el intervalo significa que la longitud promedio de la brecha debe disminuir, más brechas más cortas. Esta tendencia a 'cortarse' tenderá a afectar la distribución de espacios más largos que los cortos (y no existe la posibilidad de que un espacio limitado al intervalo exceda la longitud del intervalo, por lo que la distribución del tamaño del espacio debería disminuir suavemente a cero en el tamaño de todo el intervalo).

En el diagrama, un intervalo más largo al final se ha reducido, y un intervalo relativamente más corto al comienzo también es más corto. Estos efectos nos desvían de la exponencialidad.

norte

norte

Aquí hay una simulación de la distribución de brechas para n = 2:

ingrese la descripción de la imagen aquí

No muy exponencial.

norte1norte+1

ingrese la descripción de la imagen aquí

exp(-21X)

ingrese la descripción de la imagen aquí

norte=10000

Glen_b -Reinstate a Monica
fuente
2
Así que para entender correctamente que: Usted está diciendo que está no exponenciales?!? ¡Higgsss demuestra arriba que es exponencial!
vonjd
3
Permítanme citar mi respuesta: (i) "puede demostrar que no es realmente exponencial" PERO (ii) para los espacios uniformes que observó "... debe estar cerca de exponencial" ... "siempre que n no sea demasiado pequeña." ... ¿Qué no está claro?
Glen_b -Reinstate Monica
55
nortesexp(-λ1-λ2Xs)
2
Creo que esta respuesta es una excelente manera de ver el problema y merece más votos a favor. Sin embargo, me temo que no parece claro cómo funciona la analogía con el proceso de Poisson (por ejemplo, a qué corresponde el "tiempo"). ¿Estarías dispuesto a dar más detalles?
higgsss
3
@higgsss Reescribí ligeramente (eliminando la referencia al tiempo), agregué un pequeño detalle y un enlace. Puedo agregar más discusión más adelante. Si tiene alguna sugerencia específica, me interesaría mejorar aún más mi respuesta.
Glen_b -Reinstate Monica
8

Supongamos que el dinero es infinitamente divisible, por lo que podemos tratar con números reales en lugar de números enteros.

t=500000000norte=10000

pags(X)=norte-1t(1-Xt)norte-2
0 0Xt
PAGS(XX)=1-(1-Xt)norte-1.

Xtt-Xnortenorte-1norte=2norte=1

nortenortet(1-ymetro)metroexp(-y)metro

Enrique
fuente
8

Decir: "suponga que divide al azar 500 millones en ingresos entre 10,000 personas" es insuficientemente específico para responder la pregunta. Hay muchos procesos aleatorios diferentes que podrían usarse para asignar una cantidad fija de dinero a un número fijo de personas, y cada uno tendrá sus propias características para la distribución resultante. Aquí hay tres procesos generativos en los que podría pensar, y las distribuciones de riqueza que cada uno crea.

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

Método 1, publicado por OP:

Elija 'p' números de [0, w) uniformemente al azar. Ordenar estos. Agregue '0' al frente. Entregue montos en dólares representados por las diferencias entre los elementos sucesivos en esta lista.

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45,
     xlim = c(0, quantile(d, 0.99)))
fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", 
      pch=16, add = TRUE)

intervalos de descanso uniformes

Método 2:

Elija 'p' números de [0, w) uniformemente al azar. Considere estos 'pesos', por lo que 'w' en realidad no importa en esta etapa. Normalizar los pesos. Entregue cantidades en dólares representadas por la fracción de 'w' correspondiente a cada peso.

d <- runif(p,max=w) #weigh-distribution
d <- d/sum(d)*w #wealth-distribution
h <- hist(d, col="red", main="pretty uniform", freq = FALSE, breaks = 45, 
          xlim = c(0, quantile(d, 0.99)))

pesas reescaladas

Método 3:

Comience con 'p' 0s. w veces, agregue 1 a uno de ellos, seleccionados uniformemente al azar.

d <- rep(0, p)
for( i in 1:5000000){ ## for-loops in R are terrible, but this gives the idea.
    k <- floor(runif(1, max=p)) + 1    
    d[k] = (d[k] + 1)
}
h <- hist(d, col="red", main="kinda normalish?", freq = FALSE, breaks = 45,
          xlim = c(0, quantile(d, 0.99)))

dólares iterativos

Todd Johnson
fuente
4

Permítanme agregar algo con respecto a su apéndice.

pags(X)=norte-1X(1-XX)norte-2,
norteX

METROmetro

pags(metro)=norte-1METRO+1j=0 0norte-3(1-metroMETRO-j)norte-2.
METROnortenorte

norte

Sin embargo, realizar el análisis de error no parece ser sencillo porque las diferentes muestras en este caso no son independientes. Tienen que sumar la cantidad total, y cuánto recibe la primera persona afecta la distribución de probabilidad para la segunda persona, y así sucesivamente.

Mi respuesta anterior no sufre este problema, pero creo que sería útil ver cómo se puede resolver con este enfoque.

higgsss
fuente
3

Buen análisis teórico realizado por las respuestas votadas. Sin embargo, aquí está mi visión simple y empírica de por qué la distribución es exponencial.

Cuando distribuye el dinero al azar , consideremos que lo hace uno por uno. Sea S la suma original.

Para el primer hombre, debe elegir una cantidad aleatoria entre 0 y S. Por lo tanto, en promedio, elegirá S / 2 y permanecerá con S / 2.

Para el segundo hombre, elegirías al azar entre 0 y, en promedio, S / 2. Por lo tanto, en promedio, elegirá S / 4 y permanecerá con S / 4.

Entonces, básicamente dividirías la suma por la mitad cada vez (estadísticamente hablando).

Aunque en un ejemplo de la vida real no tendrá valores reducidos a la mitad continuamente, esto muestra por qué uno debería esperar que la distribución sea exponencial.

Bogdan Alexandru
fuente
3
Su algoritmo tiende a dar más dinero a la primera persona que a cualquiera de los demás. Hay otros enfoques que no tienen este sesgo.
Henry
@Henry ¿De qué otra forma comenzarías a compartir el dinero? Debes comenzar con alguien. Y cuando lo haces, tienes toda la cantidad por delante. Darle una fracción aleatoria literalmente significa seleccionar al azar de toda la suma. No se puede decir que la suposición de tener un "primer hombre" está mal, porque de lo contrario el que comparte el dinero simplemente dividiría la suma por el número de hombres, ya que sabe de antemano cuántas personas hay. Ese es solo mi punto de vista: cuando dices que divides el dinero "al azar", simplemente habrá un hombre recibiendo más dinero
Bogdan Alexandru
Bogdan Alexandru: Mi algoritmo (otra respuesta) tiene la característica de que la distribución para cada individuo es la misma sin importar si se eligen primero, en el medio o en el último. También corresponde a una densidad uniforme en todo el espacio restringido por la cantidad total asignada.
Henry