¿Cómo encontrar la distancia esperada entre dos puntos distribuidos uniformemente?

9

Si tuviera que definir las coordenadas y donde( X 2 , Y 2 )(X1,Y1)(X2,Y2)

X1,X2Unif(0,30) and Y1,Y2Unif(0,40).

¿Cómo encontraría el valor esperado de la distancia entre ellos?

Estaba pensando, ya que la distancia se calcula por (X1X2)2+(Y1Y2)2) sería el valor esperado solo ser (1/30+1/30)2+(1/40+1/40)2 ?

Mathlete
fuente
Su código LaTeX no se procesaba correctamente. Espero que mi solución sea lo que pretendías
Peter Flom - Restablecer a Monica
Casi, pero me ayudó a llegar al final, muchas gracias.
Mathlete
2
Pregunta equivalente en el sitio de matemáticas: Distancia promedio entre puntos aleatorios en un rectángulo . Una pregunta relacionada: Probabilidad de que puntos uniformemente aleatorios en un rectángulo tengan una distancia euclidiana menor que un umbral dado . (Desafortunadamente, nunca llegué a aceptar a @whuber con sus sugerencias allí. Trataré de encontrar algo de tiempo para hacerlo.)
cardenal
1
Gracias por esos enlaces, @cardinal. Aunque la versión matemática no explica la respuesta, solo la presenta, contiene enlaces a una derivación, que vale la pena revisar.
whuber

Respuestas:

2
##problem
x <- runif(1000000,0,30)
y <- runif(1000000,0,40)
Uniform <- as.data.frame(cbind(x,y))
n <- nrow(Uniform)
catch <- rep(NA,n)
for (i in 2:n) {
      catch[i] <-((x[i+1]-x[i])^2 + (y[i+1]-y[i])^2)^.5
}
mean(catch, na.rm=TRUE)
18.35855

Si entiendo correctamente lo que está buscando, tal vez esto ayude. Estás tratando de calcular la distancia entre puntos aleatorios, cuyos valores X se generan a partir de unif (0,30) y los valores Y se generan a partir de unif (0,40). Acabo de crear un millón de vehículos recreativos de cada uno de ellos para distribuciones y luego uní las x y las y para crear un punto para cada una de ellas. Luego calculé la distancia entre los puntos 2 y 1 hasta la distancia entre los puntos 1,000,000 y 999,999. La distancia promedio fue de 18.35855. Avísame si esto no es lo que estabas buscando.

Eric Peterson
fuente
Tomó la libertad de editar para formatear.
curious_cat
2
Estuviste bastante cerca, quizás por casualidad. La verdadera respuesta es = . Su código tiene dos problemas: (1) las iteraciones no son independientes entre sí; y (2) para obtener una precisión razonable, debe codificarse para que sea más rápido. ¿Por qué no hacer la simulación directamente, como en . Eso le dará aproximadamente cuatro cifras significativas (en menos tiempo), como puede verificar calculando el error estándar . 18.3459191108(871+960log(2)+405log(3))18.345919n <- 10^7; distance <- sqrt((runif(n,0,30)-runif(n,0,30))^2 + (runif(n,0,40)-runif(n,0,40))^2)sd(distance) / sqrt(n)
whuber
@whuber: ¿Puedes explicar tu # 1? por ejemplo, (Caso I), dibujé pares de números aleatorios de cualquier distribución dada y calculé las diferencias y tomé una media. Versus (Caso II) Seguí dibujando un número a la vez y seguí calculando las diferencias de carrera con respecto al último sorteo de números y luego promedié. ¿El promedio reportado por el Caso I y el Caso II sería sistemáticamente diferente?
curious_cat
1
@curious_cat No, los promedios serían más o menos los mismos: pero el cálculo del error estándar sería diferente. Necesitamos ese cálculo para estimar qué tan cerca es probable que la media llegue al valor verdadero. En lugar de resolver el cálculo SE más complicado, es más simple generar pares de puntos completamente independientes uno del otro, exactamente como se estipula en la pregunta. (Hay muchas maneras en que una simulación puede salir mal, lo sé por experiencia, que es aconsejable hacer que la simulación imite la realidad lo más cerca posible)
Whuber
@whuber: Gracias por aclarar. Entonces, si Clark hubiera ejecutado su código por más tiempo, podría haber obtenido más decimales, ¿verdad?
curious_cat
16

Es claro, al observar la pregunta geométricamente, que la distancia esperada entre dos puntos independientes, uniformes y aleatorios dentro de un conjunto convexo será un poco menos de la mitad de su diámetro . (Debería ser menos porque es relativamente raro que los dos puntos se ubiquen dentro de áreas extremas como esquinas y más a menudo en el caso de que estén cerca del centro, donde están cerca). Dado que el diámetro de este rectángulo es , por este razonando solo, anticiparíamos que la respuesta será un poco menos de .255025

Se obtiene una respuesta exacta de la definición de expectativa como el valor ponderado de probabilidad de la distancia. En general, considere un rectángulo de los lados y ; luego lo al tamaño correcto (estableciendo y multiplicando la expectativa por ). Para este rectángulo, usando coordenadas , la densidad de probabilidad uniforme es . La distancia media dentro de este rectángulo está dada por1λλ=40/3030(x,y)1λdxdy

0λ010λ01(x1x2)2+(y1y2)21λdx1dy11λdx2dy2.

El uso de métodos de integración elemental es sencillo pero doloroso de hacer; Empleé un sistema de álgebra computacional ( Mathematica ) para obtener la respuesta

[2+2λ521+λ2+6λ21+λ22λ41+λ2+5λArcSinh(λ)+5λ4log(1+1+λ2λ)]/(30λ2).

La presencia de en muchos de estos términos no es sorprendente: es el diámetro del rectángulo (la distancia máxima posible entre dos puntos dentro de él). La aparición de logaritmos (que incluye el arco) tampoco es sorprendente si alguna vez has investigado distancias medias dentro de figuras planas simples: de alguna manera siempre aparece (una pista de esto aparece en la integral de la función secante). Por cierto, la presencia de en el denominador no tiene nada que ver con los detalles del problema que involucra un rectángulo de los lados y : es una constante universal).1+λ2303040

Con y la ampliación en un factor de , esto se evalúa como .30 1λ=4/3301108(871+960log(2)+405log(3))18.345919


Una forma de entender la situación más profundamente es trazar la distancia media relativa al diámetro de para valores variables de . Para valores extremos (cerca de o mucho mayor que ), el rectángulo se vuelve esencialmente unidimensional y una integración más elemental indica que la distancia media debería reducir a un tercio del diámetro. Además, debido a que las formas de los rectángulos con y son las mismas, es natural trazar el resultado en una escala logarítmica de , donde debe ser simétrica sobre (el cuadrado). Aquí está: λ01λ1/λλλ=11+λ2λ01λ1/λλλ=1

Trama

Con esto aprendemos una regla general : la distancia media dentro de un rectángulo está entre y (aproximadamente) de su diámetro, con los valores más grandes asociados con rectángulos cuadrados y los valores más pequeños asociados con el largo flaco (lineal ) rectángulos. El punto medio entre estos extremos se logra aproximadamente para rectángulos con relaciones de aspecto de . Con esta regla en mente, puede simplemente mirar un rectángulo y estimar su distancia media a dos cifras significativas.0,37 3 : 11/30.330.373:1

whuber
fuente
¿Debería ser "diagonal" en lugar de "diámetro"? Lo siento si estoy haciendo trampa.
curious_cat
@curious_cat Por definición, el diámetro de un conjunto de puntos (en cualquier espacio métrico) es el supremum de las distancias entre dos puntos cualquiera en él. Para un rectángulo es (obviamente) la longitud de una diagonal.
whuber
¡Gracias! No me di cuenta de eso. Estaba usando un ingenuo concepto de diámetro.
curious_cat
Como comentario: ¿Para todos los rectángulos de un área dada, la distancia media se minimizaría para un cuadrado?
curious_cat
2
En el espíritu de esto , desearía que hubieras comenzado esta respuesta con "Es plano ..." (+1)
cardenal