Probabilidad de que puntos aleatorios uniformes en un rectángulo tengan una distancia euclidiana menor que un umbral dado

8

Supongamos que tenemos puntos en un rectangular con límite , y estos puntos están distribuidos uniformemente en este plano. (No estoy muy familiarizado con las estadísticas, así que no sé la diferencia entre elegir uniformemente un nodo en el área , o elegir uniformemente el eje de y eje x de independientemente).n[0,a]×[0,b][0,a]×[0,b]x[0,a]y[0,b]

Dado un umbral de distancia , es posible que desee saber la probabilidad de que la distancia euclidiana de dos puntos sea menor que , o más precisamente, ¿cuántos pares de nodos serán menores que ?ddd


Tal vez la siguiente descripción sería inequívoca.

Déjame especificar este problema. Dados nodos y umbral . Estos puntos están distribuidos uniformemente en un rectángulo . Denota una variable aleatoria como el número de pares de puntos dentro de la distancia . Encuentra .ndn[0,a]×[0,b]ξdE[ξ]

zhouzhuojie
fuente
Debería navegar a través de las preguntas en matemáticas. SE también, ya que recuerdo varias relacionadas allí. Es probable que estén etiquetados probability.
cardenal
1
Estas son algunas de las preguntas que recordaba haber visto en matemáticas. SE, pero ninguna de ellas es exactamente lo que usted pregunta: ( 1 ) math.stackexchange.com/questions/64028 ( 2 ) math.stackexchange.com/questions/66777 ( 3 ) math.stackexchange.com/questions/101692 ( 4 ) math.stackexchange.com/questions/50775
cardenal

Respuestas:

15

Podemos resolver este problema analíticamente usando alguna intuición geométrica y argumentos . Desafortunadamente, la respuesta es bastante larga y un poco desordenada.

Configuración básica

Primero, expongamos alguna notación. Supongamos que dibujamos puntos al azar uniformemente desde el rectángulo . Suponemos sin pérdida de generalidad que . Deje que sean las coordenadas del primer punto y las coordenadas del segundo punto. Entonces, , , e son mutuamente independientes con distribuido uniformemente en e distribuido uniformemente en .[0,a]×[0,b]0<b<a(X1,Y1)(X2,Y2)X1X2Y1Y2Xi[0,a]Yi[0,b]

Considere la distancia euclidiana entre los dos puntos. Esto es dondey.

D=(X1X2)2+(Y1Y2)2=:Z12+Z22,
Z1=|X1X2|Z2=|Y1Y2|

Distribuciones triangulares

Como y son uniformes independientes, entonces tiene una distribución triangular, de dondetiene una distribución con función de densidad La función de distribución correspondiente es para . Del mismo modo,tiene densidad y función de distribución .X1X2X1X2Z1=|X1X2|

fa(z1)=2a2(az1),0<z1<a.
Fa(z1)=1(1z1/a)20z1aZ2=|Y1Y2|fb(z2)Fb(z2)

Tenga en cuenta que dado que es una función solo de los dos y es solo una función de , y son independientes. Entonces, la distancia entre los puntos es la norma euclidiana de dos variables aleatorias independientes (con diferentes distribuciones).Z1XiZ2YiZ1Z2

El panel izquierdo de la figura muestra la distribución de y el panel derecho muestradonde en este ejemplo.X1X2Z1=|X1X2|a=5

Densidades triangulares

Alguna probabilidad geométrica

Por lo tanto, y son independientes y se admiten en y respectivamente. Para fijo , la función de distribución de la distancia euclidiana es Z1Z2[0,a][0,b]d

P(Dd)={z12+z22d2}fa(z1)fb(z2)dz1dz2.

Podemos pensar en esto geométricamente como una distribución en el rectángulo y considerando un cuarto de círculo de radio . Nos gustaría saber la probabilidad que hay dentro de la intersección de estas dos regiones. Hay tres posibilidades diferentes a considerar:[0,a]×[0,b]d

Región 1 (naranja): . Aquí el cuarto de círculo se encuentra completamente dentro del rectángulo.0d<b

Región 2 (rojo): . Aquí el cuarto de círculo intersecta el rectángulo a lo largo de los bordes superior e inferior.bda

Región 3 (azul): . El cuarto de círculo intersecta el rectángulo a lo largo de los bordes superior y derecho.a<da2+b2

Aquí hay una figura, donde dibujamos un radio de ejemplo de cada uno de los tres tipos. El rectángulo está definido por , . El mapa de calor en escala de grises dentro del rectángulo muestra la densidad donde las áreas oscuras tienen mayor densidad y las áreas más claras tienen menor densidad. Al hacer clic en la figura, se abrirá una versión más grande de la misma.a=5b=4fa(z1)fb(z2)dz1dz2

Distribución inducida: intersecciones

Un cálculo feo

Para calcular las probabilidades, necesitamos hacer algunos cálculos. Consideremos cada una de las regiones a su vez y veremos que surgirá una integral común. Esta integral tiene una forma cerrada, aunque no es muy bonita.

Región 1 : .0d<b

P(Dd)=0d0d2y2fb(y)fa(x)dxdy=0dfb(y)0d2y2fa(x)dxdy.

Ahora, la integral interna produce . Entonces, nos queda calcular una integral de la forma donde en este caso de interés . La antiderivada del integrando es 1a2d2y2(2ad2y2)

G(c)G(0)=0c(by)d2y2(2ad2y2)dy,
c=d
G(y)=(by)d2y2(2ad2y2)dy=a3d2y2(y(3b2y)+2d2)+abd2tan1(yd2y2)bd2y+by33+(dy)22y44.

De esto obtenemos que .P(Dd)=2a2b2(G(d)G(0))

Región 2 : .bda

P(Dd)=2a2b2(G(b)G(0)),
por el mismo razonamiento que para la Región 1, excepto que ahora debemos integrar a lo largo del eje hasta lugar de solo .ybd

Región 3 : . a<da2+b2

P(Dd)=0d2a2fb(y)dy+d2a2bfb(y)0d2y2fa(x)dxdy=Fb(d2a2)+2a2b2(G(b)G(d2a2))

A continuación se muestra una simulación de 20000 puntos donde graficamos la distribución empírica como puntos grises y la distribución teórica como una línea, coloreada de acuerdo con la región particular que se aplica.

PDF empírico y teórico

A partir de la misma simulación, a continuación trazamos los primeros 100 pares de puntos y dibujamos líneas entre ellos. Cada uno está coloreado de acuerdo con la distancia entre el par de puntos y en qué región cae esta distancia.

Muestra aleatoria de puntos

El número esperado de pares de puntos dentro de la distancia es simplemente por linealidad de expectativa.d

E[ξ]=(n2)P(Dd),
cardenal
fuente
3
+1. ¡Buen trabajo! Sería maravilloso ver la respuesta expresada en términos de propiedades geométricas intrínsecas del rectángulo: debería depender de cosas como su área, perímetro y configuración de los cuatro ángulos. (La literatura - que he visto que se hace referencia pero no han tenido acceso a - parece centrarse en dominios con límites lisos.)
whuber
Gracias. Esa es una excelente sugerencia. Intentaré hacer tales simplificaciones y reformulaciones.
cardenal
@cardinal Muy buen trabajo! Me sorprendió que haya respondido completamente el problema incluso con el detallado cdf. Gracias.
zhouzhuojie
0

Si los puntos están verdaderamente distribuidos uniformemente, es decir, en un patrón conocido fijo, entonces, para cualquier distancia d, simplemente puede recorrer todos los pares y contar los que están dentro de la distancia. Su probabilidad es (ese número / n).

Si tiene la libertad adicional de elegir cómo se distribuyen / seleccionan los n puntos, entonces esta es la versión rectangular de la paradoja de Bertrand . Esa página muestra varias formas de responder a esta pregunta en función de cómo distribuye sus puntos.

capa1232
fuente
La pregunta se refiere a la distribución de los puntos distribuidos uniformemente: estas son variables aleatorias, no cualquier "patrón conocido fijo", ¡y uno no puede simplemente recorrer pares de ellas!
whuber
Creo que puede haber entendido mal la pregunta del OP. Además, la distribución deseada se define inequívocamente en la pregunta. Mi comentario al OP insinúa que ya hay una solución en la red SE para esta pregunta, por lo tanto, esta puede cerrarse. :)
cardenal
¿Estás seguro de que hay una solución en matemáticas, SE, cardenal? Este es un problema difícil debido a los efectos de borde. Tal vez hay una solución en el toro plano.
whuber
@whuber: ¿Una solución? No. Pero estoy casi seguro de que esta pregunta aparece. :) Veré si puedo encontrarlo. En cualquier caso, no estoy seguro de que este problema sea tan difícil, incluso en este caso. Creo que puede usar la invariancia de traducción para simplificarla un poco. Pero no he resuelto los detalles.
cardenal
1
@ Cardinal Gracias. En realidad, revisé todas las preguntas sobre Math.SE, pero aún no pude encontrar algunas cercanas a este problema.
zhouzhuojie