Supongamos que tenemos puntos en un rectangular con límite , y estos puntos están distribuidos uniformemente en este plano. (No estoy muy familiarizado con las estadísticas, así que no sé la diferencia entre elegir uniformemente un nodo en el área , o elegir uniformemente el eje de y eje x de independientemente).
Dado un umbral de distancia , es posible que desee saber la probabilidad de que la distancia euclidiana de dos puntos sea menor que , o más precisamente, ¿cuántos pares de nodos serán menores que ?
Tal vez la siguiente descripción sería inequívoca.
Déjame especificar este problema. Dados nodos y umbral . Estos puntos están distribuidos uniformemente en un rectángulo . Denota una variable aleatoria como el número de pares de puntos dentro de la distancia . Encuentra .
fuente
probability
.Respuestas:
Podemos resolver este problema analíticamente usando alguna intuición geométrica y argumentos . Desafortunadamente, la respuesta es bastante larga y un poco desordenada.
Configuración básica
Primero, expongamos alguna notación. Supongamos que dibujamos puntos al azar uniformemente desde el rectángulo . Suponemos sin pérdida de generalidad que . Deje que sean las coordenadas del primer punto y las coordenadas del segundo punto. Entonces, , , e son mutuamente independientes con distribuido uniformemente en e distribuido uniformemente en .[0,a]×[0,b] 0<b<a (X1,Y1) (X2,Y2) X1 X2 Y1 Y2 Xi [0,a] Yi [0,b]
Considere la distancia euclidiana entre los dos puntos. Esto es dondey.
Distribuciones triangulares
Como y son uniformes independientes, entonces tiene una distribución triangular, de dondetiene una distribución con función de densidad La función de distribución correspondiente es para . Del mismo modo,tiene densidad y función de distribución .X1 X2 X1−X2 Z1=|X1−X2|
Tenga en cuenta que dado que es una función solo de los dos y es solo una función de , y son independientes. Entonces, la distancia entre los puntos es la norma euclidiana de dos variables aleatorias independientes (con diferentes distribuciones).Z1 Xi Z2 Yi Z1 Z2
El panel izquierdo de la figura muestra la distribución de y el panel derecho muestradonde en este ejemplo.X1−X2 Z1=|X1−X2| a=5
Alguna probabilidad geométrica
Por lo tanto, y son independientes y se admiten en y respectivamente. Para fijo , la función de distribución de la distancia euclidiana esZ1 Z2 [0,a] [0,b] d
Podemos pensar en esto geométricamente como una distribución en el rectángulo y considerando un cuarto de círculo de radio . Nos gustaría saber la probabilidad que hay dentro de la intersección de estas dos regiones. Hay tres posibilidades diferentes a considerar:[0,a]×[0,b] d
Región 1 (naranja): . Aquí el cuarto de círculo se encuentra completamente dentro del rectángulo.0≤d<b
Región 2 (rojo): . Aquí el cuarto de círculo intersecta el rectángulo a lo largo de los bordes superior e inferior.b≤d≤a
Región 3 (azul): . El cuarto de círculo intersecta el rectángulo a lo largo de los bordes superior y derecho.a<d≤a2+b2−−−−−−√
Aquí hay una figura, donde dibujamos un radio de ejemplo de cada uno de los tres tipos. El rectángulo está definido por , . El mapa de calor en escala de grises dentro del rectángulo muestra la densidad donde las áreas oscuras tienen mayor densidad y las áreas más claras tienen menor densidad. Al hacer clic en la figura, se abrirá una versión más grande de la misma.a=5 b=4 fa(z1)fb(z2)dz1dz2
Un cálculo feo
Para calcular las probabilidades, necesitamos hacer algunos cálculos. Consideremos cada una de las regiones a su vez y veremos que surgirá una integral común. Esta integral tiene una forma cerrada, aunque no es muy bonita.
Región 1 : .0≤d<b
Ahora, la integral interna produce . Entonces, nos queda calcular una integral de la forma donde en este caso de interés . La antiderivada del integrando es1a2d2−y2−−−−−−√(2a−d2−y2−−−−−−√)
De esto obtenemos que .P(D≤d)=2a2b2(G(d)−G(0))
Región 2 : .b≤d≤a
Región 3 : .a<d≤a2+b2−−−−−−√
A continuación se muestra una simulación de 20000 puntos donde graficamos la distribución empírica como puntos grises y la distribución teórica como una línea, coloreada de acuerdo con la región particular que se aplica.
A partir de la misma simulación, a continuación trazamos los primeros 100 pares de puntos y dibujamos líneas entre ellos. Cada uno está coloreado de acuerdo con la distancia entre el par de puntos y en qué región cae esta distancia.
El número esperado de pares de puntos dentro de la distancia es simplemente por linealidad de expectativa.d
fuente
Si los puntos están verdaderamente distribuidos uniformemente, es decir, en un patrón conocido fijo, entonces, para cualquier distancia d, simplemente puede recorrer todos los pares y contar los que están dentro de la distancia. Su probabilidad es (ese número / n).
Si tiene la libertad adicional de elegir cómo se distribuyen / seleccionan los n puntos, entonces esta es la versión rectangular de la paradoja de Bertrand . Esa página muestra varias formas de responder a esta pregunta en función de cómo distribuye sus puntos.
fuente