Me pregunto si hay algún tipo de distribución estándar en subconjuntos de enteros . De manera equivalente, podríamos expresar esto como una distribución en un vector de longitud de resultados binarios, por ejemplo, si entonces corresponde al vector .
Idealmente, lo que estoy buscando es alguna distribución , que provenga de una familia indexada por un parámetro dimensional finito , que distribuya su masa de tal manera que dos vectores binarios y tengan un valor similar probabilidad si están "juntos" juntos, es decir, y tienen probabilidades similares. Realmente, lo que espero hacer es poner un prior en modo que si sé que es bastante grande, entonces probablemente sea grande en relación con los vectores muy alejados de .
Una estrategia que viene a la mente sería colocar una métrica o alguna otra medida de dispersión en en y luego tomar , o algo similar. Un ejemplo explícito sería en analogía con la distribución normal. Está bien, pero espero que haya algo estándar y susceptible de análisis bayesiano; con esto no puedo escribir la constante de normalización.
fuente
Respuestas:
Puede favorecer a las familias de ubicación en función de la distancia de Hamming , debido a su riqueza, flexibilidad y capacidad de cálculo.
Notación y definiciones
Recuerde que en un módulo dimensión finita libre con base , la distancia de Hamming entre dos vectores y es El número de lugares donde .V (e1,e2,…,eJ) δH v=v1e1+⋯+vJeJ w=w1e1+⋯+wJeJ i vi≠wi
Dado cualquier origen , la distancia de Hamming divide en esferas , , donde . Cuando el anillo de tierra tiene elementos, tiene elementos y tiene elementos. (Esto se deduce inmediatamente de observar que los elementos de difieren de en exactamente lugares, de los cuales hayv0∈V V Si(v0) i=0,1,…,J Si(v0)={w∈V | δH(w,v0)=i} n V nJ Si(v) (Ji)(n−1)i Si(v) v i (Ji) posibilidades, y que hay, independientemente, opciones de valores para cada lugar).n−1
La traducción afina en actúa naturalmente en sus distribuciones para dar familias de ubicaciones. Específicamente, cuando es cualquier distribución en (lo que significa poco más que , para todos y ) y es cualquier elemento de , entonces también es una distribución dóndeV f V f:V→[0,1] f(v)≥0 v∈V ∑v∈Vf(v)=1 w V f(w)
para todos . Un familias de de la distribución es invariante bajo esta acción: implica para todos .v∈V Ω f∈Ω f(v)∈Ω v∈V
Construcción
Esto nos permite definir familias de distribuciones potencialmente interesantes y útiles especificando sus formas en un vector fijo , que por conveniencia tomaré como , y traduciendo estas "distribuciones generadoras" bajo la acción de para obtener la familia completa . Para lograr la propiedad deseada de que debería tener valores comparables en puntos cercanos, simplemente requiere esa propiedad de todas las distribuciones generadoras.v 0=(0,0,…,0) V Ω f
Para ver cómo funciona esto, construyamos la familia de ubicaciones de todas las distribuciones que disminuyen con el aumento de la distancia. Como solo son posibles las distancias de Hamming , considere cualquier secuencia decreciente de números reales no negativos = . ConjuntoJ+1 a 0≠a0≥a1≥⋯≥aJ≥0
y defina la función porfa:V→[0,1]
Entonces, como es fácil de comprobar, es una distribución en . Además, si y solo si es un múltiplo positivo de (como vectores en ). Por lo tanto, si lo deseamos, podemos estandarizar a .fa V fa=fa′ a′ a RJ+1 a a0=1
Por consiguiente, esta construcción proporciona una parametrización explícita de todas esas distribuciones invariantes de ubicación que disminuyen con la distancia de Hamming: cualquier distribución de este tipo tiene la forma para alguna secuencia y algunos vector .f(v)a a=1≥a1≥a2≥⋯≥aJ≥0 v∈V
Esta parametrización puede permitir una conveniente especificación de los anteriores: factorizarlos en un prior en la ubicación y un prior en la forma . (Por supuesto, uno podría considerar un conjunto mayor de antecedentes donde la ubicación y la forma no son independientes, pero esta sería una tarea más complicada).v a
Generando valores aleatorios
Una forma de muestras de es por etapas factorizándolas en una distribución sobre el radiofrecuencia esférica y otra distribución condicional en cada esfera:f(v)a
Dibuje un índice de la distribución discreta en dada por las probabilidades , donde se define como antes .i {0,1,…,J} (Ji)(n−1)iai/A A
El índice corresponde al conjunto de vectores que difieren de en exactamente lugares. Por lo tanto, seleccione los que coloque fuera de los posibles subconjuntos , dando a cada uno la misma probabilidad. (Esto es sólo una muestra de subíndices de y sin reemplazo.) Que este subconjunto de lugares escribirse .i v i i (Ji) i J i I
Dibuje un elemento seleccionando independientemente un valor uniformemente del conjunto de escalares que no sea igual a para todos y establezca . De manera equivalente, cree un vector seleccionando uniformemente al azar de los escalares distintos de cero cuando y estableciendo . Establezca .w wj vj j∈I wj=vj u uj j∈I uj=0 w=v+u
El paso 3 es innecesario en el caso binario.
Ejemplo
Aquí hay una
R
implementación para ilustrar.Como ejemplo de su uso:
Esto tomó segundos para dibujar elementos iid de la distribución donde , (el caso binario), y está disminuyendo exponencialmente.0.2 104 f(v)a J=10 n=2 v=(1,1,…,1) a=(211,210,…,21)
(Este algoritmo no requiere que esté disminuyendo; por lo tanto, generará variaciones aleatorias de cualquier familia de ubicaciones, no solo las unimodales).a
fuente
Una muestra de un proceso de punto k-determinante modela una distribución sobre subconjuntos que fomenta la diversidad, de modo que es menos probable que elementos similares ocurran juntos en la muestra. Consulte el muestreo del proceso del punto K-determinante por Alex Kulesza, Ben Taskar.
fuente