Considere el problema de la intersección de conjuntos: Alice y Bob obtienen cada uno un subconjunto de , y les gustaría saber si sus conjuntos se intersecan. Este es un problema canónico de la complejidad de la comunicación, y es bien sabido que los protocolos aleatorizados para este problema requieren bits de comunicación ( ver encuesta aquí ). En el caso de que los conjuntos sean de tamaño para , se sabe que los protocolos aleatorios requieren bits ( ver aquí ).
Considere ahora la variante en la que Alice y Bob quieren saber el tamaño de la intersección de sus conjuntos. Claramente, calcular el tamaño exacto se reduce al problema estándar de intersección de conjuntos, y esto se cumple incluso si solo desean calcular una aproximación multiplicativa del tamaño. Sin embargo, ¿qué sucede si desean calcular una aproximación aditiva del tamaño de la intersección? ¿Hay algún límite inferior o superior conocido sobre este problema?
Estoy particularmente interesado en esta pregunta en la configuración de conjuntos pequeños, es decir, el caso en que los conjuntos son de tamaño .
Respuestas:
Daré dos límites superiores. Deje que y B sean los conjuntos dados a Alice y Bob, respectivamente, y ponga a = | A | , b = | B | , c = | A ∩ B | .A B a=|A| b=|B| c=|A∩B|
El protocolo es el siguiente:
Si , la parte que lo ve termina el protocolo y genera como la estimación. De lo contrario, Alice y Bob comunican y el uno al otro, y determinar que es más pequeño. Asumiré a continuación wlog que .0 a b a ≤ bd≥min{a,b} 0 a b a≤b
Alice dibuja muestras independientes aleatoriamente uniformes , , y las envía a Bob.a i ∈ A i < tt=log(2ϵ−1)a2/(2d2) ai∈A i<t
Bob estima como.ac at|{i<t:ai∈B}|
El protocolo es correcto según los límites de Chernoff-Hoeffding: si denota la variable aleatoria indicadora del evento , entonces , , son variables iid con media . Por lo tanto, y de manera similar para .a i ∈ B X i i < t p = c / a Pr [ a ¯ X ≤ c - d ] = Pr [ ¯ X ≤ p - dXi ai∈B Xi i<t p=c/a Pr[a ¯ X ≥c+d]
Ahora, estos límites son algo inútiles si : también hay variantes de Chernoff que indican lo que nos permitiría superar el número de muestras más pequeñas en un factor de aproximadamente . El problema es que es la cantidad que queremos aproximar, por lo tanto, no lo sabemos con anticipación. Esto puede remediarse haciendo primero un cálculo aproximado de .Pr [ ¯ X ≤ p - δ ]c≪a tpp=c/ac
Entonces, el protocolo mejorado calcula con probabilidad una aproximación aditiva de usando bits de comunicación, y bits de aleatoriedad, y se realiza de la siguiente manera (las constantes no están optimizadas):d c O ( min { a , b }≥1−ϵ d c O(min{a,b}O(min{a,b}d(1+cd)lognlogϵ−1) O(min{a,b}d(1+cd)logmin{a,b}logϵ−1)
Lo mismo que arriba.
Alice extrae muestras aleatorias de y las envía a Bob.Ar=10(logϵ−1)a/d A
Bob cuenta cuántas de estas muestras pertenecen a y envía este número, , a Alice.sB s
Si , el protocolo termina con la salida .0as/r≤d/2 0
Alice dibuja muestras aleatorias , , y se las envía a Bob.a i ∈ A i < tt=10sa/d ai∈A i<t
Bob estima como.ac at|{i<t:ai∈B}|
Sin entrar en detalles, los límites de Chernoff citados anteriormente implican que con alta probabilidad, el valor de es , en cuyo caso el protocolo no excede el costo establecido, y se calcula con alta probabilidad una buena estimación de por otra aplicación de los límites de Chernoff.s/r Θ(c/a) c
fuente
[La respuesta de Emil es claramente mejor y más simple si está interesado en este tipo de error, a menos que por alguna razón necesite que su protocolo sea determinista. ¡Vaya!]
Existen protocolos no triviales si está interesado en aproximaciones aditivas de tipo para constantes pequeñas .±δn δ>0
Por ejemplo, aquí hay uno:
Si este tipo de aproximación es interesante para usted, puede obtener más kilometraje de otros lemas de regularidad de gráficos, especialmente Frieze-Kannan. Aquí hay una encuesta.
fuente