La peor cantidad de preguntas necesarias para aprender un predicado monótono sobre un poset

15

Considere un poset finito sobre elementos, y un predicado monotónico desconocido sobre (es decir, para cualquier , , si y luego ) . Puedo evaluar proporcionando un nodo y descubriendo si P (x) se mantiene o no. Mi objetivo es determinar exactamente el conjunto de nodos x \ en X de forma tal que P (x) se mantenga, utilizando tan pocas evaluaciones de P(X,)nPXxyXP(x)xyP(y)PxXP(x)xXP(x)Pcomo sea posible. (Puedo elegir mis consultas dependiendo de la respuesta de todas las consultas anteriores, no estoy obligado a planificar todas las consultas por adelantado).

Una estrategia S sobre (X,) es una función que me dice, en función de las consultas que ejecuté hasta ahora y sus respuestas, qué nodo consultar y que garantiza eso en cualquier predicado P , siguiendo la estrategia , Alcanzaré un estado en el que sé el valor de P en todos los nodos. El tiempo de ejecución r(S,P) de S en un predicado P es el número de consultas requeridas para conocer el valor de P en todos los nodos. El peor tiempo de ejecución de S es wr(S)=maxPr(S,P) . Una estrategia óptima S es tal que wr(S)=minSwr(S) .

Mi pregunta es la siguiente: dado como entrada el poset (X,) , ¿cómo puedo determinar el peor tiempo de ejecución de las estrategias óptimas?

[Está claro que para un poset vacío se necesitarán n consultas (necesitamos preguntar sobre cada nodo individual), y que para un orden total alrededor de log2n se necesitarán consultas (haciendo una búsqueda binaria para encontrar la frontera). Un resultado más general es el siguiente límite inferior teórico de la información: el número de opciones posibles para el predicado P es el número NX de antichains de (X,) (porque hay un mapeo uno a uno entre predicados monotónicos y antichains interpretados como los elementos máximos de P ), por lo tanto, dado que cada consulta nos da un poco de información, necesitaremos al menos log2NXconsultas, sumando los dos casos anteriores. ¿Es estrictamente limitado o son algunos posets cuya estructura es tal que el aprendizaje puede requerir asintóticamente más consultas que el número de antichains?]

a3nm
fuente
2
¿Cómo es esto diferente de su pregunta anterior sobre este tema? cstheory.stackexchange.com/questions/14772/…
Suresh Venkat
1
De acuerdo, es similar, pero estoy interesado en los posets generales aquí, incluidos los posets de pequeño ancho que no se parecen en absoluto a la red completa. Además, ya no me importa la complejidad incremental ni nada por el estilo, solo por la cantidad de consultas requeridas en función de la elección del poset. En esta configuración, la interpretación de la función booleana no es aplicable y realmente parece que la respuesta depende de alguna manera de la "estructura" del poset (tal vez el número de antichains, como sugerí). Espero que esto amerite una pregunta separada, por favor cierre si me equivoqué.
a3nm
1
Para su información, en la literatura de complejidad, las estrategias como las ha definido generalmente se denominan "árboles de decisión" y tienen una noción estándar de altura (la medida que le interesa) y el tamaño.
Joshua Grochow
Gracias Joshua! Soy más o menos consciente de esto, solo pensé que era más simple usar vocabulario de la teoría de juegos, pero sí, soy consciente de que la estrategia puede verse como un árbol.
a3nm
1
(No hay problema. Por cierto, no solo estaba señalando que se puede ver como un árbol. La forma en que lo describió es realmente muy clara y clara, sino que le estaba proporcionando una palabra clave / término de arte que podría poder buscar, además de un término que probablemente sea inmediatamente familiar para muchas personas que frecuentan este sitio. ¡Saludos!)
Joshua Grochow

Respuestas:

7

Esta no es una respuesta completa, pero es demasiado larga para ser un comentario.

Creo que encontré un ejemplo para el cual el enlace no está ajustado.log2NX

Considere el siguiente poset. El conjunto de bases es , y es más pequeño que para todo . Los otros pares son incomparables. (El diagrama de Hasse es de ciclos).a i b j i , j { 1 , 2 } 4X={a1,a2,b1,b2}aibji,j{1,2}4

Permítanme identificar las propiedades monótonas con los trastornos del poset. Este poset tiene siete problemas: , , , , , , , y este poset tiene siete antichains ya que las antichains están en correspondencia uno a uno con los trastornos. Entonces, para este poset.{ b 1 } { b 2 } { b 1 , b 2 } { a 1 , b 1 , b 2 } { a 2 , b 1 , b 2 } { a 1 , a 2 , b 1 , b 2 } log 2 N X= log 2 7 {b1}{b2}{b1,b2}{a1,b1,b2}{a2,b1,b2}{a1,a2,b1,b2}log2NX=log27=3

Ahora, por argumento adversario, mostraré que cualquier estrategia necesita al menos cuatro consultas (por lo que necesita consultar todos los elementos). Arreglemos una estrategia arbitraria.

Si la estrategia primero consulta , el adversario responde " no se cumple". Luego, nos quedan cinco posibilidades: , , , , . Por lo tanto, para determinar cuál es el caso, necesitamos al menos consultas más. En total, necesitamos cuatro consultas. El mismo argumento se aplica si la primera consulta es . P ( a 1 ) { b 1 } { b 2 } { b 1 , b 2 } { a 2 , b 1 , b 2 } log 2 5 = 3 a 2a1P(a1){b1}{b2}{b1,b2}{a2,b1,b2}log25=3a2

Si la estrategia primero consulta , entonces el adversario responde " espera". Luego, nos quedan cinco posibilidades: , , , , . Por lo tanto, necesitamos al menos tres consultas más como antes. En total, necesitamos cuatro consultas. El mismo argumento se aplica cuando la primera consulta es . P ( b 1 ) { b 1 } { b 1 , b 2 } { a 1 , b 1 , b 2 } { a 2 , b 1 , b 2 } { a 1 , a 2 , b 1 , b 2 } b 2b1P(b1){b1}{b1,b2}{a1,b1,b2}{a2,b1,b2}{a1,a2,b1,b2}b2

Si tomamos copias paralelas de este poset, entonces tiene antichains, y por lo tanto el límite propuesto es . Pero, dado que cada una de las copias necesita cuatro consultas, necesitamos al menos consultas.7 klog 2 7 k= 3 k 4 kk7klog27k=3k4k

Probablemente, hay un poset más grande con una brecha más grande. Pero este argumento solo puede mejorar el coeficiente.

Aquí, el problema parece ser una situación en la que ninguna consulta divide el espacio de búsqueda de manera uniforme. En tal caso, el adversario puede obligar a la mitad más grande a permanecer.

Yoshio Okamoto
fuente
1
Ah interesante. Generalizando su ejemplo a , está claro que si la respuesta es y entonces no lo sabremos con seguridad hasta que se todos los nodos. Sin embargo, hay antichains ( subconjuntos no vacíos de 's, idem para ' s y el conjunto vacío), por lo que el límite no está ajustado por un factor de 2. Gracias por este ejemplo. Sin embargo, realmente no veo cómo / si la brecha podría ser más que un factor multiplicativo, o si se puede encontrar un límite superior no trivial, y mucho menos un algoritmo para una respuesta exacta. i , ¬ P ( a i ) i , P ( b i ) 2 n 2 n + 1 - 1 2 n - 1 a i b iX={a1,...,an,b1,...,bn}i,¬P(ai)i,P(bi)2n2n+112n1aibi
a3nm
7

En su artículo, Cada Poset tiene un Elemento Central , Linial y Saks muestran (Teorema 1) que el número de consultas requeridas para resolver el problema de identificación ideal en un poset es como máximo , donde y es el número de ideales de . Lo que ellos llaman un "ideal" es en realidad un conjunto más bajo y hay una correspondencia obvia entre los predicados monótonos y el conjunto más bajo de los puntos en los que no se mantienen, además de su "problema de identificación" es identificar mediante consultas nodos al igual que en mi configuración, por lo que creo que están lidiando con el problema que me interesa y queK 0 log 2 i ( X ) K 0 = 1 / ( 2 - log 2 ( 1 + log 2 5 ) ) i ( X ) X i ( X ) = N XXK0log2i(X)K0=1/(2log2(1+log25))i(X)Xi(X)=NX.

Entonces, de acuerdo con su resultado, el límite inferior teórico de la información está ajustado a una constante multiplicativa relativamente pequeña. Entonces, esto básicamente resuelve la cuestión del número de preguntas requeridas, en función de y hasta una constante multiplicativa: está entre y .log 2 N X K 0 log 2 N XNXlog2NXK0log2NX

Linial y Saks citan una comunicación personal de Shearer para decir que existen órdenes conocidas para las cuales podemos probar un límite inferior de para algunos que es un poco menos que (esto está en el espíritu de la respuesta de Yoshio Okamoto este enfoque por un valor menor de ).K 1 K 0 K 1K1log2NXK1K0K1

Sin embargo, esto no responde completamente a mi pregunta de calcular el número de preguntas requeridas de , dado que calcular de es # P-completo , tengo la sensación de que hay pocas esperanzas. (Los comentarios sobre este punto son bienvenidos). Aún así, este resultado de Linial y Saks es esclarecedor.N X XXNXX

a3nm
fuente
5

Para el n-cubo booleano (o, de manera equivalente, para el poset ( 2 S , ) de todos los subconjuntos de un conjunto de elementos n), la respuesta viene dada por los teoremas de Korobkov y Hansel (desde 1963 y 1966, respectivamente). El teorema de Hansel [1] establece que una función booleana monótona desconocida (es decir, un predicado monótono desconocido en este poset) puede aprenderse mediante un algoritmo determinista que hace como máximo consultas (es decir, preguntar({0,1}n,)(2S,) ϕ(n)ϕ(n)-1ϕ(n)=(nn/2)+(nn/2+1)ϕ(n)preguntas en el peor de los casos). Este algoritmo coincide con el límite inferior del teorema de Korobkov [2], que dice que las consultas no son suficientes. (Por lo tanto, el algoritmo de Hansel es óptimo en el peor de los casos). Un algoritmo en ambas declaraciones se entiende como un árbol de decisión determinista.ϕ(n)1

El logaritmo del número de antichains en es asintóticamente igual a , por lo que hay una brecha de factor constante entre y el rendimiento óptimo del algoritmo para este poset.( n({0,1}n,) logNXϕ(n)2 ( n(nn/2)2n/πn/2logNXϕ(n)2(nn/2)

Desafortunadamente, no he podido encontrar un buen tratamiento del algoritmo de Hansel en inglés disponible en la web. Se basa en un lema que divide el cubo cadenas con propiedades especiales. Se puede encontrar alguna descripción en [3]. Para el límite inferior, no conozco ninguna referencia a una descripción en inglés.ϕ(n)

Como estoy familiarizado con estos resultados, puedo publicar una descripción en arXiv, si el tratamiento en el documento de Kovalerchuk no es suficiente.

Si no me equivoco mucho, ha habido intentos de generalizar el enfoque de Hansel, al menos al poset , donde es una cadena , aunque no puedo dar ninguna referencia de inmediato. Para el caso booleano, las personas también han investigado nociones de complejidad distintas del peor de los casos para este problema.( E k , ) 0 < 1 < < k - 1(Ekn,)(Ek,)0<1<<k1

[1] G. Hansel, Sur le nombre des fonctions booléennes monotones de n variables. CR Acad. Sci. París, 262 (20), 1088-1090 (1966)

[2] VK Korobkov. Estimación del número de funciones monotónicas del álgebra de la lógica y de la complejidad del algoritmo para encontrar el conjunto resolvente para una función monotónica arbitraria del álgebra de la lógica. Matemáticas soviéticas. Doklady 4, 753-756 (1963) (traducción del ruso)

[3] B. Kovalerchuk, E. Triantaphyllou, AS Deshpande, E. Vityaev. Aprendizaje interactivo de funciones booleanas monótonas. Ciencias de la información 94 (1), 87-118 (1996) ( enlace )

dd1
fuente
Muchas gracias por esta respuesta detallada! Para el booleano -cube, cf < cstheory.stackexchange.com/q/14772 >. Puedo leer en francés pero no pude encontrar el artículo de Hansel (debería haber estado disponible en Gallica pero parece que falta este tema). Encontré información relevante en Sokolov, NA (1982), "Sobre la evaluación óptima de funciones booleanas monótonas", URSS Comput Math Math Phys, Vol. 22, No 2, 207-220 (existe traducción al inglés). Me interesan las generalizaciones a otros DAG si puede encontrar referencias. No dude en responder por correo electrónico (a3nm AT a3nm DOT net) si el límite de longitud es un problema. ¡Gracias de nuevo! n
a3nm
¡De nada! Desafortunadamente, no sé cómo vincular el tiempo de ejecución del algoritmo en términos de tamaño de salida. La prueba de Korobkov del límite inferior, por ejemplo, no da una respuesta a esa pregunta. Sin embargo, creo que puede haber una referencia que sea ligeramente relevante. Trataré de encontrar algo de tiempo durante el fin de semana y buscaré generalizaciones también. Al mismo tiempo, no estoy seguro de si una descripción cerrado Inglés del caso de Boole (estos dos teoremas) vale la escritura ...
DD1
@ a3nm tal vez el caso DAG no ha sido considerado en la literatura? ¿podría ser más difícil que el cubo n booleano ordenado por inclusión?
vzn
@vzn Supongo que al menos algunas de las preguntas aquí están abiertas. Incluso para una cadena, no está claro de inmediato cómo generalizar el algoritmo de Hansel.
dd1
@ a3nm, todo parece ser similar a encontrar límites más bajos / circuitos monótonos mínimos (tamaños), pero hasta ahora no lo
he
0

[ NOTA: El siguiente argumento no parece funcionar, pero lo dejo aquí para que otros no cometan el mismo error / en caso de que alguien pueda solucionarlo. El problema es que un límite inferior exponencial en el aprendizaje / identificación de una función monótona, como se muestra a continuación, no necesariamente contradice un algoritmo polinomial incremental para el problema. Y es lo último lo que equivale a verificar la dualidad mutua de dos funciones monótonas en el tiempo poli.]

logNXlogNXXX{1,...,n}MXlogM=(1+o(1))(n1n/2)logNXX(n1n/2)2n2n

2n

[1] Liviu Ilinca y Jeff Kahn. Contando antichains máximos y conjuntos independientes . arXiv: 1202.4427

Joshua Grochow
fuente
logNXn
Ah bien. No estaba al tanto de eso. (Como dije, no soy un experto en esta área, mi respuesta se basó en buscar algunas cosas y armarlas). Lo dejaré aquí para que otras personas puedan verlo y al menos no hacer el mismo error / en el mejor de los casos, convertirlo en algo útil.
Joshua Grochow