Estoy tratando de optimizar un fragmento de código que compara elementos de la lista.
P.ej.
public void compare(Set<Record> firstSet, Set<Record> secondSet){
for(Record firstRecord : firstSet){
for(Record secondRecord : secondSet){
// comparing logic
}
}
}
Tenga en cuenta que el número de registros en conjuntos será alto.
Gracias
Shekhar
java
performance
set
Shekhar
fuente
fuente
Respuestas:
Realmente depende de lo que quiera hacer en la lógica de comparación ... es decir, ¿qué sucede si encuentra un elemento en un conjunto y no en el otro? Su método tiene un
void
tipo de retorno, así que supongo que hará el trabajo necesario en este método.Control más detallado si lo necesita:
Si necesita obtener los elementos que están en un conjunto y no en el otro.
EDITAR:
set.removeAll(otherSet)
devuelve un valor booleano, no un conjunto. Para usar removeAll (), tendrá que copiar el conjunto y luego usarlo.Si los contenidos de
one
ytwo
están vacíos, entonces sabrá que los dos conjuntos eran iguales. Si no es así, entonces tienes los elementos que hicieron que los conjuntos fueran desiguales.Mencionaste que la cantidad de registros podría ser alta. Si la implementación subyacente es a,
HashSet
entonces la recuperación de cada registro se realiza aO(1)
tiempo, por lo que realmente no puede ser mucho mejor que eso.TreeSet
esO(log n)
.fuente
equals
es más rápida que dos llamadas acontainsAll
en el peor de los casos; mira mi respuesta.Si simplemente desea saber si los conjuntos son iguales, el
equals
métodoAbstractSet
se implementa aproximadamente como se muestra a continuación:Tenga en cuenta cómo optimiza los casos comunes en los que:
Después de eso,
containsAll(...)
regresaráfalse
tan pronto como encuentre un elemento en el otro conjunto que no esté también en este conjunto. Pero si todos los elementos están presentes en ambos conjuntos, deberá probarlos todos.Por tanto, el peor de los casos se produce cuando los dos conjuntos son iguales pero no los mismos objetos. Ese costo suele ser
O(N)
oO(NlogN)
depende de la implementación dethis.containsAll(c)
.Y obtiene un rendimiento cercano al peor de los casos si los conjuntos son grandes y solo difieren en un pequeño porcentaje de los elementos.
ACTUALIZAR
Si está dispuesto a invertir tiempo en la implementación de un conjunto personalizado, existe un enfoque que puede mejorar "casi el mismo" caso.
La idea es que necesita calcular previamente y almacenar en caché un hash para todo el conjunto para poder obtener el valor actual del código hash del conjunto
O(1)
. Luego, puede comparar el código hash de los dos conjuntos como una aceleración.¿Cómo podrías implementar un código hash como ese? Bueno, si el código hash establecido fuera:
entonces podría actualizar de forma económica el código hash en caché del conjunto cada vez que agregue o elimine un elemento. En ambos casos, simplemente XOR el código hash del elemento con el código hash establecido actual.
Por supuesto, esto supone que los códigos hash de elementos son estables mientras que los elementos son miembros de conjuntos. También asume que la función de código hash de clases de elementos ofrece una buena distribución. Esto se debe a que cuando los dos códigos hash establecidos son iguales, aún debe recurrir a la
O(N)
comparación de todos los elementos.Podrías llevar esta idea un poco más lejos ... al menos en teoría.
ADVERTENCIA : esto es muy especulativo. Un "experimento mental" si quieres.
Suponga que su clase de elemento establecida tiene un método para devolver una suma de comprobación criptográfica para el elemento. Ahora implemente las sumas de verificación del conjunto haciendo XOR las sumas de verificación devueltas para los elementos.
¿Qué nos compra esto?
Bueno, si asumimos que no ocurre nada oculto, la probabilidad de que dos elementos de conjuntos desiguales tengan las mismas sumas de comprobación de N bits es 2 -N . Y la probabilidad de que 2 conjuntos desiguales tengan las mismas sumas de comprobación de N bits también es 2 -N . Entonces mi idea es que puedas implementar
equals
como:Bajo los supuestos anteriores, esto sólo le dará la respuesta equivocada una vez en 2 -N tiempo. Si hace que N sea lo suficientemente grande (por ejemplo, 512 bits), la probabilidad de una respuesta incorrecta se vuelve insignificante (por ejemplo, aproximadamente 10 -150 ).
La desventaja es que calcular las sumas de verificación criptográficas para elementos es muy costoso, especialmente a medida que aumenta la cantidad de bits. Por lo tanto, realmente necesita un mecanismo eficaz para memorizar las sumas de comprobación. Y eso podría ser problemático.
Y la otra desventaja es que una probabilidad de error distinta de cero puede ser inaceptable sin importar cuán pequeña sea la probabilidad. (Pero si ese es el caso ... ¿cómo maneja el caso en el que un rayo cósmico invierte un bit crítico? ¿O si simultáneamente invierte el mismo bit en dos instancias de un sistema redundante?)
fuente
Hay un método en Guayaba
Sets
que puede ayudar aquí:fuente
Tiene la siguiente solución de https://www.mkyong.com/java/java-how-to-compare-two-sets/
O si prefiere utilizar una única declaración de devolución:
fuente
equals()
método deAbstractSet
(enviado con JDK) que es casi el mismo que la solución aquí, excepto por las verificaciones nulas adicionales . Interfaz de configuración Java-11Existe una solución O (N) para casos muy específicos donde:
El siguiente código asume que ambos conjuntos se basan en registros comparables. Un método similar podría basarse en un comparador.
fuente
Si está utilizando la
Guava
biblioteca, es posible hacer lo siguiente:Y luego saque una conclusión basada en estos.
fuente
Pondría el secondSet en un HashMap antes de la comparación. De esta forma reducirá el tiempo de búsqueda de la segunda lista an (1). Me gusta esto:
fuente
fuente
Creo que se puede utilizar la referencia de método con el método igual. Suponemos que el tipo de objeto sin sombra de duda tiene su propio método de comparación. Un ejemplo simple y llano está aquí,
fuente
set.equals(set2)