1388

¿Qué algoritmo de hash es mejor para la unicidad y la velocidad? Los ejemplos (buenos) usos incluyen diccionarios hash.

Sé que hay cosas como SHA-256 y similares, pero estos algoritmos están diseñados para ser seguros , lo que generalmente significa que son más lentos que los algoritmos que son menos únicos . Quiero un algoritmo hash diseñado para ser rápido, pero que siga siendo bastante único para evitar colisiones.

algorithms hashing Earlz
fuente

99

¿Con qué propósito, seguridad u otro?

Orbling

19

@Orbling, para la implementación de un diccionario hash. Por lo tanto, las colisiones deben mantenerse al mínimo, pero no tiene ningún propósito de seguridad.

Earlz

44

Tenga en cuenta que tendrá que esperar al menos algunas colisiones en su tabla hash, de lo contrario, la tabla tendrá que ser enorme para poder manejar incluso un número relativamente pequeño de claves ...

Dean Harding

19

¡Buena publicación! ¿Podrías comprobar también xxHash de Yann Collet (creador o LZ4), que es el doble de rápido que Murmur? Página de inicio: code.google.com/p/xxhash Más información: fastcompression.blogspot.fr/2012/04/…

24

@zvrba Depende del algoritmo. bcrypt está diseñado para ser lento.

Izkata

2461

Probé algunos algoritmos diferentes, midiendo la velocidad y el número de colisiones.

Usé tres conjuntos de teclas diferentes:

Una lista de 216,553 palabras en inglés (en minúsculas)
Los números "1"para "216553"(piense en los códigos postales y cómo un hash pobre eliminó msn.com )
216,553 GUID "aleatorios" (es decir, de tipo 4 )

Para cada corpus, se registró el número de colisiones y el tiempo promedio empleado en el hashing.

Probé:

DJB2
DJB2a (variante usando en xorlugar de +)
FNV-1 (32 bits)
FNV-1a (32 bits)
SDBM
CRC32
Murmurio2 (32 bits)
SuperFastHash

Resultados

Cada resultado contiene el tiempo promedio de hash y el número de colisiones

Hash           Lowercase      Random UUID  Numbers
=============  =============  ===========  ==============
Murmur            145 ns      259 ns          92 ns
                    6 collis    5 collis       0 collis
FNV-1a            152 ns      504 ns          86 ns
                    4 collis    4 collis       0 collis
FNV-1             184 ns      730 ns          92 ns
                    1 collis    5 collis       0 collis▪
DBJ2a             158 ns      443 ns          91 ns
                    5 collis    6 collis       0 collis▪▪▪
DJB2              156 ns      437 ns          93 ns
                    7 collis    6 collis       0 collis▪▪▪
SDBM              148 ns      484 ns          90 ns
                    4 collis    6 collis       0 collis**
SuperFastHash     164 ns      344 ns         118 ns
                   85 collis    4 collis   18742 collis
CRC32             250 ns      946 ns         130 ns
                    2 collis    0 collis       0 collis
LoseLose          338 ns        -             -
               215178 collis

Notas :

El algoritmo LoseLose (donde hash = hash + carácter) es realmente horrible . Todo choca en los mismos 1,375 cubos
SuperFastHash es rápido, con cosas que se ven bastante dispersas; por Dios mío, el número de colisiones. Espero que el tipo que lo portó tenga algo mal; es bastante malo
CRC32 es bastante bueno . Más lento, y una tabla de búsqueda de 1k

¿Las colisiones suceden realmente?

Si. Comencé a escribir mi programa de prueba para ver si realmente ocurren colisiones de hash , y no son solo una construcción teórica. De hecho suceden:

Colisiones FNV-1

creamwove choca con quists

Colisiones FNV-1a

costarring choca con liquid
declinate choca con macallums
altarage choca con zinke
altarages choca con zinkes

Murmurio2 colisiones

cataract choca con periti
roquette choca con skivie
shawl choca con stormbound
dowlases choca con tramontane
cricketings choca con twanger
longans choca con whigs

Colisiones DJB2

hetairas choca con mentioner
heliotropes choca con neurospora
depravement choca con serafins
stylist choca con subgenera
joyful choca con synaphea
redescribed choca con urites
dram choca con vivency

DJB2a colisiones

haggadot choca con loathsomenesses
adorablenesses choca con rentability
playwright choca con snush
playwrighting choca con snushing
treponematoses choca con waterbeds

Colisiones CRC32

codding choca con gnu
exhibiters choca con schlager

Colisiones SuperFastHash

dahabiah choca con drapability
encharm choca con enclave
grahams choca con gramary
... corta 79 colisiones ...
night choca con vigil
nights choca con vigils
finks choca con vinic

Aleatorización

La otra medida subjetiva es la distribución aleatoria de los hashes. La asignación de las HashTables resultantes muestra cuán uniformemente se distribuyen los datos. Todas las funciones hash muestran una buena distribución al mapear la tabla linealmente: