Cuando los algoritmos de ML, por ejemplo, Vowpal Wabbit o algunas de las máquinas de factorización que ganan concursos de clics ( Kaggle ), mencionan que las características son 'hash', ¿qué significa eso realmente para el modelo? Digamos que hay una variable que representa la ID de un complemento de Internet, que toma valores como '236BG231'. Entonces entiendo que esta característica se convierte en un entero aleatorio. Pero mi pregunta es:
- ¿Es el entero ahora usado en el modelo, como un entero (numérico) O
- ¿El valor hash todavía se trata como una variable categórica y está codificado en caliente? Entonces, ¿el truco del hash es solo ahorrar espacio de alguna manera con datos grandes?