Muchos algoritmos de aprendizaje automático, por ejemplo, redes neuronales, esperan lidiar con los números. Entonces, cuando tiene datos categóricos, necesita convertirlos. Por categórico quiero decir, por ejemplo:
Marcas de automóviles: Audi, BMW, Chevrolet ... ID de usuario: 1, 25, 26, 28 ...
Aunque los ID de usuario son números, son solo etiquetas y no significan nada en términos de continuidad, como edad o suma de dinero.
Entonces, el enfoque básico parece usar vectores binarios para codificar categorías:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Está bien cuando hay pocas categorías, pero más allá de eso parece un poco ineficiente. Por ejemplo, cuando tiene 10 000 ID de usuario para codificar, son 10 000 funciones.
La pregunta es, ¿hay una mejor manera? Tal vez uno con probabilidades?
fuente
Respuestas:
Siempre puede tratar sus identificadores de usuario como una bolsa de palabras: la mayoría de los clasificadores de texto pueden manejar cientos de miles de dimensiones cuando los datos son escasos (muchos ceros que no necesita almacenar explícitamente en la memoria, por ejemplo, si utiliza Filas dispersas comprimidas representación para su matriz de datos).
Sin embargo, la pregunta es: ¿tiene sentido wrt su problema específico para tratar los identificadores de usuario como características? ¿No tendría más sentido desnormalizar sus datos de relación y utilizar las características del usuario (edad, ubicación, caracteres del apodo en línea, historial de transacciones ...) en lugar de sus identificadores?
También puede realizar la agrupación de sus vectores de usuario sin procesar y utilizar los N principales ID de centros más cercanos como características activadas en lugar de los identificadores de usuario.
fuente
La codificación equilátera es probablemente lo que está buscando cuando intenta codificar clases en una red neuronal. Tiende a funcionar mejor que la codificación "1 de n" a la que se hace referencia en otras publicaciones. Como referencia puedo sugerir: http://www.heatonresearch.com/wiki/Equilateral
fuente