Varios algoritmos populares de aprendizaje automático, como la regresión logística o las redes neuronales, requieren que sus entradas sean numéricas.
Lo que me interesa es cómo hacer que estos algoritmos funcionen en entradas no numéricas (como cadenas cortas).
Como ejemplo, supongamos que estamos creando un sistema de clasificación de correo electrónico (spam / no spam), donde una de las características de entrada es la dirección del remitente.
Para poder utilizar un algoritmo de aprendizaje, necesitamos representar la dirección del remitente como un número. Una forma es simplemente numerar los remitentes 1..n. Nuestro conjunto de entrenamiento podría verse así:
Sin embargo, esto no funcionará porque los algoritmos como la regresión logística o las redes neuronales aprenden patrones en los datos de entrada, mientras que en nuestro ejemplo, la salida parece totalmente aleatoria para el algoritmo. De hecho, una vez en una clase universitaria, tratamos de entrenar una red neuronal en un conjunto de datos que se parecía a esto y la red no pudo aprender nada (la curva de aprendizaje era plana).
¿Usaría regresión logística o redes neuronales en este ejemplo? Si es así, ¿de qué manera? Si no, ¿cuál sería una buena manera de clasificar los correos electrónicos según la dirección del remitente?
Una respuesta perfecta discutiría el ejemplo de clasificación de correo electrónico, así como el manejo de cadenas cortas en ML en general.
fuente