Entradas de cadena en Machine Learning

8

Varios algoritmos populares de aprendizaje automático, como la regresión logística o las redes neuronales, requieren que sus entradas sean numéricas.

Lo que me interesa es cómo hacer que estos algoritmos funcionen en entradas no numéricas (como cadenas cortas).

Como ejemplo, supongamos que estamos creando un sistema de clasificación de correo electrónico (spam / no spam), donde una de las características de entrada es la dirección del remitente.

Para poder utilizar un algoritmo de aprendizaje, necesitamos representar la dirección del remitente como un número. Una forma es simplemente numerar los remitentes 1..n. Nuestro conjunto de entrenamiento podría verse así:

entradas para aprendizaje automático

Sin embargo, esto no funcionará porque los algoritmos como la regresión logística o las redes neuronales aprenden patrones en los datos de entrada, mientras que en nuestro ejemplo, la salida parece totalmente aleatoria para el algoritmo. De hecho, una vez en una clase universitaria, tratamos de entrenar una red neuronal en un conjunto de datos que se parecía a esto y la red no pudo aprender nada (la curva de aprendizaje era plana).

¿Usaría regresión logística o redes neuronales en este ejemplo? Si es así, ¿de qué manera? Si no, ¿cuál sería una buena manera de clasificar los correos electrónicos según la dirección del remitente?

Una respuesta perfecta discutiría el ejemplo de clasificación de correo electrónico, así como el manejo de cadenas cortas en ML en general.

Martin Konicek
fuente

Respuestas:

4

Uno de los modelos populares es el modelo Bag of Words.

Además, puede modelar las palabras como números enteros ... tienen 'métricas de distancia relativa' para eso y capturar la esencia misma del proceso de clasificación. Sin embargo, una desventaja de esto es que el paso de preprocesamiento es costoso y también debe tener algún conocimiento de dominio.

Una métrica de distancia bastante famosa es la distancia de Levenshtein, que se basa en el número de ediciones de caracteres individuales. p.ej. es decir,d(walk,talk)<d(walk,plod).

Las métricas dependen del contexto del proceso de clasificación ... por ejemplo, su métrica de distancia para clasificar palabras que riman será diferente de las diseñadas para clasificar sinónimos / palabras que transmiten significados similares. Para obtener una lista de métricas de cadena, consulte este artículo de Wikipedia. .

Además, puede echar un vistazo a este artículo de revisión .

Subhayan
fuente