Necesito una forma de comparar varias cadenas con una cadena de prueba y devolver la cadena que se parece mucho a ella:
TEST STRING: THE BROWN FOX JUMPED OVER THE RED COW
CHOICE A : THE RED COW JUMPED OVER THE GREEN CHICKEN
CHOICE B : THE RED COW JUMPED OVER THE RED COW
CHOICE C : THE RED FOX JUMPED OVER THE BROWN COW
(Si hice esto correctamente) La cadena más cercana a "TEST STRING" debería ser "CHOICE C". ¿Cuál es la forma más fácil de hacer esto?
Planeo implementar esto en varios idiomas, incluidos VB.net, Lua y JavaScript. En este punto, el pseudocódigo es aceptable. Si puede proporcionar un ejemplo para un idioma específico, ¡esto también se agradece!
Respuestas:
Me presentaron este problema hace aproximadamente un año cuando se trataba de buscar información ingresada por el usuario sobre una plataforma petrolera en una base de datos de información diversa. El objetivo era hacer algún tipo de búsqueda de cadena difusa que pudiera identificar la entrada de la base de datos con los elementos más comunes.
Parte de la investigación implicó la implementación del algoritmo de distancia de Levenshtein , que determina cuántos cambios se deben realizar en una cadena o frase para convertirla en otra cadena o frase.
La implementación que se me ocurrió fue relativamente simple e implicó una comparación ponderada de la longitud de las dos frases, el número de cambios entre cada frase y si cada palabra se podía encontrar en la entrada de destino.
El artículo está en un sitio privado, así que haré todo lo posible para agregar los contenidos relevantes aquí:
Fuzzy String Matching es el proceso de realizar una estimación similar a la humana de la similitud de dos palabras o frases. En muchos casos, implica identificar palabras o frases que son más similares entre sí. Este artículo describe una solución interna al problema de coincidencia de cadenas difusas y su utilidad para resolver una variedad de problemas que pueden permitirnos automatizar tareas que anteriormente requerían una tediosa participación del usuario.
Introducción
La necesidad de hacer una coincidencia difusa de cadenas surgió originalmente mientras se desarrollaba la herramienta Validator del Golfo de México. Lo que existía era una base de datos de plataformas y plataformas petroleras conocidas del golfo de México, y las personas que compran seguros nos darían información mal escrita sobre sus activos y tuvimos que hacerla coincidir con la base de datos de plataformas conocidas. Cuando se proporcionó muy poca información, lo mejor que pudimos hacer es confiar en que un asegurador "reconozca" al que se refería y solicite la información adecuada. Aquí es donde esta solución automatizada es útil.
Pasé un día investigando métodos de coincidencia de cadenas difusas, y finalmente me topé con el muy útil algoritmo de distancia de Levenshtein en Wikipedia.
Implementación
Después de leer sobre la teoría detrás de esto, implementé y encontré formas de optimizarlo. Así es como se ve mi código en VBA:
Simple, rápido y una métrica muy útil. Usando esto, creé dos métricas separadas para evaluar la similitud de dos cadenas. Una que llamo "valuePhrase" y otra que llamo "valueWords". valuePhrase es solo la distancia de Levenshtein entre las dos frases, y valueWords divide la cadena en palabras individuales, en función de delimitadores como espacios, guiones y cualquier otra cosa que desee, y compara cada palabra entre sí, resumiendo la más corta Distancia de Levenshtein que conecta dos palabras cualquiera. Esencialmente, mide si la información en una 'frase' está realmente contenida en otra, solo como una permutación de palabras. Pasé unos días como proyecto paralelo para encontrar la forma más eficiente posible de dividir una cadena basada en delimitadores.
Función valueWords, valuePhrase y Split:
Medidas de similitud
Utilizando estas dos métricas, y una tercera que simplemente calcula la distancia entre dos cadenas, tengo una serie de variables que puedo ejecutar un algoritmo de optimización para lograr el mayor número de coincidencias. La coincidencia de cadenas difusas es, en sí misma, una ciencia difusa, por lo que al crear métricas linealmente independientes para medir la similitud de cadenas y al tener un conjunto conocido de cadenas que deseamos unir entre sí, podemos encontrar los parámetros que, para nuestros estilos específicos de cadenas, da los mejores resultados de partidos difusos.
Inicialmente, el objetivo de la métrica era tener un valor de búsqueda bajo para una coincidencia exacta y aumentar los valores de búsqueda para medidas cada vez más permutadas. En un caso poco práctico, esto fue bastante fácil de definir usando un conjunto de permutaciones bien definidas, y diseñando la fórmula final de modo que tuvieran resultados de valores de búsqueda crecientes según lo deseado.
En la captura de pantalla anterior, modifiqué mi heurística para encontrar algo que sentí que se adaptaba bien a mi diferencia percibida entre el término de búsqueda y el resultado. La heurística que utilicé
Value Phrase
en la hoja de cálculo anterior fue=valuePhrase(A2,B2)-0.8*ABS(LEN(B2)-LEN(A2))
. Estaba reduciendo efectivamente la penalización de la distancia de Levenstein en un 80% de la diferencia en la longitud de las dos "frases". De esta manera, las "frases" que tienen la misma longitud sufren la penalización completa, pero las "frases" que contienen "información adicional" (más larga) pero aparte de eso aún comparten los mismos caracteres sufren una penalización reducida. Usé elValue Words
función tal como está, y luego miSearchVal
heurística final se definió como=MIN(D2,E2)*0.8+MAX(D2,E2)*0.2
- un promedio ponderado. Cualquiera de los dos puntajes más bajos obtuvo una ponderación del 80% y el 20% del puntaje más alto. Esto fue solo una heurística que se adaptaba a mi caso de uso para obtener una buena tasa de coincidencia. Estos pesos son algo que uno podría ajustar para obtener la mejor tasa de coincidencia con sus datos de prueba.Como puede ver, las dos últimas métricas, que son métricas de coincidencia de cadenas difusas, ya tienen una tendencia natural a dar puntajes bajos a las cadenas que deben coincidir (en la diagonal). Esto es muy bueno.
Aplicación Para permitir la optimización de la coincidencia difusa, ponderé cada métrica. Como tal, cada aplicación de coincidencia de cadena difusa puede ponderar los parámetros de manera diferente. La fórmula que define el puntaje final es simplemente una combinación de las métricas y sus pesos:
Usando un algoritmo de optimización (la red neuronal es mejor aquí porque es un problema discreto y multidimensional), el objetivo ahora es maximizar el número de coincidencias. Creé una función que detecta el número de coincidencias correctas de cada conjunto entre sí, como se puede ver en esta captura de pantalla final. Una columna o fila obtiene un punto si se asigna el puntaje más bajo a la cadena que debía coincidir, y se otorgan puntos parciales si hay un empate para el puntaje más bajo, y la coincidencia correcta se encuentra entre las cadenas empatadas. Entonces lo optimicé. Puede ver que una celda verde es la columna que mejor coincide con la fila actual, y un cuadrado azul alrededor de la celda es la fila que mejor coincide con la columna actual. El puntaje en la esquina inferior es aproximadamente el número de coincidencias exitosas y esto es lo que le decimos a nuestro problema de optimización para maximizar.
El algoritmo fue un éxito maravilloso, y los parámetros de la solución dicen mucho sobre este tipo de problema. Notará que el puntaje optimizado fue 44, y el mejor puntaje posible es 48. Las 5 columnas al final son señuelos y no tienen ninguna coincidencia con los valores de las filas. Cuantos más señuelos haya, más difícil será encontrar la mejor combinación.
En este caso de coincidencia particular, la longitud de las cadenas es irrelevante, porque esperamos abreviaturas que representen palabras más largas, por lo que el peso óptimo para la longitud es -0.3, lo que significa que no penalizamos cadenas que varían en longitud. Reducimos la puntuación en anticipación de estas abreviaturas, dando más espacio para que las coincidencias parciales de palabras reemplacen las coincidencias que no son palabras que simplemente requieren menos sustituciones porque la cadena es más corta.
El peso de la palabra es 1.0, mientras que el peso de la frase es solo 0.5, lo que significa que penalizamos las palabras enteras que faltan en una cadena y valoramos más que la frase entera esté intacta. Esto es útil porque muchas de estas cadenas tienen una palabra en común (el peligro) donde lo que realmente importa es si la combinación (región y peligro) se mantiene o no.
Finalmente, el peso mínimo se optimiza en 10 y el peso máximo en 1. Lo que esto significa es que si la mejor de las dos puntuaciones (frase de valor y palabras de valor) no es muy buena, la coincidencia se penaliza enormemente, pero no No penaliza en gran medida el peor de los dos puntajes. Esencialmente, esto pone énfasis en exigir que valueWord o valuePhrase tengan una buena puntuación, pero no ambas. Una especie de mentalidad de "tomar lo que podemos obtener".
Es realmente fascinante lo que dice el valor optimizado de estos 5 pesos sobre el tipo de coincidencia de cadena difusa que tiene lugar. Para casos prácticos completamente diferentes de coincidencia de cadenas difusas, estos parámetros son muy diferentes. Lo he usado para 3 aplicaciones separadas hasta ahora.
Si bien no se utilizó en la optimización final, se estableció una hoja de evaluación comparativa que hace coincidir las columnas entre sí para obtener todos los resultados perfectos en la diagonal, y permite al usuario cambiar los parámetros para controlar la velocidad a la que los puntajes difieren de 0 y observar similitudes innatas entre las frases de búsqueda ( que en teoría podría usarse para compensar los falsos positivos en los resultados)
Aplicaciones adicionales
Esta solución tiene potencial para usarse en cualquier lugar donde el usuario desee que un sistema informático identifique una cadena en un conjunto de cadenas donde no hay una coincidencia perfecta. (Como una coincidencia aproximada vlookup para cadenas).
Entonces, lo que debe tomar de esto es que probablemente quiera usar una combinación de heurística de alto nivel (encontrar palabras de una frase en la otra frase, longitud de ambas frases, etc.) junto con la implementación del algoritmo de distancia de Levenshtein. Debido a que decidir cuál es la "mejor" coincidencia es una determinación heurística (difusa): tendrá que encontrar un conjunto de ponderaciones para cualquier métrica que se le ocurra para determinar la similitud.
Con el conjunto apropiado de heurísticas y pesos, tendrá su programa de comparación tomando rápidamente las decisiones que habría tomado.
fuente
valuePhrase
. Si veo bien en su código, es el valor de retorno de la función de distancia de Levenshtein. ¿Cómo es que es un valor doble / flotante en la tabla de búsqueda 'abcd efgh'? La distancia de Levenshtein es un valor entero y no puedo ver más cálculos en su código que lo hagan flotante. ¿Qué extraño?=valuePhrase(A2,B2)-0.8*ABS(LEN(B2)-LEN(A2))
Así que estaba reduciendo la penalización de la distancia de levenstein en un 80% de la diferencia en la longitud de las dos "frases". De esta manera, las "frases" que tienen la misma longitud sufren la penalización completa, pero las "frases" que contienen "información adicional" (más larga) pero aparte de eso, en su mayoría comparten los mismos caracteres, sufren una penalización reducida.Este problema aparece todo el tiempo en bioinformática. La respuesta aceptada anteriormente (que fue genial por cierto) se conoce en bioinformática como los algoritmos Needleman-Wunsch (compare dos cadenas) y Smith-Waterman (encuentre una subcadena aproximada en una cadena más larga). Funcionan muy bien y han sido caballos de batalla durante décadas.
Pero, ¿qué pasa si tienes un millón de cadenas para comparar? ¡Eso es un billón de comparaciones por pares, cada una de las cuales es O (n * m)! Los secuenciadores de ADN modernos generan fácilmente mil millones de secuencias cortas de ADN, cada una de aproximadamente 200 "letras" de ADN de largo. Por lo general, queremos encontrar, para cada cadena, la mejor coincidencia con el genoma humano (3 mil millones de letras). Claramente, el algoritmo Needleman-Wunsch y sus parientes no funcionarán.
Este llamado "problema de alineación" es un campo de investigación activa. Los algoritmos más populares actualmente pueden encontrar coincidencias inexactas entre mil millones de cadenas cortas y el genoma humano en cuestión de horas en hardware razonable (por ejemplo, ocho núcleos y 32 GB de RAM).
La mayoría de estos algoritmos funcionan al encontrar rápidamente coincidencias exactas (semillas) y luego extenderlas a la cadena completa utilizando un algoritmo más lento (por ejemplo, el Smith-Waterman). La razón por la que esto funciona es que en realidad solo estamos interesados en algunos partidos cercanos, por lo que vale la pena deshacerse del 99.9 ...% de pares que no tienen nada en común.
¿Cómo ayuda encontrar coincidencias exactas para encontrar coincidencias inexactas ? Bueno, digamos que permitimos solo una única diferencia entre la consulta y el objetivo. Es fácil ver que esta diferencia debe ocurrir en la mitad derecha o izquierda de la consulta, por lo que la otra mitad debe coincidir exactamente. Esta idea puede extenderse a múltiples desajustes y es la base para ELAND algoritmo comúnmente utilizado con los secuenciadores de ADN Illumina.
Hay muchos algoritmos muy buenos para hacer una coincidencia exacta de cadenas. Dada una cadena de consulta de longitud 200 y una cadena objetivo de longitud 3 mil millones (el genoma humano), queremos encontrar cualquier lugar en el objetivo donde haya una subcadena de longitud k que coincida exactamente con una subcadena de la consulta. Un enfoque simple es comenzar indexando el objetivo: tome todas las subcadenas de longitud k, colóquelas en una matriz y ordénelas. Luego tome cada subcadena de k-long de la consulta y busque el índice ordenado.
La ordenación y labúsqueda se pueden realizar en tiempo O (log n).Pero el almacenamiento puede ser un problema. Un índice del objetivo de 3 mil millones de letras debería contener 3 mil millones de punteros y 3 mil millones de palabras de longitud k. Parecería difícil ajustar esto en menos de varias decenas de gigabytes de RAM. Pero, sorprendentemente, podemos comprimir en gran medida el índice, utilizando la transformación Burrows-Wheeler , y seguirá siendo eficientemente consultable. Un índice del genoma humano puede caber en menos de 4 GB de RAM. Esta idea es la base de alineadores de secuencia populares como Bowtie y BWA .
Alternativamente, podemos usar una matriz de sufijos , que almacena solo los punteros, pero representa un índice simultáneo de todos los sufijos en la cadena de destino (esencialmente, un índice simultáneo para todos los valores posibles de k; lo mismo es cierto para la transformación Burrows-Wheeler ) Un índice de matriz de sufijo del genoma humano tomará 12 GB de RAM si usamos punteros de 32 bits.
Los enlaces anteriores contienen una gran cantidad de información y enlaces a documentos de investigación primarios. El enlace ELAND va a un PDF con figuras útiles que ilustran los conceptos involucrados y muestra cómo lidiar con las inserciones y eliminaciones.
Finalmente, si bien estos algoritmos básicamente han resuelto el problema de la (re) secuenciación de genomas humanos individuales (mil millones de cadenas cortas), la tecnología de secuenciación de ADN mejora aún más rápido que la ley de Moore, y nos estamos acercando rápidamente a conjuntos de datos de billones de letras. Por ejemplo, actualmente hay proyectos en curso para secuenciar los genomas de 10,000 especies de vertebrados , cada una de un billón de letras de largo. Naturalmente, querremos hacer una coincidencia de cadena inexacta por pares en los datos ...
fuente
Confieso que la opción B está más cerca de la cadena de prueba, ya que solo son 4 caracteres (y 2 eliminaciones) de ser la cadena original. Mientras que usted ve C como más cerca porque incluye marrón y rojo. Sin embargo, tendría una mayor distancia de edición.
Hay un algoritmo llamado Distancia de Levenshtein que mide la distancia de edición entre dos entradas.
Aquí hay una herramienta para ese algoritmo.
EDITAR: Lo siento, sigo mezclando cadenas en la herramienta levenshtein. Actualizado a las respuestas correctas.
fuente
Implementación de Lua, para la posteridad:
fuente
Puede que te interese esta publicación de blog.
http://seatgeek.com/blog/dev/fuzzywuzzy-fuzzy-string-matching-in-python
Fuzzywuzzy es una biblioteca de Python que proporciona medidas de distancia fáciles, como la distancia de Levenshtein para la coincidencia de cadenas. Está construido sobre difflib en la biblioteca estándar y hará uso de la implementación C Python-levenshtein si está disponible.
http://pypi.python.org/pypi/python-Levenshtein/
fuente
¡Puede que le resulte útil esta biblioteca! http://code.google.com/p/google-diff-match-patch/
Actualmente está disponible en Java, JavaScript, Dart, C ++, C #, Objective C, Lua y Python
Funciona bastante bien también. Lo uso en un par de mis proyectos de Lua.
¡Y no creo que sea demasiado difícil portarlo a otros idiomas!
fuente
Si está haciendo esto en el contexto de un motor de búsqueda o frontend contra una base de datos, puede considerar usar una herramienta como Apache Solr , con ComplexPhraseQueryParser complemento . Esta combinación le permite buscar en un índice de cadenas con los resultados ordenados por relevancia, según lo determinado por la distancia de Levenshtein.
Lo hemos estado utilizando contra una gran colección de artistas y títulos de canciones cuando la consulta entrante puede tener uno o más errores tipográficos, y funcionó bastante bien (y notablemente rápido considerando que las colecciones están en millones de cadenas).
Además, con Solr, puede buscar en el índice bajo demanda a través de JSON, por lo que no tendrá que reinventar la solución entre los diferentes idiomas que está viendo.
fuente
Un muy, muy buen recurso para este tipo de algoritmos es Simmetrics: http://sourceforge.net/projects/simmetrics/
Desafortunadamente, el increíble sitio web que contiene mucha documentación desapareció :( En caso de que vuelva a aparecer, su dirección anterior era esta: http://www.dcs.shef.ac.uk/~sam/simmetrics.html
Voila (cortesía de "Wayback Machine"): http://web.archive.org/web/20081230184321/http://www.dcs.shef.ac.uk/~sam/simmetrics.html
Puede estudiar la fuente del código, hay docenas de algoritmos para este tipo de comparaciones, cada uno con una compensación diferente. Las implementaciones están en Java.
fuente
Para consultar un gran conjunto de texto de manera eficiente, puede usar el concepto de Editar Distancia / Prefijo Editar Distancia.
Pero calcular la DE entre cada término y texto de consulta requiere muchos recursos y tiempo. Por lo tanto, en lugar de calcular ED para cada término primero, podemos extraer posibles términos coincidentes utilizando una técnica llamada Qgram Index. y luego aplique el cálculo ED en esos términos seleccionados.
Una ventaja de la técnica de índice de Qgram es que es compatible con Fuzzy Search.
Un posible enfoque para adaptar el índice QGram es construir un índice invertido usando Qgrams. Allí almacenamos todas las palabras que consisten en Qgram en particular, debajo de ese Qgram. (En lugar de almacenar una cadena completa, puede usar una identificación única para cada cadena). Puede usar la estructura de datos de Tree Map en Java para esto. El siguiente es un pequeño ejemplo sobre el almacenamiento de términos
Luego, al realizar consultas, calculamos el número de Qgrams comunes entre el texto de la consulta y los términos disponibles.
cantidad de q-gramos en común = 4.
Para los términos con un alto número de Qgrams comunes, calculamos el ED / PED contra el término de la consulta y luego sugerimos el término al usuario final.
Puede encontrar una implementación de esta teoría en el siguiente proyecto (consulte "QGramIndex.java"). No dude en hacer cualquier pregunta. https://github.com/Bhashitha-Gamage/City_Search
Para estudiar más sobre Editar Distancia, Prefijo Editar Distancia Qgram índice, vea el siguiente video de la Prof. Dra. Hannah Bast https://www.youtube.com/embed/6pUg2wmGJRo (La lección comienza desde las 20:06)
fuente
El problema es difícil de implementar si los datos de entrada son demasiado grandes (digamos millones de cadenas). Utilicé la búsqueda elástica para resolver esto.
Inicio rápido: https://www.elastic.co/guide/en/elasticsearch/client/net-api/6.x/elasticsearch-net.html
Simplemente inserte todos los datos de entrada en DB y puede buscar cualquier cadena en función de cualquier distancia de edición rápidamente. Aquí hay un fragmento de C # que le dará una lista de resultados ordenados por distancia de edición (de menor a mayor)
fuente
Aquí puede tener un POC de golang para calcular las distancias entre las palabras dadas. Puede sintonizar
minDistance
ydifference
para otros ámbitos.Área de juegos: https://play.golang.org/p/NtrBzLdC3rE
fuente