Preguntas etiquetadas con edit-distance

8
¿Cuáles son algunas formas eficientes de encontrar las diferencias entre dos grandes corpus de texto que tienen contenido similar pero ordenado de manera diferente?

Tengo dos archivos grandes que contienen párrafos de texto en inglés: El primer texto tiene aproximadamente 200 páginas y tiene aproximadamente 10 párrafos por página (cada párrafo tiene 5 oraciones). El segundo texto contiene casi exactamente los mismos párrafos y texto que el primero. También...