El archivo a.txttiene aproximadamente 100k palabras, cada palabra está en una nueva línea
july.cpp
windows.exe
ttm.rar
document.zip
El archivo b.txttiene 150k palabras, una palabra por línea: algunas palabras son del archivo a.txt, pero algunas son nuevas:
july.cpp    
NOVEMBER.txt    
windows.exe    
ttm.rar    
document.zip    
diary.txt
¿Cómo puedo fusionar estos archivos en uno, eliminar todas las líneas duplicadas y mantener las líneas que son nuevas (líneas que existen a.txtpero no existen b.txty viceversa)?
                    
                        text-processing
                                
                    
                    
                        Kate-Kasia
fuente
                
                fuente

Respuestas:
Hay un comando para hacer esto:
comm. Como se indica enman comm, es simple:Tenga en cuenta que
commespera que el contenido de los archivos se ordene, por lo que debe ordenarlos antes de invocarloscomm, así:Así que para resumir:
Después de los comandos anteriores, habrá líneas esperadas en el
result.txtarchivo.fuente
Aquí hay un breve script python3, basado en la respuesta de Germar , que debería lograr esto mientras se mantiene
b.txtel orden sin clasificar.fuente
fuente
Echa un vistazo al
commcomando coreutils :man commEntonces, por ejemplo, puedes hacer
(líneas exclusivas de
b.txt)fuente