En dos bibliotecas de identificación de idiomas populares, Compact Language Detector 2 para C ++ y el detector de idiomas para java, ambos utilizaron n-gramos (basados en caracteres) para extraer características de texto. ¿Por qué no se usa una bolsa de palabras (una sola palabra / diccionario),...