Para el diseño tenemos nuestro famoso texto "Lorem ipsum" para probar cómo se ve.
Lo que estoy buscando es un conjunto de archivos que contengan texto codificado con varias codificaciones diferentes que pueda usar en mis pruebas JUnit para probar algunos métodos que se ocupan de la codificación de caracteres al leer archivos de texto.
Ejemplo:Tener un ISO 8859-1
archivo de Windows-1252
prueba codificado y un archivo de prueba codificado. El Windows-1252 tiene que activar las diferencias en la región 80 16 - 9F 16 . En otras palabras, debe contener al menos un carácter de esta región para distinguirlo de ISO 8859-1.
Quizás el mejor conjunto de archivos de prueba es aquel en el que el archivo de prueba para cada codificación contiene todos sus caracteres una vez. Pero tal vez no estoy al tanto de algo, a todos nos gusta esta codificación, ¿verdad? :-)
¿Existe tal conjunto de archivos de prueba para problemas de codificación de caracteres?
fuente
Respuestas:
¿Qué hay de intentar utilizar los archivos de la suite de pruebas ICU ? No sé si son lo que necesita para su prueba, pero parecen tener archivos de mapeo desde / hacia UTF bastante completos al menos: Enlace al repositorio para archivos de prueba de ICU
fuente
El artículo de Wikipedia sobre signos diacríticos es bastante completo, desafortunadamente debes extraer estos caracteres manualmente. También puede haber algunos mnemónicos para cada idioma. Por ejemplo, en polaco usamos:
que contiene los 9 diacríticos polacos en una oración correcta. Otro consejo de búsqueda útil son los pangramas : frases que utilizan todas las letras del alfabeto al menos una vez :
La lista de pangramas contiene un resumen exhaustivo. Cualquiera se preocupa por envolver esto en un simple:
public interface NationalCharacters { String spanish(); String russian(); //... }
¿biblioteca?
fuente
No conozco ningún documento de texto completo, pero si puede comenzar con una descripción general simple de todos los conjuntos de caracteres, hay algunos archivos disponibles en el servidor ftp.unicode.org
Aquí está WINDOWS-1252, por ejemplo. La primera columna es el valor de carácter hexadecimal y la segunda el valor Unicode.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
fuente
Bueno, había usado una herramienta en línea para crear mis conjuntos de caracteres de texto de Lorem Ipsum. Creo que te puede ayudar. No tengo uno que tenga todos los juegos de caracteres diferentes en una sola página.
http://generator.lorem-ipsum.info /
fuente