Todavía estoy aprendiendo Python y tengo una duda:
En python 2.6.x, generalmente declaro la codificación en el encabezado del archivo de esta manera (como en PEP 0263 )
# -*- coding: utf-8 -*-
Después de eso, mis cadenas se escriben como de costumbre:
a = "A normal string without declared Unicode"
Pero cada vez que veo un código de proyecto de Python, la codificación no se declara en el encabezado. En cambio, se declara en cada cadena de esta manera:
a = u"A string with declared Unicode"
¿Cual es la diferencia? ¿Cuál es el propósito de esto? Sé que Python 2.6.x establece la codificación ASCII de forma predeterminada, pero puede anularse mediante la declaración de encabezado, entonces, ¿cuál es el punto de la declaración por cadena?
Anexo: Parece que he mezclado la codificación de archivos con la codificación de cadenas. Gracias por explicarlo :)
# coding: utf8
es lo suficientemente bueno, no es necesario-*-
# coding: utf-8
.#coding=utf-8
. python.org/dev/peps/pep-0263Respuestas:
Esas son dos cosas diferentes, como han mencionado otros.
Cuando especificas
# -*- coding: utf-8 -*-
, le estás diciendo a Python que el archivo fuente que has guardado esutf-8
. El valor predeterminado para Python 2 es ASCII (para Python 3 esutf-8
). Esto solo afecta la forma en que el intérprete lee los caracteres del archivo.En general, probablemente no sea la mejor idea incrustar caracteres unicode altos en su archivo sin importar la codificación; puede usar cadenas de escape unicode, que funcionan en cualquiera de las codificaciones.
Cuando declaras una cadena con un
u
frente , comou'This is a string'
, le dice al compilador de Python que la cadena es Unicode, no bytes. El intérprete maneja esto de forma transparente; La diferencia más obvia es que ahora puede incrustar caracteres Unicode en la cadena (es decir,u'\u2665'
ahora es legal). Puede usarlofrom __future__ import unicode_literals
para que sea el predeterminado.Esto solo se aplica a Python 2; en Python 3, el valor predeterminado es Unicode, y debe especificar un
b
frente (comob'These are bytes'
, para declarar una secuencia de bytes).fuente
Como han dicho otros,
# coding:
especifica la codificación en la que se guarda el archivo fuente. Aquí hay algunos ejemplos para ilustrar esto:Un archivo guardado en el disco como cp437 (codificación de mi consola), pero sin codificación declarada
Salida:
Salida de archivo con
# coding: cp437
agregado:Al principio, Python no sabía la codificación y se quejó del carácter no ASCII. Una vez que conocía la codificación, la cadena de bytes obtuvo los bytes que estaban realmente en el disco. Para la cadena Unicode, Python leyó \ x81, sabía que en cp437 eso era un ü , y lo decodificó en el punto de código Unicode para ü que es U + 00FC. Cuando se imprimió la cadena de bytes, Python envió el valor hexadecimal
81
a la consola directamente. Cuando se imprimió la cadena Unicode, Python detectó correctamente la codificación de mi consola como cp437 y tradujo Unicode ü al valor cp437 para ü .Esto es lo que sucede con un archivo declarado y guardado en UTF-8:
En UTF-8, ü se codifica como bytes hexadecimales
C3 BC
, por lo que la cadena de bytes contiene esos bytes, pero la cadena Unicode es idéntica al primer ejemplo. Python leyó los dos bytes y lo decodificó correctamente. Python imprimió la cadena de bytes incorrectamente, porque envió los dos bytes UTF-8 que representan ü directamente a mi consola cp437.Aquí el archivo se declara cp437, pero se guarda en UTF-8:
La cadena de bytes todavía tenía los bytes en el disco (bytes hexadecimales UTF-8
C3 BC
), pero los interpretó como dos caracteres cp437 en lugar de un solo carácter codificado en UTF-8. Esos dos caracteres se tradujeron a puntos de código Unicode, y todo se imprime incorrectamente.fuente
Eso no establece el formato de la cadena; establece el formato del archivo. Incluso con ese encabezado,
"hello"
es una cadena de bytes, no una cadena Unicode. Para hacerlo Unicode, tendrás que usarlo enu"hello"
todas partes. El encabezado es solo una pista de qué formato usar al leer el.py
archivo.fuente
La definición del encabezado es definir la codificación del código en sí, no las cadenas resultantes en tiempo de ejecución.
poner un carácter no ascii como ۲ en el script de python sin la definición del encabezado utf-8 arrojará una advertencia
fuente
Hice el siguiente módulo llamado unicoder para poder hacer la transformación en variables:
Luego, en su programa, podría hacer lo siguiente:
fuente