Según los documentos de MySQL , hay cuatro tipos de TEXTO:
- TINYTEXT
- TEXTO
- TEXTO MEDIO
- TEXTO LARGO
¿Cuál es la longitud máxima que puedo almacenar en una columna de cada tipo de datos suponiendo que la codificación de caracteres es UTF-8?
Según los documentos de MySQL , hay cuatro tipos de TEXTO:
¿Cuál es la longitud máxima que puedo almacenar en una columna de cada tipo de datos suponiendo que la codificación de caracteres es UTF-8?
Respuestas:
De la documentación :
Tenga en cuenta que la cantidad de caracteres que se pueden almacenar en su columna dependerá de la codificación de caracteres .
fuente
A TEXT column with a maximum length of 255 (28 – 1) characters. The effective maximum length is less if the value contains multi-byte characters.
Vea la respuesta de Ankan para más detalles.Expansión de la misma respuesta
¡ESTA ES UNA TABLA DE ESTIMACIÓN EN BRUTO PARA DECISIONES RÁPIDAS!
xx
Consulte también la respuesta de Chris V: https://stackoverflow.com/a/35785869/1881812
fuente
TINYTEXT
cuenta 1 byte + 8 byte contra el tamaño del registro, mientras queVARCHAR(255)
cuenta desde 1 byte + 255 byte hasta 2 byte + 1020 byte (4 bytes UTF-8 caracteres) contra el tamaño del registro.En respuesta al desafío de @ Ankan-Zerob, esta es mi estimación de la longitud máxima que se puede almacenar en cada tipo de texto medido en palabras :
En inglés , 4.8 letras por palabra es probablemente un buen promedio (p. Ej ., Norvig.com/mayzner.html ), aunque la longitud de las palabras variará según el dominio (p. Ej., Lenguaje hablado frente a documentos académicos), por lo que no tiene sentido ser demasiado preciso. El inglés es principalmente caracteres ASCII de un solo byte, con caracteres de varios bytes muy ocasionales, muy cerca de un byte por letra. Se debe permitir un carácter adicional para los espacios entre palabras, por lo que he redondeado hacia abajo desde 5.8 bytes por palabra. Los idiomas con muchos acentos, como el polaco, almacenarían un poco menos de palabras, como por ejemplo el alemán con palabras más largas.
Los idiomas que requieren caracteres de varios bytes como el griego, árabe, hebreo, hindi, tailandés, etc., generalmente requieren dos bytes por carácter en UTF-8. Adivinando salvajemente a 5 letras por palabra, he redondeado hacia abajo desde 11 bytes por palabra.
Guiones de CJK (Hanzi, Kanji, Hiragana, Katakana, etc.) No sé nada; Creo que los caracteres requieren principalmente 3 bytes en UTF-8, y (con una simplificación masiva) se podría considerar que usan alrededor de 2 caracteres por palabra, por lo que estarían en algún lugar entre los otros dos. (Es probable que los scripts CJK requieran menos almacenamiento usando UTF-16, dependiendo).
Por supuesto, esto ignora los gastos generales de almacenamiento, etc.
fuente
Esto es bueno pero no responde la pregunta:
"Siempre se debe usar un VARCHAR en lugar de TINYTEXT". Tinytext es útil si tiene filas anchas, ya que los datos se almacenan fuera del registro. Hay una sobrecarga de rendimiento, pero tiene un uso.
fuente