Aquí está mi tabla con ~ 10,000,000 filas de datos
CREATE TABLE `votes` (
`subject_name` varchar(32) COLLATE utf8_unicode_ci NOT NULL,
`subject_id` int(11) NOT NULL,
`voter_id` int(11) NOT NULL,
`rate` int(11) NOT NULL,
`updated_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (`subject_name`,`subject_id`,`voter_id`),
KEY `IDX_518B7ACFEBB4B8AD` (`voter_id`),
KEY `subject_timestamp` (`subject_name`,`subject_id`,`updated_at`),
KEY `voter_timestamp` (`voter_id`,`updated_at`),
CONSTRAINT `FK_518B7ACFEBB4B8AD` FOREIGN KEY (`voter_id`) REFERENCES `users` (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;
Aquí están los índices de cardinalidades
Entonces cuando hago esta consulta:
SELECT SQL_NO_CACHE * FROM votes WHERE
voter_id = 1099 AND
rate = 1 AND
subject_name = 'medium'
ORDER BY updated_at DESC
LIMIT 20 OFFSET 100;
Esperaba que voter_timestamp
usara índice pero mysql elige usar esto en su lugar:
explain select SQL_NO_CACHE * from votes where subject_name = 'medium' and voter_id = 1001 and rate = 1 order by updated_at desc limit 20 offset 100;`
type:
index_merge
possible_keys:
PRIMARY,IDX_518B7ACFEBB4B8AD,subject_timestamp,voter_timestamp
key:
IDX_518B7ACFEBB4B8AD,PRIMARY
key_len:
102,98
ref:
NULL
rows:
9255
filtered:
10.00
Extra:
Using intersect(IDX_518B7ACFEBB4B8AD,PRIMARY); Using where; Using filesort
Y obtuve 200-400ms de tiempo de consulta.
Si lo fuerzo a usar el índice correcto como:
SELECT SQL_NO_CACHE * FROM votes USE INDEX (voter_timestamp) WHERE
voter_id = 1099 AND
rate = 1 AND
subject_name = 'medium'
ORDER BY updated_at DESC
LIMIT 20 OFFSET 100;
Mysql puede devolver los resultados en 1-2 ms
y aquí está la explicación:
type:
ref
possible_keys:
voter_timestamp
key:
voter_timestamp
key_len:
4
ref:
const
rows:
18714
filtered:
1.00
Extra:
Using where
Entonces, ¿por qué mysql no eligió el voter_timestamp
índice para mi consulta original?
Lo que había intentado es analyze table votes
, optimize table votes
soltar ese índice y agregarlo nuevamente, pero mysql todavía usa el índice incorrecto. No entiendo bien cuál es el problema.
subject_name = "medium"
pieza, también puede elegir el índice correcto, no es necesario indexarrate
(voter_id, updated_at)
. Otro índice sería(voter_id, subject_name, updated_at)
o(subject_name, voter_id, updated_at)
(sin la tasa).subject_name='medium' and rate=1
)LIMIT
o incluso aORDER BY
menos que el índice satisfaga primero todo el filtrado. Es decir, sin las 4 columnas completas, recopilará todas las filas relevantes, las ordenará todas y luego las eliminaráLIMIT
. Con el índice de 4 columnas, la consulta puede evitar la clasificación y detenerse después de leer solo lasLIMIT
filas.Respuestas:
MySQL está utilizando un modelo de costos relativamente simple (más simple que otros RDBMS) para planificar consultas en las que filtrar su conjunto de datos tiene una prioridad bastante alta. En su primera consulta con el índice de fusión, se estima que será necesario escanear ~ 9000 filas, mientras que la segunda con la sugerencia de índice requerirá 18000. Mi apuesta sería que esto pesa en el cálculo lo suficiente como para mover la escala hacia la fusión. . Puede confirmar esto (o encontrar otros motivos) activando
optimizer_trace
, ejecutando su consulta y evaluando los resultados.Un comentario sobre
index_merge
: en la mayoría de los casos, encontrará que es bastante costoso. Aunque es muy útil para escenarios de tipo OLAP, podría no ser muy adecuado para OLTP porque la operación puede llevar un tiempo considerable de su consulta y, como puede ver, a veces el plan de ejecución subóptimo es en realidad más rápido.Afortunadamente, MySQL proporciona conmutadores para el optimizador para que pueda personalizarlo como desee.
Para todas las opciones que puede ejecutar:
Para cambiar uno, no tiene que copiar y pegar toda la cadena. Funciona como
dict.update()
en python.Si es posible, también examinaría la estructura de su tabla y mejoraría. No se recomienda tener una clave primaria de ~ 100 bytes con muchas claves secundarias.
Tiene cuatro claves secundarias y algunas de ellas son superfluas, por ejemplo, el
(voter_id)
índice es un subconjunto de(voter_id, updated_at)
fuente
OR
en aUNION
menudo es tan bueno o mejor.Para esa consulta, necesita este índice:
El
updated_at
debe ser el último; los otros tres pueden estar en cualquier orden. (Los índices de 3 columnas de ypercube no son muy útiles ya que no terminan lasWHERE
columnas antes de golpear laORDER BY
columna).A medida que agrega este índice, probablemente pueda deshacerse de todas las demás claves secundarias:
KEY
IDX_518B7ACFEBB4B8AD
(voter_id
), - El FK puede usar mi clave de índicesubject_timestamp
(subject_name
,subject_id
,updated_at
), - CLAVE mayormente redundantevoter_timestamp
(voter_id
,updated_at
), - que puede haber sido su intentoCon el índice de 4 columnas, tiene la posibilidad de optimizar la "paginación" y evitarla
OFFSET
. Ver este blogSobre otro tema ... Cuando veo
X_name
yX_id
, supongo que está ocurriendo la "normalización". Esperaría ver esas dos columnas en una tabla, con prácticamente nada más. Yo no esperaría ver tanto en alguna otra mesa.(voter_id, updated_at)
no pasarávoter_id
ya que no ha terminado con el filtrado (theWHERE
). Luego, dado que el otro índice es más pequeño, se selecciona. El mío tiene 3 columnas para encargarse del filtrado, luego la columna paraORDER BY
.fuente