El uso de PostgreSQL (8.4), estoy creando una vista que resume varios resultados de unas pocas mesas (por ejemplo, la creación de columnas a
, b
, c
en la vista), y luego tengo que combinar algunos de estos resultados juntos en la misma consulta (por ejemplo a+b
, a-b
, (a+b)/c
, ...), para producir los resultados finales. Lo que noto es que los resultados intermedios se calculan completamente cada vez que se usan, incluso si se realizan dentro de la misma consulta.
¿Hay alguna manera de optimizar esto para evitar que esos mismos resultados se calculen cada vez?
Aquí hay un ejemplo simplificado que reproduce el problema.
CREATE TABLE test1 (
id SERIAL PRIMARY KEY,
log_timestamp TIMESTAMP NOT NULL
);
CREATE TABLE test2 (
test1_id INTEGER NOT NULL REFERENCES test1(id),
category VARCHAR(10) NOT NULL,
col1 INTEGER,
col2 INTEGER
);
CREATE INDEX test_category_idx ON test2(category);
-- Added after edit to this question
CREATE INDEX test_id_idx ON test2(test1_id);
-- Populating with test data.
INSERT INTO test1(log_timestamp)
SELECT * FROM generate_series('2011-01-01'::timestamp, '2012-01-01'::timestamp, '1 hour');
INSERT INTO test2
SELECT id, substr(upper(md5(random()::TEXT)), 1, 1),
(20000*random()-10000)::int, (3000*random()-200)::int FROM test1;
INSERT INTO test2
SELECT id, substr(upper(md5(random()::TEXT)), 1, 1),
(2000*random()-1000)::int, (3000*random()-200)::int FROM test1;
INSERT INTO test2
SELECT id, substr(upper(md5(random()::TEXT)), 1, 1),
(2000*random()-40)::int, (3000*random()-200)::int FROM test1;
Aquí hay una vista que realiza las operaciones que requieren más tiempo:
CREATE VIEW testview1 AS
SELECT
t1.id,
t1.log_timestamp,
(SELECT SUM(t2.col1) FROM test2 t2 WHERE t2.test1_id=t1.id AND category='A') AS a,
(SELECT SUM(t2.col2) FROM test2 t2 WHERE t2.test1_id=t1.id AND category='B') AS b,
(SELECT SUM(t2.col1 - t2.col2) FROM test2 t2 WHERE t2.test1_id=t1.id AND category='C') AS c
FROM test1 t1;
SELECT a FROM testview1
produce este plan (víaEXPLAIN ANALYZE
):Seq Scan on test1 t1 (cost=0.00..1787086.55 rows=8761 width=4) (actual time=12.877..10517.575 rows=8761 loops=1) SubPlan 1 -> Aggregate (cost=203.96..203.97 rows=1 width=4) (actual time=1.193..1.193 rows=1 loops=8761) -> Bitmap Heap Scan on test2 t2 (cost=36.49..203.95 rows=1 width=4) (actual time=1.109..1.177 rows=0 loops=8761) Recheck Cond: ((category)::text = 'A'::text) Filter: (test1_id = $0) -> Bitmap Index Scan on test_category_idx (cost=0.00..36.49 rows=1631 width=0) (actual time=0.414..0.414 rows=1631 loops=8761) Index Cond: ((category)::text = 'A'::text) Total runtime: 10522.346 ms
SELECT a, a FROM testview1
produce este plan :Seq Scan on test1 t1 (cost=0.00..3574037.50 rows=8761 width=4) (actual time=3.343..20550.817 rows=8761 loops=1) SubPlan 1 -> Aggregate (cost=203.96..203.97 rows=1 width=4) (actual time=1.183..1.183 rows=1 loops=8761) -> Bitmap Heap Scan on test2 t2 (cost=36.49..203.95 rows=1 width=4) (actual time=1.100..1.166 rows=0 loops=8761) Recheck Cond: ((category)::text = 'A'::text) Filter: (test1_id = $0) -> Bitmap Index Scan on test_category_idx (cost=0.00..36.49 rows=1631 width=0) (actual time=0.418..0.418 rows=1631 loops=8761) Index Cond: ((category)::text = 'A'::text) SubPlan 2 -> Aggregate (cost=203.96..203.97 rows=1 width=4) (actual time=1.154..1.154 rows=1 loops=8761) -> Bitmap Heap Scan on test2 t2 (cost=36.49..203.95 rows=1 width=4) (actual time=1.083..1.143 rows=0 loops=8761) Recheck Cond: ((category)::text = 'A'::text) Filter: (test1_id = $0) -> Bitmap Index Scan on test_category_idx (cost=0.00..36.49 rows=1631 width=0) (actual time=0.426..0.426 rows=1631 loops=8761) Index Cond: ((category)::text = 'A'::text) Total runtime: 20557.581 ms
Aquí, la selección a, a
lleva el doble de tiempo que la selección a
, mientras que realmente podrían calcularse solo una vez. Por ejemplo, con SELECT a, a+b, a-b FROM testview1
, pasa por el subplan a
3 veces y b
dos veces, mientras que el tiempo de ejecución podría reducirse a 2/5 del tiempo total (suponiendo que + y - son insignificantes aquí).
Es bueno que no calcule las columnas no utilizadas ( b
y c
) cuando no son necesarias, pero ¿hay alguna manera de que calcule las mismas columnas usadas de la vista solo una vez?
EDITAR: @Frank Heikens sugirió correctamente usar un índice, que faltaba en el ejemplo anterior. Si bien mejora la velocidad de cada subplan, no impide que la misma subconsulta se calcule varias veces. Lo siento, debería haber puesto esto en la pregunta inicial para aclararlo.
fuente
Necesita un índice en test1_id en la tabla test2, que cambiará las cosas.
fuente
SELECT a, a, a, a, a FROM testview1
todavía tarda 5 veces más queSELECT a FROM testview1
.