T-SQL: ¿Cuál es la forma más eficiente de recorrer una tabla hasta que se cumpla una condición?

10

En consiguió una tarea de programación en el área de T-SQL.

Tarea:

  1. La gente quiere entrar a un elevador, cada persona tiene un cierto peso.
  2. El orden de las personas que esperan en la fila está determinado por el giro de la columna.
  3. El elevador tiene una capacidad máxima de <= 1000 lbs.
  4. ¡Devuelve el nombre de la última persona que puede entrar al elevador antes de que sea demasiado pesado!
  5. El tipo de retorno debe ser table

ingrese la descripción de la imagen aquí

Pregunta: ¿Cuál es la forma más eficiente de resolver este problema? Si el bucle es correcto, ¿hay margen de mejora?

Utilicé un bucle y # tablas temporales, aquí mi solución:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

Aquí el script de creación para la tabla que usé Northwind para probar:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;
Leyendas
fuente

Respuestas:

16

Debe intentar evitar los bucles en general. Normalmente son menos eficientes que las soluciones basadas en conjuntos, así como menos legibles.

Lo siguiente debería ser bastante eficiente.

Más aún si las columnas de nombre y peso se pueden incluir INCLUDE-en el índice para evitar las búsquedas de claves.

Puede escanear el índice único en orden turny calcular el total acumulado de la Weightcolumna, luego usarlo LEADcon los mismos criterios de pedido para ver cuál será el total acumulado en la siguiente fila.

Tan pronto como encuentre la primera fila donde esto excede 1000 o es NULL(lo que indica que no hay una fila siguiente), puede detener el escaneo.

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

Plan de ejecución

ingrese la descripción de la imagen aquí

En la práctica, parece leer unas pocas filas por delante de donde es estrictamente necesario: parece que cada par agregado de spool / flujo de ventana hace que se lean dos filas adicionales.

Para los datos de muestra en la pregunta idealmente, solo necesitaría leer dos filas del escaneo del índice, pero en realidad lee 6, pero este no es un problema de eficiencia significativo y no se degrada a medida que se agregan más filas a la tabla (como en esta demo )

Para aquellos interesados ​​en este tema query_trace_column_values, a continuación se muestra una imagen con las filas de salida de cada operador (como se muestra en el evento extendido), las filas se muestran en row_idorden (comenzando 47por la primera fila leída por el escaneo de índice y terminando 113por el TOP)

Haga clic en la imagen a continuación para agrandarla o, alternativamente, vea la versión animada para que el flujo sea más fácil de seguir .

Pausar la animación en el punto donde el agregado de flujo de la mano derecha ha emitido su primera fila (para gary - turn = 1). Parece evidente que estaba esperando recibir su primera fila con un WindowCount diferente (para Jo - turn = 2). Y el carrete de la ventana no libera la primera fila "Jo" hasta que haya leído la siguiente fila con una diferente turn(para thomas - turn = 3)

Por lo tanto, el spool de ventana y el agregado de flujo hacen que se lea una fila adicional y hay cuatro de estos en el plan, por lo tanto, 4 filas adicionales.

ingrese la descripción de la imagen aquí

A continuación se incluye una explicación de las columnas que se muestran en lo anterior (según la información aquí )

  • NodeName: Index Scan, NodeId: 15, ColumnName: columna de la tabla base de id cubierta por índice
  • NodeName: Index Scan, NodeId: 15, ColumnName: gire la columna de la tabla base cubierta por el índice
  • NodeName: índice de búsqueda en clúster, NodeId: 17, ColumnName: columna de tabla de base de peso recuperada de la búsqueda
  • NodeName: Búsqueda de índice agrupado, NodeId: 17, ColumnName: columna de tabla base de nombre recuperada de la búsqueda
  • NodeName: Segment, NodeId: 13, ColumnName: Segment1010 Devuelve 1 al inicio del nuevo grupo o nulo de lo contrario. Como no Partition Byen la SUMúnica, la primera fila obtiene 1
  • NodeName: Sequence Project, NodeId: 12, ColumnName: RowNumber1009 row_number() dentro del grupo indicado por el indicador Segment1010. Como todas las filas están en el mismo grupo, se trata de enteros ascendentes del 1 al 6. Se utilizaría para filtrar las filas del marco derecho en casos como rows between 5 preceding and 2 following. (o como para LEADmás tarde)
  • NodeName: Segment, NodeId: 11, ColumnName: Segment1011 Devuelve 1 al inicio del nuevo grupo o nulo de lo contrario. Como no Partition Byen la SUMúnica, la primera fila obtiene 1 (igual que el Segmento1010)
  • NodeName: Spool Window, NodeId: 10, ColumnName: WindowCount1012 Atributo que agrupa las filas que pertenecen a un marco de ventana. Este carrete de ventana está utilizando el caso de "vía rápida" UNBOUNDED PRECEDING. Donde emite dos filas por fila de origen. Uno con los valores acumulativos y otro con los valores de detalle. Aunque no hay una diferencia visible en las filas expuestas por query_trace_column_values, supongo que las columnas acumulativas están allí en realidad.
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1004 Count(*) agrupado por WindowCount1012 de acuerdo con el plan pero en realidad un recuento continuo
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1005 SUM(weight) agrupado por WindowCount1012 de acuerdo con el plan pero en realidad la suma de peso de ejecución (es decir cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Expr1002 CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END - No veo cómo COUNT(*)puede ser 0, por lo que siempre se ejecutará sum ( cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Segment1013 No partition byen la LEADprimera fila obtiene 1. Todos los restantes quedan nulos
  • NodeName: Sequence Project, NodeId: 6, ColumnName: RowNumber1006 row_number() dentro del grupo indicado por el indicador Segment1013. Como todas las filas están en el mismo grupo, se trata de enteros ascendentes del 1 al 4
  • NodeName: Segment, NodeId: 4, ColumnName: BottomRowNumber1008 RowNumber1006 + 1, ya que LEADrequiere la siguiente fila individual
  • NodeName: Segment, NodeId: 4, ColumnName: TopRowNumber1007 RowNumber1006 + 1, ya que LEADrequiere la siguiente fila individual
  • NodeName: Segment, NodeId: 4, ColumnName: Segment1014 No partition byen la LEADprimera fila obtiene 1. Todos los restantes quedan nulos
  • NodeName: Window Spool, NodeId: 3, ColumnName: WindowCount1015 Atributo que agrupa las filas que pertenecen a un marco de ventana utilizando los números de fila anteriores. El marco de la ventana LEADtiene un máximo de 2 filas (la actual y la siguiente)
  • NodeName: Stream Aggregate, NodeId: 2, ColumnName: Expr1003 LAST_VALUE([Expr1002]) para elLEAD(cume_weight)
Martin Smith
fuente
6

Como curiosidad (ya que la pregunta dice T-SQL), también es posible resolver este problema de manera eficiente utilizando SQLCLR.

La idea es leer las filas una a la vez en turnorden hasta que weightexceda 1000 (o nos quedamos sin filas), luego devolver la última namelectura.

El código fuente es:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

El ensamblado compilado y la función T-SQL:

CREATE ASSEMBLY Elevator AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

Obteniendo el resultado:

SELECT dbo.Elevator();
Paul White 9
fuente
1

Ligera variación de la solución de Martin Smith

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW es el marco de ventana predeterminado, así que no lo declare.

Se utiliza un predicado para el peso acumulado actual en lugar del siguiente peso acumulado.

No he verificado ningún plan, así que no puedo decir si hay una diferencia en ese sentido.

Lennart
fuente
Ya veo, estoy rodeado de geeks DB :-). Tengo que revisar todas las palabras clave que mencionan para comprender lo que hacen. Solo he echado un vistazo Client statistics --> Total Execution Time, no el Actual execution planque probablemente sea el más interesante aquí. A medida que Client Statisticssu solución es un poco más lenta que la de Martin. Gracias por la información adicional. ¿Qué método se puede usar para medir las diferencias de rendimiento entre diferentes enfoques?
Leyendas
1
Me temo que mi conocimiento del servidor SQL es muy limitado, por lo que no tengo mucha información sobre qué métricas usar. Martin tiene un enlace de violín db <> en su respuesta, tal vez pueda ver los planes allí.
Lennart
1
Tampoco he verificado los planes, pero imagino que esto probablemente calculará el total acumulado en toda la tabla y luego ordenará las filas resultantes que coinciden con el DÓNDE. Dudo que use la restricción de verificación para saber que el total acumulado es estrictamente ascendente y puede detenerse antes. También en SQL Server, excepto donde se usa el agregado de la ventana del modo por lotes, es preferible especificar ROWS en lugar de RANGE, incluso cuando no hay duplicados, ya que el spool de la ventana está en la memoria y no en el disco
Martin Smith
@MartinSmith, interesante. ¿En su solución, LEAD hace posible empujar el predicado next_cume_weight <10000 dentro de T1 y rescatarlo antes del escaneo del índice? Verifiqué el plan para mi consulta e ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROWintroduje un Sequence Project (Compute Scalar)operador. No hace falta decir que no tengo idea de lo que esto significa :-)
Lennart
1
El índice entrega las filas en el orden que necesitan la suma, el plomo y la parte superior. Tan pronto como top reciba su primera fila, puede dejar de solicitar más filas y la ejecución puede detenerse.
Martin Smith
0

Puedes hacer una unión contra sí mismo:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

Este tipo de cosas no es muy eficiente, ya que provoca una selección por fila. Pero al menos se expresa como una sola declaración.

Si no tiene que hacerlo completamente en SQL, simplemente puede seleccionar todas las filas y recorrerlas, sumando a medida que avanza.

También podría hacer lo mismo en un procedimiento almacenado sin la tabla temporal. Simplemente mantenga la suma y el último nombre de fila en una variable.

ypercubeᵀᴹ
fuente
Lo siento, no sé cómo hacerlo funcionar con un self-join, si pudiera hacer un pequeño ejemplo reproducible, he agregado la definición de tabla a mi pregunta. Mi sql es malo ... Necesito el nombre de la persona más cercana a <= 1000 lbs.
Leyendas
Parece que su actualización funciona bien, deberá manipularla un poco si desea que produzca solo el resultado exacto. Pero como digo, no es súper eficiente
¿De acuerdo? Me pongo nulo para Persona con id 5 ...
Legends
eso es extraño, esperaría que sum () devuelva 0 para una suma en 0 filas
SUM sobre 0 filas no es 0 (desafortunadamente). Necesitas usar COALESCE()o ISNULL()función o una CASEexpresión para que sea 0.
ypercubeᵀᴹ