Utilice un valor de la fila anterior en un cálculo de tabla de datos R.

Question 1

Quiero crear una nueva columna en un data.table calculado a partir del valor actual de una columna y el anterior de otra. ¿Es posible acceder a filas anteriores?

P.ej:

> DT <- data.table(A=1:5, B=1:5*10, C=1:5*100)
> DT
   A  B   C
1: 1 10 100
2: 2 20 200
3: 3 30 300
4: 4 40 400
5: 5 50 500
> DT[, D := C + BPreviousRow] # What is the correct code here?

La respuesta correcta debe ser

> DT
   A  B   C   D
1: 1 10 100  NA
2: 2 20 200 210
3: 3 30 300 320
4: 4 40 400 430
5: 5 50 500 540

Question 2

Con shift()implementado en v1.9.6 , esto es bastante sencillo.

DT[ , D := C + shift(B, 1L, type="lag")]
# or equivalently, in this case,
DT[ , D := C + shift(B)]

De NEWS :

La nueva función shift()implementa rápido lead/lagde vector , lista , data.frames o data.tables . Toma un typeargumento que puede ser "lag" (predeterminado) o "lead" . Permite un uso muy conveniente junto con :=o set(). Por ejemplo: DT[, (cols) := shift(.SD, 1L), by=id]. Échale un vistazo ?shiftpara obtener más información.

Consulte el historial para obtener respuestas anteriores.

Question 3

Usando dplyrusted podría hacer:

mutate(DT, D = lag(B) + C)

Lo que da:

#   A  B   C   D
#1: 1 10 100  NA
#2: 2 20 200 210
#3: 3 30 300 320
#4: 4 40 400 430
#5: 5 50 500 540

Question 4

Varias personas han respondido a la pregunta específica. Consulte el código a continuación para ver una función de propósito general que uso en situaciones como esta y que puede ser útil. En lugar de simplemente obtener la fila anterior, puede ir tantas filas en el "pasado" o en el "futuro" como desee.

rowShift <- function(x, shiftLen = 1L) {
  r <- (1L + shiftLen):(length(x) + shiftLen)
  r[r<1] <- NA
  return(x[r])
}

# Create column D by adding column C and the value from the previous row of column B:
DT[, D := C + rowShift(B,-1)]

# Get the Old Faithul eruption length from two events ago, and three events in the future:
as.data.table(faithful)[1:5,list(eruptLengthCurrent=eruptions,
                                 eruptLengthTwoPrior=rowShift(eruptions,-2), 
                                 eruptLengthThreeFuture=rowShift(eruptions,3))]
##   eruptLengthCurrent eruptLengthTwoPrior eruptLengthThreeFuture
##1:              3.600                  NA                  2.283
##2:              1.800                  NA                  4.533
##3:              3.333               3.600                     NA
##4:              2.283               1.800                     NA
##5:              4.533               3.333                     NA

Question 5

Basado en el comentario de @Steve Lianoglou anterior, ¿por qué no solo:

DT[, D:= C + c(NA, B[.I - 1]) ]
#    A  B   C   D
# 1: 1 10 100  NA
# 2: 2 20 200 210
# 3: 3 30 300 320
# 4: 4 40 400 430
# 5: 5 50 500 540

Y evitar el uso seq_leno heado cualquier otra función.

Question 6

Siguiendo la solución de Arun, se pueden obtener resultados similares sin hacer referencia a .N

> DT[, D := C + c(NA, head(B, -1))][]
   A  B   C   D
1: 1 10 100  NA
2: 2 20 200 210
3: 3 30 300 320
4: 4 40 400 430
5: 5 50 500 540

Question 7

Agregué un argumento de relleno y cambié algunos nombres y lo llamé shift. https://github.com/geneorama/geneorama/blob/master/R/shift.R

Question 8

Aquí está mi solución intuitiva:

#create data frame
df <- data.frame(A=1:5, B=seq(10,50,10), C=seq(100,500, 100))`
#subtract the shift from num rows
shift  <- 1 #in this case the shift is 1
invshift <- nrow(df) - shift
#Now create the new column
df$D <- c(NA, head(df$B, invshift)+tail(df$C, invshift))`

Aquí invshift, el número de filas menos 1 es 4. le nrow(df)proporciona el número de filas en un marco de datos o en un vector. Del mismo modo, si desea tomar valores aún anteriores, reste de nrow 2, 3, ... etc, y también coloque NA en consecuencia al principio.

Question 9

se puede hacer en bucle.

# Create the column D
DT$D <- 0
# for every row in DT
for (i in 1:length(DT$A)) {
  if(i==1) {
    #using NA at first line
    DT[i,4] <- NA
  } else {
    #D = C + BPreviousRow
    DT[i,4] <- DT[i,3] + DT[(i-1), 2]   
  }
}

Usando un for, incluso puede usar el valor anterior de la fila de esta nueva columna DT[(i-1), 4]

Answer 1

Quiero crear una nueva columna en un data.table calculado a partir del valor actual de una columna y el anterior de otra. ¿Es posible acceder a filas anteriores?

P.ej:

> DT <- data.table(A=1:5, B=1:5*10, C=1:5*100)
> DT
   A  B   C
1: 1 10 100
2: 2 20 200
3: 3 30 300
4: 4 40 400
5: 5 50 500
> DT[, D := C + BPreviousRow] # What is the correct code here?

La respuesta correcta debe ser

> DT
   A  B   C   D
1: 1 10 100  NA
2: 2 20 200 210
3: 3 30 300 320
4: 4 40 400 430
5: 5 50 500 540

Answer 2

Por lo general, establezco una clave para mis tablas de datos:DT <- data.table(A=..., key = "A")

PatrickT

Answer 3

103

Con shift()implementado en v1.9.6 , esto es bastante sencillo.

DT[ , D := C + shift(B, 1L, type="lag")]
# or equivalently, in this case,
DT[ , D := C + shift(B)]

De NEWS :

La nueva función shift()implementa rápido lead/lagde vector , lista , data.frames o data.tables . Toma un typeargumento que puede ser "lag" (predeterminado) o "lead" . Permite un uso muy conveniente junto con :=o set(). Por ejemplo: DT[, (cols) := shift(.SD, 1L), by=id]. Échale un vistazo ?shiftpara obtener más información.

Consulte el historial para obtener respuestas anteriores.

Arun
fuente

¿Tiene .Nel número de fila actual o algo así? Siento preguntar aquí, pero parece que no puedo encontrarlo en los archivos de ayuda ...

SlowLearner

7

@SlowLearner: también puede resultarle .Iútil, que contiene los índices de fila para las filas en el grupo actual.

Steve Lianoglou

7

Utilice seq_len (.N - 1) en lugar de 1 :(. N-1). Esto evita problemas asociados con 1: 0.

mnel

1

+1 para el .SDejemplo: estaba tratando de usar a lapplyy obteniendo resultados extravagantes. esto es mucho más sencillo.

MichaelChirico

¿Dónde puedo encontrar un pdf actualizado con toda esta nueva información? Las viñetas oficiales 1.9.4 y los webminars no lo incluyen. Y las viñetas Rmd 1.9.5 no son cómodas y tampoco las incluyen.

skan

Answer 4

¿Tiene .Nel número de fila actual o algo así? Siento preguntar aquí, pero parece que no puedo encontrarlo en los archivos de ayuda ...

SlowLearner

Answer 5

7

@SlowLearner: también puede resultarle .Iútil, que contiene los índices de fila para las filas en el grupo actual.

Steve Lianoglou

Answer 6

7

Utilice seq_len (.N - 1) en lugar de 1 :(. N-1). Esto evita problemas asociados con 1: 0.

mnel

Answer 7

1

+1 para el .SDejemplo: estaba tratando de usar a lapplyy obteniendo resultados extravagantes. esto es mucho más sencillo.

MichaelChirico

Answer 8

¿Dónde puedo encontrar un pdf actualizado con toda esta nueva información? Las viñetas oficiales 1.9.4 y los webminars no lo incluyen. Y las viñetas Rmd 1.9.5 no son cómodas y tampoco las incluyen.

skan

Answer 9

Usando dplyrusted podría hacer:

mutate(DT, D = lag(B) + C)

Lo que da:

#   A  B   C   D
#1: 1 10 100  NA
#2: 2 20 200 210
#3: 3 30 300 320
#4: 4 40 400 430
#5: 5 50 500 540

Answer 10

Varias personas han respondido a la pregunta específica. Consulte el código a continuación para ver una función de propósito general que uso en situaciones como esta y que puede ser útil. En lugar de simplemente obtener la fila anterior, puede ir tantas filas en el "pasado" o en el "futuro" como desee.

rowShift <- function(x, shiftLen = 1L) {
  r <- (1L + shiftLen):(length(x) + shiftLen)
  r[r<1] <- NA
  return(x[r])
}

# Create column D by adding column C and the value from the previous row of column B:
DT[, D := C + rowShift(B,-1)]

# Get the Old Faithul eruption length from two events ago, and three events in the future:
as.data.table(faithful)[1:5,list(eruptLengthCurrent=eruptions,
                                 eruptLengthTwoPrior=rowShift(eruptions,-2), 
                                 eruptLengthThreeFuture=rowShift(eruptions,3))]
##   eruptLengthCurrent eruptLengthTwoPrior eruptLengthThreeFuture
##1:              3.600                  NA                  2.283
##2:              1.800                  NA                  4.533
##3:              3.333               3.600                     NA
##4:              2.283               1.800                     NA
##5:              4.533               3.333                     NA

Answer 11

Esta es una respuesta brillante, me molesta que ya haya votado a favor de las otras respuestas porque esta es una respuesta mucho más general. De hecho, lo usaré en mi paquete geneorama (si no le importa).

geneorama

Answer 12

Claro, adelante. Tenía la esperanza de conseguir un poco de tiempo libre y presentarlo como una solicitud de extracción al data.tablepaquete, pero por desgracia ...

dnlbrky

Answer 13

Se shiftha agregado una función similar llamada a data.tablepartir de la versión 1.9.5. Vea la respuesta actualizada de @Arun.

dnlbrky

Answer 14

12

Basado en el comentario de @Steve Lianoglou anterior, ¿por qué no solo:

DT[, D:= C + c(NA, B[.I - 1]) ]
#    A  B   C   D
# 1: 1 10 100  NA
# 2: 2 20 200 210
# 3: 3 30 300 320
# 4: 4 40 400 430
# 5: 5 50 500 540

Y evitar el uso seq_leno heado cualquier otra función.

Gary Weissman
fuente

2

Agradable, sin embargo, esto no funcionaría si quisiera encontrar el anterior dentro de un grupo.

Mateo

1

@Matthew, tienes razón. Si estuviera subconjunto por grupo, reemplazaría .Iconseq_len(.N)

Gary Weissman

Answer 15

2

Agradable, sin embargo, esto no funcionaría si quisiera encontrar el anterior dentro de un grupo.

Mateo

Answer 16

1

@Matthew, tienes razón. Si estuviera subconjunto por grupo, reemplazaría .Iconseq_len(.N)

Gary Weissman

Answer 17

9

Siguiendo la solución de Arun, se pueden obtener resultados similares sin hacer referencia a .N

> DT[, D := C + c(NA, head(B, -1))][]
   A  B   C   D
1: 1 10 100  NA
2: 2 20 200 210
3: 3 30 300 320
4: 4 40 400 430
5: 5 50 500 540

Ryogi
fuente

¿Hay alguna razón para preferir un método a otro? ¿O es simplemente una diferencia estética?

Korone

Creo que en este escenario (es decir, donde .Nestá disponible) es principalmente una elección estética. No soy consciente de ninguna diferencia importante.

Ryogi

Answer 18

¿Hay alguna razón para preferir un método a otro? ¿O es simplemente una diferencia estética?

Korone

Answer 19

Creo que en este escenario (es decir, donde .Nestá disponible) es principalmente una elección estética. No soy consciente de ninguna diferencia importante.

Ryogi

Answer 20

1

Agregué un argumento de relleno y cambié algunos nombres y lo llamé shift. https://github.com/geneorama/geneorama/blob/master/R/shift.R

geneorama
fuente

1

Muchas gracias por la nota. Lo estaré buscando y lo más probable es que lo use y desaproveche mi versión geneorama.

geneorama

Answer 21

1

Muchas gracias por la nota. Lo estaré buscando y lo más probable es que lo use y desaproveche mi versión geneorama.

geneorama

Answer 22

Aquí está mi solución intuitiva:

#create data frame
df <- data.frame(A=1:5, B=seq(10,50,10), C=seq(100,500, 100))`
#subtract the shift from num rows
shift  <- 1 #in this case the shift is 1
invshift <- nrow(df) - shift
#Now create the new column
df$D <- c(NA, head(df$B, invshift)+tail(df$C, invshift))`

Aquí invshift, el número de filas menos 1 es 4. le nrow(df)proporciona el número de filas en un marco de datos o en un vector. Del mismo modo, si desea tomar valores aún anteriores, reste de nrow 2, 3, ... etc, y también coloque NA en consecuencia al principio.

Answer 23

se puede hacer en bucle.

# Create the column D
DT$D <- 0
# for every row in DT
for (i in 1:length(DT$A)) {
  if(i==1) {
    #using NA at first line
    DT[i,4] <- NA
  } else {
    #D = C + BPreviousRow
    DT[i,4] <- DT[i,3] + DT[(i-1), 2]   
  }
}

Usando un for, incluso puede usar el valor anterior de la fila de esta nueva columna DT[(i-1), 4]

Utilice un valor de la fila anterior en un cálculo de tabla de datos R.

Respuestas: