Agregar una columna a un marco de datos

115

Tengo el data.frame a continuación. Quiero agregar una columna que clasifique mis datos de acuerdo con la columna 1 ( h_no) de esa manera que la primera serie de h_no 1,2,3,4 sea de clase 1, la segunda serie de h_no(1 a 7) sea de clase 2, etc. como se indica en la última columna.

h_no  h_freq  h_freqsq
1     0.09091 0.008264628 1
2     0.00000 0.000000000 1
3     0.04545 0.002065702 1
4     0.00000 0.000000000 1  
1     0.13636 0.018594050 2
2     0.00000 0.000000000 2
3     0.00000 0.000000000 2
4     0.04545 0.002065702 2
5     0.31818 0.101238512 2
6     0.00000 0.000000000 2
7     0.50000 0.250000000 2 
1     0.13636 0.018594050 3 
2     0.09091 0.008264628 3
3     0.40909 0.167354628 3
4     0.04545 0.002065702 3
Susanne Dreisigacker
fuente

Respuestas:

155

Puede agregar una columna a sus datos utilizando varias técnicas. Las citas siguientes provienen de la sección "Detalles" del texto de ayuda correspondiente [[.data.frame.

Los marcos de datos se pueden indexar en varios modos. Cuando [y [[se utilizan con un índice de vector único ( x[i]o x[[i]]), indexan el marco de datos como si fuera una lista.

my.dataframe["new.col"] <- a.vector
my.dataframe[["new.col"]] <- a.vector

El método data.frame para $, trata xcomo una lista

my.dataframe$new.col <- a.vector

Cuando [y [[se utilizan con dos índices ( x[i, j]y x[[i, j]]) actúan como indexando una matriz

my.dataframe[ , "new.col"] <- a.vector

Dado que el método para data.frameasume que si no especifica si está trabajando con columnas o filas, asumirá que se refiere a columnas.


Para su ejemplo, esto debería funcionar:

# make some fake data
your.df <- data.frame(no = c(1:4, 1:7, 1:5), h_freq = runif(16), h_freqsq = runif(16))

# find where one appears and 
from <- which(your.df$no == 1)
to <- c((from-1)[-1], nrow(your.df)) # up to which point the sequence runs

# generate a sequence (len) and based on its length, repeat a consecutive number len times
get.seq <- mapply(from, to, 1:length(from), FUN = function(x, y, z) {
            len <- length(seq(from = x[1], to = y[1]))
            return(rep(z, times = len))
         })

# when we unlist, we get a vector
your.df$group <- unlist(get.seq)
# and append it to your original data.frame. since this is
# designating a group, it makes sense to make it a factor
your.df$group <- as.factor(your.df$group)


   no     h_freq   h_freqsq group
1   1 0.40998238 0.06463876     1
2   2 0.98086928 0.33093795     1
3   3 0.28908651 0.74077119     1
4   4 0.10476768 0.56784786     1
5   1 0.75478995 0.60479945     2
6   2 0.26974011 0.95231761     2
7   3 0.53676266 0.74370154     2
8   4 0.99784066 0.37499294     2
9   5 0.89771767 0.83467805     2
10  6 0.05363139 0.32066178     2
11  7 0.71741529 0.84572717     2
12  1 0.10654430 0.32917711     3
13  2 0.41971959 0.87155514     3
14  3 0.32432646 0.65789294     3
15  4 0.77896780 0.27599187     3
16  5 0.06100008 0.55399326     3
Roman Luštrik
fuente
¿Cuál es la diferencia entre los dos últimos métodos de agregar una columna?
huon
2
@ huon-dbaupp el método con una coma es explícito y también funcionará en matrices, mientras que el último solo funciona en data.frames. Si no se proporciona una coma, R asume que se refiere a columnas.
Roman Luštrik
12

Fácilmente: su marco de datos es A

b <- A[,1]
b <- b==1
b <- cumsum(b)

Entonces obtienes la columna b.

usuario1333396
fuente
Bonito y corto. Simplemente cambiaría el último elemento para que, en lugar de ser cumsum(b) -> bel resultado, se agregue directamente como una columna al marco de datos original, algo así como A$groups <- cumsum(b).
A5C1D2H2I1M1N2O1R2T1
cumsum(b)le dará un vector de longitud 3, o me falta algo?
Roman Luštrik
@ RomanLuštrik, vea la solución de dbaupp que explica cómo funcionaría cumsum en este caso.
A5C1D2H2I1M1N2O1R2T1
2
@ RomanLuštrik, Esta solución se puede reescribir muy bien en una sola línea. Usando sus your.dfdatos, simplemente puede hacer your.df$group = cumsum(your.df[, 1]==1)para obtener su nueva columna de grupo.
A5C1D2H2I1M1N2O1R2T1
7

Si entiendo la pregunta correctamente, desea detectar cuándo h_nono aumenta y luego aumentar class. (Voy a explicar cómo resolví este problema, hay una función autónoma al final).

Trabajando

Solo nos importa la h_nocolumna por el momento, por lo que podemos extraer eso del marco de datos:

> h_no <- data$h_no

Queremos detectar cuándo h_nono sube, lo que podemos hacer calculando cuándo la diferencia entre los elementos sucesivos es negativa o cero. R proporciona la difffunción que nos da el vector de diferencias:

> d.h_no <- diff(h_no)
> d.h_no
 [1]  1  1  1 -3  1  1  1  1  1  1 -6  1  1  1

Una vez que tenemos eso, es muy sencillo encontrar los que no son positivos:

> nonpos <- d.h_no <= 0
> nonpos
 [1] FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE
[13] FALSE FALSE

En R, TRUEy FALSEson básicamente lo mismo que 1y 0, por lo que si obtenemos la suma acumulada de nonpos, aumentará en 1 en (casi) los puntos apropiados. La cumsumfunción (que es básicamente lo contrario de diff) puede hacer esto.

> cumsum(nonpos)
 [1] 0 0 0 1 1 1 1 1 1 1 2 2 2 2

Pero hay dos problemas: los números son demasiado pequeños; y nos falta el primer elemento (debería haber cuatro en la primera clase).

El primer problema se resuelve simplemente: 1+cumsum(nonpos). Y el segundo solo requiere agregar un 1al frente del vector, ya que el primer elemento siempre está en la clase 1:

 > classes <- c(1, 1 + cumsum(nonpos))
 > classes
  [1] 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3

Ahora, podemos adjuntarlo nuevamente a nuestro marco de datos con cbind(usando la class=sintaxis, podemos darle a la columna el classencabezado):

 > data_w_classes <- cbind(data, class=classes)

Y data_w_classesahora contiene el resultado.

Resultado final

Podemos comprimir las líneas juntas y envolverlo todo en una función para que sea más fácil de usar:

classify <- function(data) {
   cbind(data, class=c(1, 1 + cumsum(diff(data$h_no) <= 0)))
}

O, dado que tiene sentido classque sea un factor:

classify <- function(data) {
   cbind(data, class=factor(c(1, 1 + cumsum(diff(data$h_no) <= 0))))
}

Utiliza cualquiera de las funciones como:

> classified <- classify(data) # doesn't overwrite data
> data <- classify(data) # data now has the "class" column

(Este método para resolver este problema es bueno porque evita la iteración explícita, que generalmente se recomienda para R, y evita generar muchos vectores intermedios y listas, etc. Y también es bastante bueno cómo se puede escribir en una línea :))

huon
fuente
2

Además de la respuesta de Roman, algo como esto podría ser aún más simple. Tenga en cuenta que no lo he probado porque no tengo acceso a R en este momento.

# Note that I use a global variable here
# normally not advisable, but I liked the
# use here to make the code shorter
index <<- 0
new_column = sapply(df$h_no, function(x) {
  if(x == 1) index = index + 1
  return(index)
})

La función itera sobre los valores n_hoy siempre devuelve la categoría a la que pertenece el valor actual. Si 1se detecta un valor de , aumentamos la variable global indexy continuamos.

Paul Hiemstra
fuente
Me gusta el truco con la variable global. Entonces Cish. : P
Roman Luštrik
2

Creo que usar "cbind" es la forma más sencilla de agregar una columna a un marco de datos en R. A continuación, se muestra un ejemplo:

    myDf = data.frame(index=seq(1,10,1), Val=seq(1,10,1))
    newCol= seq(2,20,2)
    myDf = cbind(myDf,newCol)
Emanuele Catania
fuente
1
Data.frame[,'h_new_column'] <- as.integer(Data.frame[,'h_no'], breaks=c(1, 4, 7))
usuario2759975
fuente
0

Enfoque basado en la identificación del número de grupos ( xpulgadas mapply) y su longitud ( ypulgadas mapply)

mytb<-read.table(text="h_no  h_freq  h_freqsq group
1     0.09091 0.008264628 1
2     0.00000 0.000000000 1
3     0.04545 0.002065702 1
4     0.00000 0.000000000 1  
1     0.13636 0.018594050 2
2     0.00000 0.000000000 2
3     0.00000 0.000000000 2
4     0.04545 0.002065702 2
5     0.31818 0.101238512 2
6     0.00000 0.000000000 2
7     0.50000 0.250000000 2 
1     0.13636 0.018594050 3 
2     0.09091 0.008264628 3
3     0.40909 0.167354628 3
4     0.04545 0.002065702 3", header=T, stringsAsFactors=F)
mytb$group<-NULL

positionsof1s<-grep(1,mytb$h_no)

mytb$newgroup<-unlist(mapply(function(x,y) 
  rep(x,y),                      # repeat x number y times
  x= 1:length(positionsof1s),    # x is 1 to number of nth group = g1:g3
  y= c( diff(positionsof1s),     # y is number of repeats of groups g1 to penultimate (g2) = 4, 7
        nrow(mytb)-              # this line and the following gives number of repeat for last group (g3)
          (positionsof1s[length(positionsof1s )]-1 )  # number of rows - position of penultimate group (g2) 
      ) ) )
mytb
Ferroao
fuente