Preguntas etiquetadas con dplyr

93
Obteniendo los mejores valores por grupo

Aquí hay un marco de datos de muestra: d <- data.frame( x = runif(90), grp = gl(3, 30) ) Quiero que el subconjunto dcontenga las filas con los 5 valores superiores de xpara cada valor de grp. Usando base-R, mi enfoque sería algo como: ordered <- d[order(d$x, decreasing = TRUE), ]...

91
dplyr en data.table, ¿realmente estoy usando data.table?

Si uso la sintaxis de dplyr sobre una tabla de datos , ¿obtengo todos los beneficios de velocidad de la tabla de datos mientras sigo usando la sintaxis de dplyr? En otras palabras, ¿uso incorrectamente la tabla de datos si la consulto con la sintaxis dplyr? ¿O necesito usar una sintaxis de tabla...

87
dplyr mutate con valores condicionales

En un marco de datos grande ("myfile") con cuatro columnas, tengo que agregar una quinta columna con valores condicionalmente basados ​​en las primeras cuatro columnas. Prefiere respuestas con dplyry mutate, principalmente debido a su velocidad en grandes conjuntos de datos. Mi marco de datos...

81
Contar el número de filas por grupo usando dplyr

Estoy usando el mtcarsconjunto de datos. Quiero encontrar el número de registros para una combinación particular de datos. Algo muy parecido a la count(*)cláusula group by en SQL. ddply()de plyr está funcionando para mí library(plyr) ddply(mtcars, .(cyl,gear),nrow) tiene salida cyl gear...

80
Error: no se pudo encontrar la función "%>%"

Estoy ejecutando un ejemplo en R, siguiendo los pasos y todo está funcionando hasta ahora, excepto que este código produce un error: words <- dtm %>% as.matrix %>% colnames %>% (function(x) x[nchar(x) < 20]) Error: no se pudo encontrar la función "%>%" No entiendo...

18
Cómo reemplazar NA con un conjunto de valores

Tengo el siguiente marco de datos: library(dplyr) library(tibble) df <- tibble( source = c("a", "b", "c", "d", "e"), score = c(10, 5, NA, 3, NA ) ) df Se parece a esto: # A tibble: 5 x 2 source score <chr> <dbl> 1 a 10 . # current max value 2 b 5 3 c NA 4 d 3 5 e NA Lo...

9
Manera eficiente de soltar filas con tiempos superpuestos

Tengo un conjunto de datos largo con columnas que representan las horas de inicio y finalización, y deseo eliminar una fila si se superpone con otra y tiene una prioridad más alta (por ejemplo, 1 es la prioridad más alta). Mi ejemplo de datos es library(tidyverse) library(lubridate) times_df <-...