Soy un novato en R que está obligado a hacer varios tipos de análisis en grandes conjuntos de datos en R. Entonces, al mirar este sitio y en otros lugares, me pareció que hay muchos problemas esotéricos y menos conocidos involucrados aquí, como qué paquete usar cuándo, qué transformaciones se aplicarán (no) en los datos, etc.
Me pregunto si hay un libro / tutorial / guía que desmitifique todo esto y presente la información de manera sistemática. Prefiero hacer esto en lugar de mirar alrededor y recopilar información de diferentes fuentes en línea.
Gracias por adelantado.
r
large-data
Enseñar
fuente
fuente
Respuestas:
Aquí hay un par de publicaciones de blog que hice sobre este tema de Grandes conjuntos de datos con R. Hay un par de paquetes como ff y bigmemory que hacen uso del intercambio de archivos y la asignación de memoria. Un par de otros paquetes hacen uso de la conectividad a bases de datos como sqldf, RMySQL y RSQLite.
Referencias R para el manejo de Big Data
Regresión logística de Big Data en R con ODBC
fuente