Manejo de grandes conjuntos de datos en R: tutoriales, mejores prácticas, etc.

11

Soy un novato en R que está obligado a hacer varios tipos de análisis en grandes conjuntos de datos en R. Entonces, al mirar este sitio y en otros lugares, me pareció que hay muchos problemas esotéricos y menos conocidos involucrados aquí, como qué paquete usar cuándo, qué transformaciones se aplicarán (no) en los datos, etc.

Me pregunto si hay un libro / tutorial / guía que desmitifique todo esto y presente la información de manera sistemática. Prefiero hacer esto en lugar de mirar alrededor y recopilar información de diferentes fuentes en línea.

Gracias por adelantado.

Enseñar
fuente
2
Esto podría ser un comienzo: cran.r-project.org/web/views/HighPerformanceComputing.html
Roman Luštrik
1
Podría ser útil compartir algunos ejemplos de qué tipo de análisis desea hacer y cómo se ven sus datos. ¿Estadísticas simples como medias o regresiones complejas? ¿200 variables en mil filas, o 4 variables y 20 millones de filas?
PaulHurleyuk
1
Si tiene conjuntos de datos realmente "grandes", tal vez debería echar un vistazo a las bases de datos relacionales. Un punto de partida para esto puede ser el manual "Importación / Exportación de datos R" que se entrega con RNB, el manual también está disponible a través de la sección "Manuales" del sitio web de R.
1
Primero, pregunta importante: ¿Qué quieres decir con grande y qué quieres hacer?
Fomite

Respuestas: