¿Quién de ustedes en este foro usa "> R con el multinúcleo , paquetes de nieve o CUDA , entonces para cálculos avanzados que necesitan más potencia que una CPU de estación de trabajo? ¿En qué hardware calculan estos scripts? ¿En casa / trabajo o tienen acceso al centro de datos en alguna parte?
El trasfondo de estas preguntas es el siguiente: actualmente estoy escribiendo mi M.Sc. tesis sobre R y computación de alto rendimiento y necesito un conocimiento sólido sobre quién realmente usa R. Leí que R tenía 1 millón de usuarios en 2008, pero esa es más o menos la única estadística de usuario que pude encontrar sobre este tema, así que espero su respuestas!
Sinceramente Heinrich
Respuestas:
Soy un biólogo que modela los efectos de la variación climática interanual en la dinámica de la población de varias especies migratorias. Mis conjuntos de datos son muy grandes (datos espacialmente intensivos), por lo que ejecuto mi código R
multicore
en servidores Amazon EC2. Si mi tarea es particularmente intensiva en recursos, elegiré una instancia Cuádruple extra grande de memoria alta que viene con 26 unidades de CPU, 8 núcleos y 68G de RAM. En este caso, generalmente ejecuto 4-6 scripts simultáneamente, cada uno de los cuales funciona a través de un conjunto de datos bastante grande. Para tareas más pequeñas, elijo servidores con 4-6 núcleos y aproximadamente 20 gigas de RAM.Lanzo estas instancias (generalmente instancias puntuales porque son más baratas pero pueden finalizar en cualquier momento que la tarifa actual exceda lo que he elegido pagar), ejecuto el script durante varias horas y luego finalizo la instancia una vez que mi script ha finalizado. En cuanto a la imagen de la máquina (Amazon Machine Image), tomé otra instalación de Ubuntu, actualicé R, instalé mis paquetes y la guardé como mi AMI privada en mi espacio de almacenamiento S3.
Mi máquina personal es una MacBook Pro dualcore y tiene dificultades para bifurcar llamadas multinúcleo. No dude en enviar un correo electrónico si tiene otras preguntas.
fuente
Como me preguntas, estoy usando el paquete foreach con el backend multinúcleo . Lo uso para dividir una carga de trabajo vergonzosamente paralela en varios núcleos en una sola caja Nehalem con mucha RAM. Esto funciona bastante bien para la tarea en cuestión.
fuente
Trabajo en la academia y estoy usando multinúcleo para algunos puntos de referencia pesados de algoritmos de aprendizaje automático, principalmente en nuestra Sun Constellation basada en Opteron y algunos grupos más pequeños; estos también son problemas bastante vergonzosos y paralelos, por lo que el papel principal de varios núcleos es distribuir la computación sobre el nodo sin multiplicar el uso de la memoria.
fuente
Uso nieve y nevadas para la paralelización del curso en clústeres HPC y CUDA para el procesamiento paralelo de datos finos. Estoy en Epidemiología haciendo modelos de transmisión de enfermedades. Entonces uso ambos.
fuente