Un clúster de cómputo Amazon EC2 cuesta alrededor de $ 800- $ 1000 (dependiendo del ciclo de trabajo) por núcleo físico de la CPU en el transcurso de 3 años. En nuestra última ronda de adquisición de hardware, mi laboratorio recogió 48 núcleos de hardware muy similares a los de los clústeres de Amazon por alrededor de ~ $ 300 por núcleo.
¿Me estoy perdiendo de algo? ¿Hay alguna situación en la que tenga sentido económico construir un clúster en la nube para tareas de alta CPU como simulaciones de dinámica molecular? ¿O siempre estoy mejor construyendo y cuidando yo mismo la máquina DANG?
(Debo mencionar que mi laboratorio no paga la electricidad en nuestra sala de servidores (al menos no directamente), pero incluso con este beneficio, Amazon todavía parece extremadamente costoso).
fuente
Respuestas:
La principal ventaja, en mi opinión, de usar recursos basados en la nube es la flexibilidad, es decir, si tiene una carga de trabajo fluctuante, solo paga por lo que necesita.
Si este no es el caso en su aplicación, es decir, sabe que tendrá una carga de trabajo cuantificable y constante, entonces probablemente sea mejor construir su propio clúster. En la nube, paga por la flexibilidad, y si no necesita flexibilidad, estaría pagando por algo que no necesita.
Si su carga de trabajo es flexible pero algo intensa y depende de ciertas características del hardware (consulte la respuesta de aeismail), puede intentar compartir un clúster con otras personas en su universidad para amortizar los ciclos inactivos. Mi antigua universidad maneja un clúster compartido con un "Modelo de Accionista" en el que cada grupo tiene garantizada una parte de la potencia de computación proporcional a su inversión en el hardware y cualquiera puede usar los ciclos inactivos. La única dificultad es centralizar la administración del clúster.
fuente
Hay algunas cosas de las que preocuparse al hacer computación en la nube con simulaciones MD. Por ejemplo, debe preocuparse por el diseño físico de los procesadores en la granja de servidores donde se ejecutarán estos trabajos. La razón es que, dependiendo del tamaño de sus simulaciones y del tipo de cálculos que esté ejecutando (por ejemplo, sistemas con electrostática), puede depender en gran medida de los FFT y de enviar electrones a diferentes procesadores en un grupo gigantesco. podría convertirse en una parte muy lenta del tiempo total de cálculo.
Además, para algo tan intensivo en datos como MD, querrá asegurarse de tener conexiones rápidas de carga y descarga a los servidores, así como límites sensibles en el almacenamiento de datos. De lo contrario, gran parte del ahorro de costos podría verse absorbido por la pérdida de productividad y las tarifas de almacenamiento.
Por lo que vale, nuestro instituto acaba de comprar alrededor de ~ 240 núcleos para nuestro clúster local a un costo de menos de 500 € por núcleo. Ese costo incluye alojamiento y administración, más servicio, en nuestro campus durante cuatro años. Sobre una base anualizada que parece ridículamente barata. Creo que probablemente sea lo mejor de ambos mundos: acceso local, pero mantenido profesionalmente sin necesidad de nuestro propio equipo de TI.
fuente
No tengo experiencia de primera mano con servicios en la nube como EC2 de Amazon, pero el costo real por núcleo es probablemente mucho mayor de lo que usted cita: es el costo de la compra inicial, la electricidad, la refrigeración, el espacio en un edificio, el hardware de reemplazo. Además del costo de administración: configurar el sistema operativo y los servicios de clúster, mantener el sistema operativo actualizado, solucionar problemas de la cola, etc. No me sorprendería en absoluto si la suma de todo esto es el doble del costo de la compra inicial. Por supuesto que ganas flexibilidad.
Para mí, el modelo se reduce a escala: si tiene un clúster realmente grande (1000 núcleos o más), puede amortizar el tiempo de trabajo, las reparaciones y la administración del sistema porque hay suficiente para mantener ocupado a un profesional. Si tiene un grupo pequeño donde no vale la pena que lo haga una persona dedicada, entonces es probable que haga que alguien lo haga cuyo primer trabajo debería ser hacer ciencia, y en ese caso el tiempo de esta persona se dedica mal a tales trabajos administrativos. Aquí es donde brillan los servicios a pedido, como los servidores en la nube.
fuente
Como complemento de algunas de las respuestas ya excelentes, hay otro factor a considerar:
Me he encontrado con un número no trivial de subvenciones que no bajo ninguna circunstancia pagar los costes de hardware, sino que se pagan para calcular el tiempo en algo como EC2. Por lo tanto, en algunas circunstancias de financiación, si bien es posible que pueda financiar un pequeño grupo de "banco de pruebas" con fondos no estructurados o un paquete de inicio de laboratorio, para proyectos a gran escala puede ser la única forma de financiar sus costos informáticos.
Considere los NIH:
Si bien es posible colocar máquinas de clúster bajo el título de equipos de más de $ 5,000, y puede presentar un buen argumento para ello, he descubierto que tanto los revisores son inquietos como las universidades que dudan sobre los costos continuos de mantener tal sistema.
Algunas subvenciones son aún más estrictas. Una beca que tengo actualmente dice lo siguiente:
A menudo es más fácil obtener un clúster pagado por costos directos si está basado en EC2 o uno de sus muchos análogos que comprar el hardware, especialmente si su institución es tacaña con los costos indirectos. Puede que este no sea el caso para usted, pero es el caso para algunos.
fuente
Ya hay muchas respuestas de Dios. Solo quiero agregar dos puntos pequeños.
1.) Sé que IBM está ofreciendo algo similar. Por lo tanto, dependiendo de su aplicación, puede valer la pena comparar las diferentes ofertas. No solo con respecto al costo sino también al equipo.
2.) Por supuesto, la mayoría de los laboratorios son demasiado pequeños para poder invertir en su propio grupo. Por lo tanto, la pregunta es si no es posible reunir varios laboratorios e invertir en un clúster que se comparta entre los diferentes laboratorios. Esto tiene además del obvio efecto de costo compartido también la ventaja de una distribución de carga más uniforme.
fuente