En mi organización estamos pensando en comprar servidores blade, en lugar de servidores en rack. Por supuesto, los proveedores de tecnología también los hacen sonar muy bien. Una preocupación, que leo con frecuencia en diferentes foros, es que existe una posibilidad teórica de que el chasis del servidor se caiga, lo que en consecuencia eliminaría todos los blades. Eso se debe a la infraestructura compartida.
Mi reacción ante esta probabilidad sería tener redundancia y dos chasis en lugar de uno (muy costoso, por supuesto).
Algunas personas (incluidos, por ejemplo, los proveedores de HP) intentan convencernos de que es muy poco probable que el chasis falle, debido a muchas redundancias (fuente de alimentación redundante, etc.).
Otra preocupación de mi parte es que si algo falla, se pueden necesitar piezas de repuesto, lo cual es difícil en nuestra ubicación (Etiopía).
Por lo tanto, le preguntaría a los administradores experimentados que han administrado el servidor Blade: ¿Cuál es su experiencia? ¿Caen en su conjunto? ¿Cuál es la infraestructura compartida sensible que podría fallar?
Esa pregunta podría extenderse al almacenamiento compartido. Una vez más, diría que necesitamos dos unidades de almacenamiento en lugar de una sola, y nuevamente los vendedores dicen que estas cosas son tan sólidas que no se espera ningún fallo.
Bueno, casi no puedo creer que una infraestructura tan crítica pueda ser muy confiable sin redundancia, pero tal vez pueda decirme, si tiene proyectos exitosos basados en cuchillas, que funcionan sin redundancia en sus partes centrales (chasis, almacenamiento ... )
En este momento, miramos a HP, ya que IBM parece demasiado caro.
Respuestas:
Hay una baja probabilidad de falla completa del chasis ...
Es probable que encuentre problemas en sus instalaciones antes de sufrir una falla completa de un gabinete blade.
Mi experiencia es principalmente con los gabinetes blade HP C7000 y HP C3000 . También he administrado las soluciones blade de Dell y Supermicro. El vendedor importa un poco. Pero en resumen, el equipo de HP ha sido estelar, Dell ha estado bien y Supermicro carecía de calidad, resistencia y estaba mal diseñado. Nunca he experimentado fallas en el lado de HP y Dell. El Supermicro tuvo interrupciones graves, lo que nos obligó a abandonar la plataforma. En HP y Dell, nunca me he encontrado con una falla completa del chasis.
He visto una variedad de entornos y he tenido la ventaja de instalar en condiciones ideales del centro de datos, así como en algunas ubicaciones más difíciles. En el lado de HP C7000 y C3000, lo principal a considerar es que el chasis es completamente modular. Los componentes están diseñados para minimizar el impacto de una falla del componente que afecta a toda la unidad.
Piénselo de esta manera ... El chasis principal del C7000 se compone de ensambles de plano medio frontal (pasivo) y plano posterior. El recinto estructural simplemente mantiene unidos los componentes delantero y trasero y soporta el peso de los sistemas. Casi todas las partes pueden ser reemplazadas ... créeme, he desmontado muchas. Las principales redundancias están en ventilador / refrigeración, alimentación y redes y gestión. Los procesadores de administración ( Administrador integrado de HP ) pueden emparejarse para obtener redundancia, sin embargo, los servidores pueden ejecutarse sin ellos.
Recinto completamente poblado - vista frontal. Las seis fuentes de alimentación en la parte inferior recorren toda la profundidad del chasis y se conectan a un conjunto de placa posterior de alimentación modular en la parte posterior del gabinete. Los modos de fuente de alimentación son configurables: por ejemplo, 3 + 3 o n + 1. Por lo tanto, el gabinete definitivamente tiene redundancia de energía.
Recinto completamente poblado - vista trasera. Los módulos de red Virtual Connect en la parte posterior tienen una conexión cruzada interna, por lo que puedo perder un lado u otro y aún así mantener la conectividad de red a los servidores. Hay seis fuentes de alimentación intercambiables en caliente y diez ventiladores intercambiables en caliente.
Recinto vacío - vista frontal. Tenga en cuenta que realmente no hay nada en esta parte del recinto. Todas las conexiones se pasan al plano medio modular.
Montaje del plano medio eliminado. Tenga en cuenta las seis fuentes de alimentación para el ensamblaje del plano medio en la parte inferior.
Montaje de plano medio. Aquí es donde sucede la magia. Tenga en cuenta las 16 conexiones de plano descendente separadas: una para cada uno de los servidores Blade. He tenido fallas en los receptáculos / bahías de servidores individuales sin matar todo el gabinete o afectar a los otros servidores.
Fuente de alimentación placa (s) posterior (s). Unidad de 3ø debajo del módulo monofásico estándar. Cambié la distribución de energía en mi centro de datos y simplemente cambié el plano posterior de la fuente de alimentación para tratar con el nuevo método de suministro de energía
Conector del chasis dañado. Este gabinete en particular se dejó caer durante el ensamblaje, rompiendo los pines de un conector de cinta. Esto pasó desapercibido durante días, lo que provocó que el chasis blade en ejecución se incendiara ...
Aquí están los restos carbonizados del cable plano del plano medio. Esto controlaba parte de la temperatura del chasis y el monitoreo del entorno. Los servidores Blade continuaron ejecutándose sin incidentes. Las partes afectadas fueron reemplazadas en mi tiempo libre durante el tiempo de inactividad programado, y todo estuvo bien.
fuente
He estado administrando pequeñas cantidades de servidores Blade durante ocho años, y aún no he tenido una falla en todo el sistema que haya desconectado varios Blades. Me he acercado mucho debido a problemas relacionados con la energía, pero aún no he tenido una falla en todo el chasis que no sea atribuible a fuentes externas.
Su observación de que el chasis representa un punto único de falla es correcta, aunque actualmente incorporan una gran cantidad de redundancias en ellos. Todos los sistemas blade que he usado han tenido alimentación de energía paralela a los blades, y múltiples tomas de red que pasan por rutas separadas, y en el caso de múltiples rutas de canal de fibra desde el blade hasta los puertos ópticos de la parte posterior del rack. Incluso el sistema de información del chasis tenía múltiples caminos.
Con la ingeniería de red adecuada (uso de NIC redundante, MPIO para almacenamiento), los eventos de un solo problema son completamente sobrevivibles. En mi tiempo con estos sistemas he tenido los siguientes problemas, ninguno de los cuales afectó a más de una cuchilla, si es que la hubo:
Sin embargo, el punto de TomTom sobre el costo es muy cierto. Para llegar a la paridad de costo total, su chasis Blade tendrá que estar completamente cargado y probablemente no usará cosas especiales como interruptores en la parte posterior del bastidor. Los bastidores de cuchillas tienen sentido en áreas donde realmente necesita la densidad porque tiene limitaciones de espacio
fuente
En realidad no. Sus preocupaciones hasta ahora tenían sentido, esta oración las pone en "leer las cosas frente a sus ojos". HA con replicación completa es una característica empresarial conocida para unidades de almacenamiento. El punto es que una SAN (la unidad de almacenamiento es mucho más compleja que un chasis blade que al final es simplemente "metal estúpido". Todo en un chasis blade, excepto algunos planos posteriores, es reemplazable; todos los módulos, etc. son reemplazables, y las cuchillas individuales SON se permite fallar. Nadie dice que el centro de la cuchilla en sí mismo les da a las cuchillas alta disponibilidad.
Esto es muy diferente de una SAN que se supone que está activa el 100% del tiempo, en estado constante, por lo que hay cosas como la replicación, etc.
ESO DIJO: mira tus números. He considerado comprar cuchillas por algún tiempo y NUNCA HICIERON SENTIDO FINANCIERO. El chasis es demasiado caro y las cuchillas no son realmente más baratas en comparación con las computadoras normales. Sugeriría mirar la arquitectura SuperMicro Twin como alternativa.
fuente
Los servidores blade con los que he tenido experiencia son los de IBM. Esos particulares son totalmente modulares y hay mucha redundancia incorporada. Entonces, si algo va a fallar, será uno de los componentes, como una fuente de alimentación o un interruptor modular, etc. Pero nuevamente, hay redundancia incluso en esos.
Desde que me involucré con los blades de IBM, no he visto una falla completa antes.
Con las otras marcas sospecho que se construirían de manera similar.
Sería una buena idea hablar con un vendedor también y leer mucho.
Es una gran inversión.
fuente
Las fallas que conducen a múltiples interrupciones del servidor Blade en el mismo gabinete son comparables (en probabilidad y causa) a fallas que conducen a múltiples interrupciones del servidor en el mismo bastidor.
Configuración inicial para minimizar los puntos únicos de falla (dos fuentes de alimentación de CA separadas , cada una de las cuales puede manejar la carga completa, ejecutándose para fuentes de alimentación de CC separadas, de modo que cualquier mitad pueda manejar la carga completa; dos conexiones de red separadas , cualquiera de que puede manejar toda la carga esperada, etc.) y la diferencia entre algo que elimina todos los blades en un chasis o todos los servidores 2U en un rack es muy pequeña.
fuente
¡En efecto! Hace aproximadamente 5 años, mientras administraba dos gabinetes blade HP Proliant p-Class, me encontré con problemas en todo el chasis varias veces.
He tenido servidores Blade que no pueden encenderse, si se han apagado (los servidores no se apagan con frecuencia, pero de todos modos se convirtió en un problema muy real para nosotros). He tenido servidores que se apagan repentinamente y no puedo volver a encenderlos. Finalmente, tuve todos los servidores apagados y no pude volver a encenderlos.
Por lo que recuerdo, casi todos los problemas se atribuyeron a los backplanes de mala potencia o backplanes del controlador. Tuvimos que reemplazarlos varias veces y el mensaje no específico y extraoficial que recibí de los técnicos fue que tenían su parte de problemas con esta generación de recintos de cuchillas.
Entonces decidí que el beneficio de los servidores Blade simplemente no valía la pena el riesgo, si tenía algo que decir en futuras compras.
Avancemos rápidamente a mi próximo empleador, y al actual, para el caso. Ya tenían los gabinetes HP Proliant clase C funcionando, por lo que mi sensación tibia de las cuchillas realmente no importó. En los 5 años que he tratado con los gabinetes de la clase c, nunca he experimentado algo como lo hice con la clase p, donde un gabinete completo me falló. Han estado funcionando sin mayores problemas.
(Excepto por el momento en que una tormenta de lluvia envió lluvia a través del techo, 4 pisos, un pequeño agujero en el sello de la sala de computadoras, bajó un cable y entró en el chasis)
fuente
Tanto el chasis DELL como el HP Blade carecen de un plano medio redundante. Aquí es donde IBM Bladecenter demuestra ser un ganador. Que yo sepa, es el único chasis blade que proporciona un plano medio redundante. Aunque HP ofrece un fantástico conjunto de software de administración para los blades, compramos un Bladecenter E para nuestra compañía solo para evitar un solo punto de falla de todo el chasis.
fuente