Probabilidad de falla del chasis de la cuchilla

48

En mi organización estamos pensando en comprar servidores blade, en lugar de servidores en rack. Por supuesto, los proveedores de tecnología también los hacen sonar muy bien. Una preocupación, que leo con frecuencia en diferentes foros, es que existe una posibilidad teórica de que el chasis del servidor se caiga, lo que en consecuencia eliminaría todos los blades. Eso se debe a la infraestructura compartida.

Mi reacción ante esta probabilidad sería tener redundancia y dos chasis en lugar de uno (muy costoso, por supuesto).

Algunas personas (incluidos, por ejemplo, los proveedores de HP) intentan convencernos de que es muy poco probable que el chasis falle, debido a muchas redundancias (fuente de alimentación redundante, etc.).

Otra preocupación de mi parte es que si algo falla, se pueden necesitar piezas de repuesto, lo cual es difícil en nuestra ubicación (Etiopía).

Por lo tanto, le preguntaría a los administradores experimentados que han administrado el servidor Blade: ¿Cuál es su experiencia? ¿Caen en su conjunto? ¿Cuál es la infraestructura compartida sensible que podría fallar?

Esa pregunta podría extenderse al almacenamiento compartido. Una vez más, diría que necesitamos dos unidades de almacenamiento en lugar de una sola, y nuevamente los vendedores dicen que estas cosas son tan sólidas que no se espera ningún fallo.

Bueno, casi no puedo creer que una infraestructura tan crítica pueda ser muy confiable sin redundancia, pero tal vez pueda decirme, si tiene proyectos exitosos basados ​​en cuchillas, que funcionan sin redundancia en sus partes centrales (chasis, almacenamiento ... )

En este momento, miramos a HP, ya que IBM parece demasiado caro.

ChrisZZ
fuente
3
Gran pregunta Publicaré mi respuesta y algunos escenarios de fallas de la vida real más tarde hoy.
ewwhite
¿Has visto lo que Dell tiene en sus servidores C? Por ejemplo, el C6100 tiene 4 nodos en una caja de 2U, un equivalente de un chasis blade de 4 ranuras. En lugar de un chasis blade de 10U, puede obtener cinco servidores en rack de 2U. Ya no es un solo punto de falla, pero pierde las ventajas de la placa posterior. Posiblemente HP / IBM tenga un producto equivalente.
jqa

Respuestas:

49

Hay una baja probabilidad de falla completa del chasis ...

Es probable que encuentre problemas en sus instalaciones antes de sufrir una falla completa de un gabinete blade.

Mi experiencia es principalmente con los gabinetes blade HP C7000 y HP C3000 . También he administrado las soluciones blade de Dell y Supermicro. El vendedor importa un poco. Pero en resumen, el equipo de HP ha sido estelar, Dell ha estado bien y Supermicro carecía de calidad, resistencia y estaba mal diseñado. Nunca he experimentado fallas en el lado de HP y Dell. El Supermicro tuvo interrupciones graves, lo que nos obligó a abandonar la plataforma. En HP y Dell, nunca me he encontrado con una falla completa del chasis.

  • He tenido eventos termales. El aire acondicionado falló en una instalación de ubicación conjunta que envió temperaturas a 115 ° F / 46 ° C durante 10 horas.
  • Sobretensiones y fallas de línea: pérdida de un lado de una alimentación A / B. Fallas en el suministro de energía individual. Por lo general, hay seis fuentes de alimentación en mis configuraciones de blade, por lo que hay una amplia advertencia y redundancia.
  • Fallos individuales del servidor Blade. Los problemas de un servidor no afectan a los demás en el gabinete.
  • Un incendio en el chasis ...

He visto una variedad de entornos y he tenido la ventaja de instalar en condiciones ideales del centro de datos, así como en algunas ubicaciones más difíciles. En el lado de HP C7000 y C3000, lo principal a considerar es que el chasis es completamente modular. Los componentes están diseñados para minimizar el impacto de una falla del componente que afecta a toda la unidad.

Piénselo de esta manera ... El chasis principal del C7000 se compone de ensambles de plano medio frontal (pasivo) y plano posterior. El recinto estructural simplemente mantiene unidos los componentes delantero y trasero y soporta el peso de los sistemas. Casi todas las partes pueden ser reemplazadas ... créeme, he desmontado muchas. Las principales redundancias están en ventilador / refrigeración, alimentación y redes y gestión. Los procesadores de administración ( Administrador integrado de HP ) pueden emparejarse para obtener redundancia, sin embargo, los servidores pueden ejecutarse sin ellos.

ingrese la descripción de la imagen aquí

Recinto completamente poblado - vista frontal. Las seis fuentes de alimentación en la parte inferior recorren toda la profundidad del chasis y se conectan a un conjunto de placa posterior de alimentación modular en la parte posterior del gabinete. Los modos de fuente de alimentación son configurables: por ejemplo, 3 + 3 o n + 1. Por lo tanto, el gabinete definitivamente tiene redundancia de energía. ingrese la descripción de la imagen aquí

Recinto completamente poblado - vista trasera. Los módulos de red Virtual Connect en la parte posterior tienen una conexión cruzada interna, por lo que puedo perder un lado u otro y aún así mantener la conectividad de red a los servidores. Hay seis fuentes de alimentación intercambiables en caliente y diez ventiladores intercambiables en caliente. ingrese la descripción de la imagen aquí

Recinto vacío - vista frontal. Tenga en cuenta que realmente no hay nada en esta parte del recinto. Todas las conexiones se pasan al plano medio modular. ingrese la descripción de la imagen aquí

Montaje del plano medio eliminado. Tenga en cuenta las seis fuentes de alimentación para el ensamblaje del plano medio en la parte inferior. ingrese la descripción de la imagen aquí

Montaje de plano medio. Aquí es donde sucede la magia. Tenga en cuenta las 16 conexiones de plano descendente separadas: una para cada uno de los servidores Blade. He tenido fallas en los receptáculos / bahías de servidores individuales sin matar todo el gabinete o afectar a los otros servidores. ingrese la descripción de la imagen aquí

Fuente de alimentación placa (s) posterior (s). Unidad de 3ø debajo del módulo monofásico estándar. Cambié la distribución de energía en mi centro de datos y simplemente cambié el plano posterior de la fuente de alimentación para tratar con el nuevo método de suministro de energía ingrese la descripción de la imagen aquí

Conector del chasis dañado. Este gabinete en particular se dejó caer durante el ensamblaje, rompiendo los pines de un conector de cinta. Esto pasó desapercibido durante días, lo que provocó que el chasis blade en ejecución se incendiara ... ingrese la descripción de la imagen aquí

Aquí están los restos carbonizados del cable plano del plano medio. Esto controlaba parte de la temperatura del chasis y el monitoreo del entorno. Los servidores Blade continuaron ejecutándose sin incidentes. Las partes afectadas fueron reemplazadas en mi tiempo libre durante el tiempo de inactividad programado, y todo estuvo bien. ingrese la descripción de la imagen aquí

ewwhite
fuente
+1 para C7000. Hemos tenido uno funcionando durante los últimos dos años, sólido, y nunca tuvimos ningún problema, hardware o rendimiento, en el gabinete o en los blades.
tombull89
1
Tengo que estar de acuerdo con esto: hemos tenido una variedad de chasis blade de Dell y han sido prácticamente a prueba de balas. Creo que hemos tenido una falla en el módulo de un controlador en un chasis y el resultado neto de eso es que no pudimos administrar el chasis de forma remota durante el día que le tomó al soporte de Dell enviarnos otro controlador y un ingeniero para adaptarlo. Sin tiempo de inactividad real de la cuchilla debido a la falla o la operación de reemplazar el controlador
Rob Moir
1
Tengo que estar de acuerdo con @ewwhite. He estado ejecutando c7000 durante aproximadamente 8 años sin parar sin fallas en el chasis. Incluso los tuvimos funcionando a 130'F durante un par de horas debido a un fallo de HVAC y no tuvimos ningún fallo. Lo más importante a tener en cuenta es asegurarse de dividir sus cargas de energía en múltiples paneles de energía y dividir su red en múltiples conmutadores para eliminar un solo punto de falla. Lo único que hemos tenido que salir mal son algunos discos duros del servidor Blade, pero esto también se ve en los servidores tradicionales.
mrTomahawk
20

He estado administrando pequeñas cantidades de servidores Blade durante ocho años, y aún no he tenido una falla en todo el sistema que haya desconectado varios Blades. Me he acercado mucho debido a problemas relacionados con la energía, pero aún no he tenido una falla en todo el chasis que no sea atribuible a fuentes externas.

Su observación de que el chasis representa un punto único de falla es correcta, aunque actualmente incorporan una gran cantidad de redundancias en ellos. Todos los sistemas blade que he usado han tenido alimentación de energía paralela a los blades, y múltiples tomas de red que pasan por rutas separadas, y en el caso de múltiples rutas de canal de fibra desde el blade hasta los puertos ópticos de la parte posterior del rack. Incluso el sistema de información del chasis tenía múltiples caminos.

Con la ingeniería de red adecuada (uso de NIC redundante, MPIO para almacenamiento), los eventos de un solo problema son completamente sobrevivibles. En mi tiempo con estos sistemas he tenido los siguientes problemas, ninguno de los cuales afectó a más de una cuchilla, si es que la hubo:

  • Dos fuentes de alimentación fallan en el bastidor de cuchillas. Había suficiente redundancia en los otros 4 para soportar la carga.
  • Perder una fase para una fuente de alimentación trifásica. Estos suministros son raros en estos días, pero las otras dos fases tenían suficiente capacidad para soportar la carga.
  • Perder un ciclo de administración entre chasis. Fue así durante años antes de que un proveedor de tecnología en otra llamada lo notara.
  • Perder por completo los bucles de administración entre chasis. Perdimos el acceso a la consola de administración, pero los servidores siguieron funcionando como si nada estuviera mal.
  • Alguien reinició accidentalmente la placa posterior de red de la parte posterior del bastidor. Todo en ese chasis estaba usando NIC redundantes, por lo que no se produjo ninguna interrupción del servicio; todo el tráfico se movió al otro plano posterior.

Sin embargo, el punto de TomTom sobre el costo es muy cierto. Para llegar a la paridad de costo total, su chasis Blade tendrá que estar completamente cargado y probablemente no usará cosas especiales como interruptores en la parte posterior del bastidor. Los bastidores de cuchillas tienen sentido en áreas donde realmente necesita la densidad porque tiene limitaciones de espacio

sysadmin1138
fuente
Excepto que la arquitectura SuperMicro Twin le brinda dos computadoras por TU con dos sockets por computadora, que es similar a lo que obtiene con la mayoría de los blades. definitivamente es muy denso;) La única densidad más alta que conozco son las cuchillas Dell que usan puente de hiedra ... pero son más limitadas en comparación.
TomTom
@tomtom pero ¿el supermicro twin ofrece psus redundantes? Acabamos de construir uno y no vi esa opción en ningún lado. Compramos una fuente de alimentación fría de repuesto para tener a mano por si acaso.
Jeff Atwood
@JeffAtwood, no he visto PSU redundantes en los gemelos 1U de SuperMicro, pero su línea de gemelos gemelos de 2U y 4 nodos sí los tiene. Ejemplo .
Charles
Además, a quién le importa. Tenga una fuente de alimentación de repuesto en el bastidor. El reemplazo lleva segundos.
TomTom
14

Esa pregunta podría extenderse al almacenamiento compartido. Una vez más, diría que necesitamos dos unidades de almacenamiento en lugar de una sola, y nuevamente los vendedores dicen que estas cosas son tan sólidas que no se espera ningún fallo.

En realidad no. Sus preocupaciones hasta ahora tenían sentido, esta oración las pone en "leer las cosas frente a sus ojos". HA con replicación completa es una característica empresarial conocida para unidades de almacenamiento. El punto es que una SAN (la unidad de almacenamiento es mucho más compleja que un chasis blade que al final es simplemente "metal estúpido". Todo en un chasis blade, excepto algunos planos posteriores, es reemplazable; todos los módulos, etc. son reemplazables, y las cuchillas individuales SON se permite fallar. Nadie dice que el centro de la cuchilla en sí mismo les da a las cuchillas alta disponibilidad.

Esto es muy diferente de una SAN que se supone que está activa el 100% del tiempo, en estado constante, por lo que hay cosas como la replicación, etc.

ESO DIJO: mira tus números. He considerado comprar cuchillas por algún tiempo y NUNCA HICIERON SENTIDO FINANCIERO. El chasis es demasiado caro y las cuchillas no son realmente más baratas en comparación con las computadoras normales. Sugeriría mirar la arquitectura SuperMicro Twin como alternativa.

TomTom
fuente
Los gemelos y los gemelos gemelos (2U y 4 nodos) son excelentes alternativas a los blades. Intel también hace una línea de servidores gemelos y gemelos.
Charles
@ Charles ¿Conoces a los gemelos gordos? 8 máquinas en 4 U;)
TomTom
He visto uno, pero no he tenido la oportunidad de jugar o evaluarlo.
Charles
4

Los servidores blade con los que he tenido experiencia son los de IBM. Esos particulares son totalmente modulares y hay mucha redundancia incorporada. Entonces, si algo va a fallar, será uno de los componentes, como una fuente de alimentación o un interruptor modular, etc. Pero nuevamente, hay redundancia incluso en esos.

Desde que me involucré con los blades de IBM, no he visto una falla completa antes.

Con las otras marcas sospecho que se construirían de manera similar.
Sería una buena idea hablar con un vendedor también y leer mucho.
Es una gran inversión.

Mate
fuente
1

Las fallas que conducen a múltiples interrupciones del servidor Blade en el mismo gabinete son comparables (en probabilidad y causa) a fallas que conducen a múltiples interrupciones del servidor en el mismo bastidor.

Configuración inicial para minimizar los puntos únicos de falla (dos fuentes de alimentación de CA separadas , cada una de las cuales puede manejar la carga completa, ejecutándose para fuentes de alimentación de CC separadas, de modo que cualquier mitad pueda manejar la carga completa; dos conexiones de red separadas , cualquiera de que puede manejar toda la carga esperada, etc.) y la diferencia entre algo que elimina todos los blades en un chasis o todos los servidores 2U en un rack es muy pequeña.

mpez0
fuente
1

Una preocupación, que leo con frecuencia en diferentes foros, es que existe una posibilidad teórica de que el chasis del servidor se caiga, lo que en consecuencia eliminaría todos los blades. Eso se debe a la infraestructura compartida.

¡En efecto! Hace aproximadamente 5 años, mientras administraba dos gabinetes blade HP Proliant p-Class, me encontré con problemas en todo el chasis varias veces.

He tenido servidores Blade que no pueden encenderse, si se han apagado (los servidores no se apagan con frecuencia, pero de todos modos se convirtió en un problema muy real para nosotros). He tenido servidores que se apagan repentinamente y no puedo volver a encenderlos. Finalmente, tuve todos los servidores apagados y no pude volver a encenderlos.

Por lo que recuerdo, casi todos los problemas se atribuyeron a los backplanes de mala potencia o backplanes del controlador. Tuvimos que reemplazarlos varias veces y el mensaje no específico y extraoficial que recibí de los técnicos fue que tenían su parte de problemas con esta generación de recintos de cuchillas.

Entonces decidí que el beneficio de los servidores Blade simplemente no valía la pena el riesgo, si tenía algo que decir en futuras compras.

Avancemos rápidamente a mi próximo empleador, y al actual, para el caso. Ya tenían los gabinetes HP Proliant clase C funcionando, por lo que mi sensación tibia de las cuchillas realmente no importó. En los 5 años que he tratado con los gabinetes de la clase c, nunca he experimentado algo como lo hice con la clase p, donde un gabinete completo me falló. Han estado funcionando sin mayores problemas.

(Excepto por el momento en que una tormenta de lluvia envió lluvia a través del techo, 4 pisos, un pequeño agujero en el sello de la sala de computadoras, bajó un cable y entró en el chasis)

abstrask
fuente
-1

Tanto el chasis DELL como el HP Blade carecen de un plano medio redundante. Aquí es donde IBM Bladecenter demuestra ser un ganador. Que yo sepa, es el único chasis blade que proporciona un plano medio redundante. Aunque HP ofrece un fantástico conjunto de software de administración para los blades, compramos un Bladecenter E para nuestra compañía solo para evitar un solo punto de falla de todo el chasis.

Arun Shetty
fuente
De hecho, esto es lo que me dicen los materiales de marketing de IBM; que son el único proveedor con una solución blade totalmente redundante. Sin embargo, después de leer los otros mensajes en este hilo, parece que las soluciones de HP también cuentan con esto.
Martijn