Algo está ardiendo en la sala del servidor; ¿Cómo puedo identificar rápidamente qué es?

454

El otro día, notamos un terrible olor a quemado saliendo de la sala de servidores. En pocas palabras, terminó siendo uno de los módulos de batería que se estaba quemando en la unidad UPS, pero tomó un par de horas antes de que pudiéramos resolverlo. La razón principal por la que pudimos resolverlo es que la pantalla del UPS finalmente mostró que el módulo necesitaba ser reemplazado.

Aquí estaba el problema: toda la habitación estaba llena del olor. Hacer una prueba de olfateo fue muy difícil porque el olor se había infiltrado en todo (sin mencionar que nos había mareado). Casi por error derribamos nuestro servidor de base de datos de producción porque es donde el olor era más fuerte. Los signos vitales parecían estar bien (las temperaturas de la CPU mostraban 60 grados C y las velocidades del ventilador estaban bien), pero no estábamos seguros. Dio la casualidad de que el módulo de batería que se quemó tenía aproximadamente la misma altura que el servidor en el bastidor y solo a 3 pies de distancia. Si esto hubiera sido una verdadera emergencia, habríamos fallado miserablemente.

Siendo realistas, las posibilidades de que el hardware real del servidor se esté quemando es una ocurrencia bastante rara y la mayoría de las veces miraremos al UPS como el culpable. Pero con varios bastidores con varias piezas de equipo, puede convertirse rápidamente en un juego de adivinanzas. ¿Cómo se determina de forma rápida y precisa qué equipo se está quemando realmente? Me doy cuenta de que esta pregunta depende en gran medida de las variables de entorno, como el tamaño de la habitación, la ventilación, la ubicación, etc., pero se agradecería cualquier aporte.

Chad Harrison
fuente
34
@DeerHunter Bueno, gracias a Dios, era el final del día y había muy pocas personas en el edificio. Gracias por su crítica constructiva, y me aseguraré de hacerle saber a mi supervisor qué vidas arriesgó al decidir mantener el sistema en funcionamiento.
Chad Harrison el
12
@hydroparadise - alguien tiene que tener el valor de decirlo " PARADA No estamos haciendo esto bien". Si su supervisor no comprende las reglas de seguridad, no hay mucho que se pueda hacer, excepto hacer crecer un poco la columna vertebral y no inclinarse ante la necesidad de cortar esquinas.
Deer Hunter
112
@DeerHunter: ¿Cuál sería la respuesta apropiada cuando hueles algo quemándose? No hay humo visible, solo un olor a quemado. ¿Apaga todo el centro de datos, lo ventila durante unas horas y luego enciende los servidores uno por uno hasta que vuelva el olor? Un pequeño centro de datos de 25 bastidores podría tener 1,000 servidores para controlar, eso es mucho tiempo de inactividad para un "olor": el OP no informó humo o fuego visible.
Johnny
24
@Johnny - Citando el OP: "toda la habitación estaba llena del olor. Hacer una prueba de olfato fue muy difícil porque el olor se había infiltrado en todo (sin mencionar que nos dejó aturdidos)" Respondiendo a su pregunta, sí, tiene que ventilar la habitación y solucionar problemas sistemáticamente . Cualquier otra cosa es irresponsable.
Deer Hunter
14
Entonces, ¿los críticos del manejo del olor por parte del OP sugieren que no hay diferencia en la urgencia entre un olor y un fuego / humo? Si huele algo quemándose en su casa pero no ve humo y no escucha ninguna alarma, ¿se apresura a salir usted y su familia de la casa y llama al 911?
trpt4him

Respuestas:

383

El consenso general parece ser que la respuesta a su pregunta viene en dos partes:

¿Cómo encontramos la fuente del gracioso olor a quemado?

Tienes el "Cómo" bastante bien clavado:

  • La "prueba de olfateo"
  • Busque humo / neblina visible
  • Camina por la habitación con una cámara térmica (IR) para encontrar puntos calientes
  • Verifique el monitoreo y los paneles del dispositivo para alertas

Puede mejorar sus posibilidades de encontrar el problema rápidamente de varias maneras: la supervisión mejorada suele ser la más fácil. Algunas preguntas para hacer:

  • ¿Recibe temperatura y otras alertas de salud de su equipo?
  • ¿Sus sistemas UPS informan fallas a su sistema de monitoreo?
  • ¿Recibe alarmas de consumo de corriente de su equipo de distribución de energía?
  • ¿Los detectores de humo de la sala informan al sistema de monitoreo? (y pueden ellos? )

¿Cuándo deberíamos solucionar el problema en lugar de presionar el Big Red Switch?

Esta es una pregunta más interesante.
Apretar el gran interruptor rojo puede costarle a su empresa una gran cantidad de dinero a toda prisa: las liberaciones de agentes limpios pueden llegar a las decenas de miles de dólares y los costos de interrupción / recuperación después de un apagado de emergencia (EPO, "dejar la habitación" ) puede ser devastador.
No querrá dejar caer un centro de datos porque un condensador en una fuente de alimentación explotó e hizo que la habitación oliera.

Por el contrario, un incendio en una sala de servidores puede costarle a su empresa sus datos / equipos y, lo que es más importante, la vida de su personal.
La resolución de problemas con "ese olor a quemado divertido" nunca debe tener prioridad sobre la seguridad , por lo que es importante tener algunas reglas claras sobre la resolución de problemas de condiciones "previas al incendio".

Las pautas que siguen son mis limitaciones personales que aplico en ausencia de (o además de) cualquier otro procedimiento / reglas claramente definidos: me han servido bien y pueden ayudarlo, pero podrían matarme o despedido mañana, así que aplíquelos bajo su propio riesgo.

  1. Si ve humo o fuego, abandone la habitación.
    Esto debería ser evidente, pero digámoslo de todos modos: si hay un incendio activo (o humo que indica que pronto lo habrá), evacue la habitación, corte la corriente y descargue el fuego. sistema de supresion.
    Pueden existir excepciones (ejercer algo de sentido común), pero esta es casi siempre la acción correcta.

  2. Si va a solucionar el problema, siempre tenga al menos otra persona involucrada.
    Esto es por dos razones. Primero, no quiere estar deambulando en un centro de datos y, de repente, un estante sube en la fila por la que camina y nadie sabe que está allí. En segundo lugar, la otra persona es su control de la cordura en la resolución de problemas en lugar de abandonar la sala, y si hace la llamada para presionar el Big Red Switch, tiene el beneficio de que una segunda persona esté de acuerdo con la decisión (ayuda a evitar los aspectos que limitan la carrera) de tal decisión si alguien la cuestiona más tarde).

  3. Ejerza medidas de seguridad prudentes al solucionar problemas
    Asegúrese de tener siempre una ruta de escape (un extremo abierto de una fila y una ruta despejada hacia una salida).
    Mantenga a alguien estacionado en el lanzamiento de EPO / extinción de incendios.
    Lleve consigo un extintor de incendios (Halon u otro agente de limpieza, por favor).
    Recuerde la regla # 1 arriba.
    En caso de duda, salga de la habitación . Tenga cuidado con su respiración: use un respirador o una máscara de oxígeno. Esto podría salvar su salud en caso de incendio químico.

  4. Establezca un límite y manténgalo con
    mayor precisión, establezca dos límites:

    • Condición ("¿Cuánto peor dejaré que esto se ponga?") Y
    • Tiempo ("¿Cuánto tiempo seguiré tratando de encontrar el problema antes de que sea demasiado arriesgado?").

    Los límites que establezca también se pueden usar para permitir que su equipo comience un apagado ordenado del área afectada, por lo que cuando extrae energía no está bloqueando un montón de máquinas activas, y su tiempo de recuperación será mucho más corto, pero recuerde que Si el apagado ordenado tarda demasiado, es posible que deba dejar que algunos sistemas se bloqueen en nombre de la seguridad.

  5. Confíe en su instinto
    Si le preocupa la seguridad en cualquier momento, cancele la solución de problemas y limpie la habitación.
    Puede o no abandonar la habitación basándose en una sensación instintiva, pero es prudente reagruparse fuera de la habitación con seguridad (relativa).

Si no hay peligro inminente, puede elegir traer al departamento de bomberos local antes de tomar medidas drásticas como una EPO o la liberación de un agente limpio. (De todos modos, pueden decirle que lo haga: su mandato es proteger a las personas, luego a la propiedad, pero obviamente son los expertos en el manejo de incendios, ¡así que debe hacer lo que dicen!)

Hemos abordado esto en los comentarios, pero también podría resumirse en una respuesta: @DeerHunter, @Chris, @Sirex y muchos otros contribuyeron a la discusión

voretaq7
fuente
30
Universidad fui a instalar un nuevo centro de datos. Implementaron un sistema EPO / extinción de incendios altamente sofisticado. El equipo que estaba protegiendo era de millones de dólares y también se estaba utilizando para millones de dólares de investigación para la parte médica de la escuela. Obviamente, si era necesario el botón rojo se verían afectados, pero, dicho esto, si el botón rojo fue golpeado, simplemente reajustando que estaba cerca de $ 200.000 dólares estadounidenses. Dólares de Contribuyentes que pueda asegurarse de que la apuesta del infierno que si el interruptor se vio afectada cuando no se necesita el tipo que golpeó ya no tendría un trabajo.
Ryan
28
+1 para el sistema de amigos. Creo que es un poco loco que haya DCs que usan el EPO para también eliminar la supresión de incendios. Hay muchas situaciones en las que querrías EPO sin querer tirar halotrón sobre el chico que se electrocutó. Un EPO es un trato serio, pero no es "destruir todo en el trato de DC" o al menos no debería serlo. Con suerte, los muchachos de DC deberían entender el gran botón rojo y el sistema de extinción de incendios lo suficientemente bien como para sopesar el efecto de presionar el botón. Un EPO realmente puede detener un incendio y salvar el DC, por ejemplo.
Chris
13
Una nota importante que no he visto mencionada es que la mayoría de las veces cuando algo falla para emitir un olor a quemado, lo que esté ardiendo se extinguirá antes de que se detecte el olor y sin quemar nada fuera del equipo averiado. A veces, un equipo continuará ardiendo mientras tenga energía, pero si uno ve humo, debería ser posible identificar el equipo, cortarlo solo y ver si el humo desaparece o empeora continuamente.
supercat
1
@ryan: Si presionar el botón rojo grande cuesta tantos dólares de los contribuyentes, es de esperar que la persona responsable haya elaborado un plan para resolver incidentes menores con el departamento de bomberos local que no implique poner en peligro a los empleados.
Christoph
3
@ryan Eso me recuerda un informe de televisión sobre el CERN que vi recientemente: el equipo de cámara y el reportero fueron llevados realmente al interior del sistema y, en un momento, uno de los muchachos de la cámara casi golpeó un botón rojo de emergencia con su mochila. dando ataques cardíacos cercanos al personal que piensa en los costos de reinicio ...
Hagen von Eitzen
183

Una cámara termográfica podría hacer el trabajo y permitirle identificar dónde está el sobrecalentamiento. Un dispositivo como este le permitiría identificar también el origen de un incendio o quema en una habitación llena de humo.

ddalcero
fuente
30
Las cámaras térmicas cuestan menos de lo normal hoy en día, y si está ejecutando una gran sala de servidores, son una herramienta que vale la pena tener.
rackandboneman
16
Un TIC no es tan costoso y es muy útil en un centro de datos o en una gran sala de servidores. No solo en caso de problemas como cables o equipos sobrecalentados, sino también como una detección preventiva o temprana de problemas, optimización de refrigeración, flujo de aire, etc.
ddalcero
39
Una pistola láser de temperatura, como esta , es una alternativa barata
MichaelHouse
44
@mfinni Los electricistas también suelen tener cámaras térmicas. (Una verificación de imágenes térmicas de nuestros paneles de distribución de energía cada año, o después de cualquier trabajo de cableado importante, era estándar cuando trabajaba en una empresa de alojamiento).
voretaq7
3
Una cámara térmica tiene limitaciones muy grandes: 1. El campo de visión puede evitar el uso 2. Su entorno puede ser muy denso. [Se detectarán grandes incendios pero no pequeños] 3. Será necesario promediar las temperaturas para determinar un umbral
monjes el
138

No haces ninguna de estas cosas que se han dicho. Dejas el ambiente peligroso porque todo lo que se bombea por toda la habitación es peligroso para tu salud y realmente puede dañar tus pulmones. Si hay un olor acre a algo ardiendo en la habitación que no puede encontrar, llame al (911 | 112 | 999 | cualquier número de emergencia que se ajuste a su jurisdicción) y deje que el fuego (compañía | departamento | brigada) lo resuelva mientras Estás en el aire embotellado.

Las piezas de la computadora contienen todo tipo de productos químicos interesantes, incluidos mercurio , cadmio , plomo y muchos plásticos en las carcasas. Tenga en cuenta que todos los enlaces que hice explican cómo las exposiciones de bajo nivel pueden causar daños duraderos o incluso la muerte rápida. Este es un entorno que puede ser inmediatamente peligroso para la vida y la salud .

... así que realmente, si algo está ardiendo, no pases horas oliendo los humos. Si no puede identificarlo e inmediatamente actúa para contenerlo, salga.

Jeff Ferland
fuente
18
Cabe agregar que si esto sucediera en un centro de datos "real" con detectores de humo integrados con el aire acondicionado y un sistema de extinción instalado, las alarmas contra incendios se habrían disparado y la habitación se sellaría e inundaría con argón o CO2 automáticamente, por lo que ni siquiera se podía pensar en correr y oler el equipo.
the-wabbit
8
@ syneticon-dj Esto depende del tipo de detectores instalados. Los detectores de ionización pueden haber disparado la extinción de incendios, pero he trabajado en (y actualmente alojo equipos en) lugares que tienen detectores de humo ópticos: esos requieren humo visible (o al menos una buena neblina) antes de disparar.
voretaq7
3
Desearía poder votar esto más. a riesgo de ser controvertido, el 'bombero profesional' es el único camino a seguir.
user9517
19
Sí, como ex bombero, no me quedaría allí sin mi equipo. Incluso cuando se apaga un incendio, estamos entrenados para permanecer empacados debido a los gases venenosos. Si yo llamara a los profesionales, ¡tú también deberías!
Jeff Ferland el
1
@Michael los diseños que he visto no se basaban en detectores de humo de techo sino que tenían detectores fotoeléctricos en el flujo de aire de retorno. La única vez que lo vi activarse fue durante una rutina de prueba en la que se desconectó el sistema de argón y se colocó una fuente de humo en uno de los armarios. Funcionó como esperaría que funcione. Afortunadamente, nunca tuve que lidiar con incendios reales.
the-wabbit
76

Si tuvo un monitoreo adecuado en el UPS (generalmente a través de SNMP), la unidad en sí misma debería haber hecho sonar las campanas en su sistema de monitoreo. Si no fue así, hable con su proveedor al respecto. Funcionó mal o su sistema de monitoreo no está configurado correctamente.

Si algo activo realmente se está quemando, debería estar quejándose de alguna manera, o simplemente estar fuera de la red, lo que también debería causar una alarma.

Si es algo así como un carril de alimentación real que se quema a través del aislamiento, y no está en una PDU inteligente, entonces volvemos a su pregunta original, que es "¿cómo encuentro una cosa que se quema?" Y creo que la respuesta correcta es "Dale al EPO y descúbrelo. Tus servidores de producción probablemente no sean lo suficientemente importantes como para arriesgar vidas".

mfinni
fuente
13
¿Qué significa EPO?
Midhat
39
Apagado de emergencia ... el gran botón rojo que corta toda la energía a la habitación. Principalmente para cuando está en llamas.
Grant
11
Un enfático +1 habría votado +1,000. Presione el botón, evacue, espere, arregle las cosas más tarde. Hacer negocios como siempre con fuego y humo presente (y tratar de solucionar cualquier problema) es uno de los peores errores que puede cometer un ingeniero.
Deer Hunter
36
@chris Tengo que estar respetuosamente en desacuerdo con "EPO, Leave, Wait": la activación de la liberación de EPO y / o agente limpio para una habitación llena de equipo de producción a menudo puede ser lo que nos gusta llamar un movimiento de limitación de carrera . Si no hay un incendio activo, visible o un rastro de humo proveniente de algún equipo que realice una investigación inicial, generalmente es lo correcto. Por supuesto, debe estar absolutamente preparado para salir corriendo de la habitación mientras presiona los botones rojos apropiados en cualquier momento de su investigación.
voretaq7
13
Es probable que incluso un sistema de monitoreo perfecto no haya captado esto hasta el mismo momento en que el panel del UPS dijo "Reemplazar módulo"; dicho esto, ciertamente desea que su sistema de monitoreo le llame la atención. La próxima vez, un módulo puede fallar a las 19:30 un viernes cuando no hay nadie cerca, y la alerta de monitoreo le permitirá regresar y resolver el problema antes de que se convierta en una emergencia completa. Si puede vincular el monitoreo a su FACP, sus sensores de humo y / o calor pueden incluso advertirle sobre el aislamiento que quema los rieles de alimentación y similares.
voretaq7
43

Esta es una de esas situaciones donde

XKCD Die Hard sysadmin

no aplica, debes llamar a un profesional

Bombero en equipo de protección

Cualquier otra cosa es simplemente estúpida.

Iain
fuente
Esta es claramente la mejor respuesta. :)
Ciudadano
@Navin Sin que no los chicos en el departamento de bomberos hace eso.
user9517
40

Como alguien cuya carrera anterior fue como técnico electrónico, tengo experiencia con "olores a quemado" que no eran incendios. Esto no es raro.

No cerraría un centro de datos por un olor. El humo es otro asunto, algo realmente arde (por lo general, pero un condensador de tantalio del tamaño de un guisante también puede llenar una habitación con humo). Es sorprendente cuánto olor puede hacer un componente frito en una fuente de alimentación.

Un termómetro TIC o IR (una herramienta útil y mucho más barata que un TIC) no necesariamente lo mostraría, ya que el componente no genera mucho calor y está dentro de una caja. Pero verifique si los dispositivos no funcionan, use sus herramientas de monitoreo. Para un olor como ese, el 95% del tiempo será una fuente de alimentación que afectará el rendimiento de todo el dispositivo.

Malcolm
fuente
3
+1, las fuentes de alimentación quemadas son comunes. En la mayoría de los centros de datos con altas tasas de flujo de aire, el humo se elimina rápidamente y es difícil localizar la fuente del olor. Sin embargo, en una habitación pequeña, el olor puede ser bastante malo y puede extenderse rápidamente por toda la habitación.
Stefan Lasiewski
19

Me gustan las imágenes de IR o las respuestas del termómetro, pero quizás lo que también ayudaría es un verdadero "detector de olores". Después de todo, lo que provocó su cautela fue el olor. El humo, el calor, el IR, etc. son todos sustitutos.

Algo parecido a éste: de Shinyei . Personalmente nunca los he usado o incluso los he visto usados ​​en un centro de datos. Pero al menos teóricamente debería ser una herramienta ordenada. Si tienes el dinero para gastar en este artilugio que es.

http://www.sca-shinyei.com/odormeter o http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Le da un olor fuerte, así como la clasificación. Por lo tanto, debe ser posible detectar el olor. El diablo está en los detalles, por supuesto. Cuán sensible es, enmascarando el olor de fondo espurio, etc.

Una ventaja sobre las mediciones basadas puramente en la temperatura es que a menudo el olor ocurre en un punto o umbral mucho más temprano. O si el componente sobrecalentado está oculto por un cuerpo / cableado oculto, etc., es más fácil detectar las moléculas que escapan que un punto caliente de línea de visión.

Otra situación es un olor no relacionado con el calor. Hemos tenido una fuga en el circuito de enfriamiento antes y los olores de refrigerante también eran peculiares. Ni siquiera entraré en el antiguo caso de un roedor muerto en los conductos. :)

Me sorprendió lo sensibles que son estos sensores. Aparentemente, H2S / mercaptanos, etc. (culpables habituales) son detectables a niveles inferiores a ppm.

ingrese la descripción de la imagen aquí

curioso_cat
fuente