El otro día, notamos un terrible olor a quemado saliendo de la sala de servidores. En pocas palabras, terminó siendo uno de los módulos de batería que se estaba quemando en la unidad UPS, pero tomó un par de horas antes de que pudiéramos resolverlo. La razón principal por la que pudimos resolverlo es que la pantalla del UPS finalmente mostró que el módulo necesitaba ser reemplazado.
Aquí estaba el problema: toda la habitación estaba llena del olor. Hacer una prueba de olfateo fue muy difícil porque el olor se había infiltrado en todo (sin mencionar que nos había mareado). Casi por error derribamos nuestro servidor de base de datos de producción porque es donde el olor era más fuerte. Los signos vitales parecían estar bien (las temperaturas de la CPU mostraban 60 grados C y las velocidades del ventilador estaban bien), pero no estábamos seguros. Dio la casualidad de que el módulo de batería que se quemó tenía aproximadamente la misma altura que el servidor en el bastidor y solo a 3 pies de distancia. Si esto hubiera sido una verdadera emergencia, habríamos fallado miserablemente.
Siendo realistas, las posibilidades de que el hardware real del servidor se esté quemando es una ocurrencia bastante rara y la mayoría de las veces miraremos al UPS como el culpable. Pero con varios bastidores con varias piezas de equipo, puede convertirse rápidamente en un juego de adivinanzas. ¿Cómo se determina de forma rápida y precisa qué equipo se está quemando realmente? Me doy cuenta de que esta pregunta depende en gran medida de las variables de entorno, como el tamaño de la habitación, la ventilación, la ubicación, etc., pero se agradecería cualquier aporte.
Respuestas:
El consenso general parece ser que la respuesta a su pregunta viene en dos partes:
¿Cómo encontramos la fuente del gracioso olor a quemado?
Tienes el "Cómo" bastante bien clavado:
Puede mejorar sus posibilidades de encontrar el problema rápidamente de varias maneras: la supervisión mejorada suele ser la más fácil. Algunas preguntas para hacer:
¿Cuándo deberíamos solucionar el problema en lugar de presionar el Big Red Switch?
Esta es una pregunta más interesante.
Apretar el gran interruptor rojo puede costarle a su empresa una gran cantidad de dinero a toda prisa: las liberaciones de agentes limpios pueden llegar a las decenas de miles de dólares y los costos de interrupción / recuperación después de un apagado de emergencia (EPO, "dejar la habitación" ) puede ser devastador.
No querrá dejar caer un centro de datos porque un condensador en una fuente de alimentación explotó e hizo que la habitación oliera.
Por el contrario, un incendio en una sala de servidores puede costarle a su empresa sus datos / equipos y, lo que es más importante, la vida de su personal.
La resolución de problemas con "ese olor a quemado divertido" nunca debe tener prioridad sobre la seguridad , por lo que es importante tener algunas reglas claras sobre la resolución de problemas de condiciones "previas al incendio".
Las pautas que siguen son mis limitaciones personales que aplico en ausencia de (o además de) cualquier otro procedimiento / reglas claramente definidos: me han servido bien y pueden ayudarlo, pero podrían matarme o despedido mañana, así que aplíquelos bajo su propio riesgo.
Si ve humo o fuego, abandone la habitación.
Esto debería ser evidente, pero digámoslo de todos modos: si hay un incendio activo (o humo que indica que pronto lo habrá), evacue la habitación, corte la corriente y descargue el fuego. sistema de supresion.
Pueden existir excepciones (ejercer algo de sentido común), pero esta es casi siempre la acción correcta.
Si va a solucionar el problema, siempre tenga al menos otra persona involucrada.
Esto es por dos razones. Primero, no quiere estar deambulando en un centro de datos y, de repente, un estante sube en la fila por la que camina y nadie sabe que está allí. En segundo lugar, la otra persona es su control de la cordura en la resolución de problemas en lugar de abandonar la sala, y si hace la llamada para presionar el Big Red Switch, tiene el beneficio de que una segunda persona esté de acuerdo con la decisión (ayuda a evitar los aspectos que limitan la carrera) de tal decisión si alguien la cuestiona más tarde).
Ejerza medidas de seguridad prudentes al solucionar problemas
Asegúrese de tener siempre una ruta de escape (un extremo abierto de una fila y una ruta despejada hacia una salida).
Mantenga a alguien estacionado en el lanzamiento de EPO / extinción de incendios.
Lleve consigo un extintor de incendios (Halon u otro agente de limpieza, por favor).
Recuerde la regla # 1 arriba.
En caso de duda, salga de la habitación . Tenga cuidado con su respiración: use un respirador o una máscara de oxígeno. Esto podría salvar su salud en caso de incendio químico.
Establezca un límite y manténgalo con
mayor precisión, establezca dos límites:
Los límites que establezca también se pueden usar para permitir que su equipo comience un apagado ordenado del área afectada, por lo que cuando extrae energía no está bloqueando un montón de máquinas activas, y su tiempo de recuperación será mucho más corto, pero recuerde que Si el apagado ordenado tarda demasiado, es posible que deba dejar que algunos sistemas se bloqueen en nombre de la seguridad.
Confíe en su instinto
Si le preocupa la seguridad en cualquier momento, cancele la solución de problemas y limpie la habitación.
Puede o no abandonar la habitación basándose en una sensación instintiva, pero es prudente reagruparse fuera de la habitación con seguridad (relativa).
Si no hay peligro inminente, puede elegir traer al departamento de bomberos local antes de tomar medidas drásticas como una EPO o la liberación de un agente limpio. (De todos modos, pueden decirle que lo haga: su mandato es proteger a las personas, luego a la propiedad, pero obviamente son los expertos en el manejo de incendios, ¡así que debe hacer lo que dicen!)
fuente
Una cámara termográfica podría hacer el trabajo y permitirle identificar dónde está el sobrecalentamiento. Un dispositivo como este le permitiría identificar también el origen de un incendio o quema en una habitación llena de humo.
fuente
No haces ninguna de estas cosas que se han dicho. Dejas el ambiente peligroso porque todo lo que se bombea por toda la habitación es peligroso para tu salud y realmente puede dañar tus pulmones. Si hay un olor acre a algo ardiendo en la habitación que no puede encontrar, llame al (911 | 112 | 999 | cualquier número de emergencia que se ajuste a su jurisdicción) y deje que el fuego (compañía | departamento | brigada) lo resuelva mientras Estás en el aire embotellado.
Las piezas de la computadora contienen todo tipo de productos químicos interesantes, incluidos mercurio , cadmio , plomo y muchos plásticos en las carcasas. Tenga en cuenta que todos los enlaces que hice explican cómo las exposiciones de bajo nivel pueden causar daños duraderos o incluso la muerte rápida. Este es un entorno que puede ser inmediatamente peligroso para la vida y la salud .
... así que realmente, si algo está ardiendo, no pases horas oliendo los humos. Si no puede identificarlo e inmediatamente actúa para contenerlo, salga.
fuente
Si tuvo un monitoreo adecuado en el UPS (generalmente a través de SNMP), la unidad en sí misma debería haber hecho sonar las campanas en su sistema de monitoreo. Si no fue así, hable con su proveedor al respecto. Funcionó mal o su sistema de monitoreo no está configurado correctamente.
Si algo activo realmente se está quemando, debería estar quejándose de alguna manera, o simplemente estar fuera de la red, lo que también debería causar una alarma.
Si es algo así como un carril de alimentación real que se quema a través del aislamiento, y no está en una PDU inteligente, entonces volvemos a su pregunta original, que es "¿cómo encuentro una cosa que se quema?" Y creo que la respuesta correcta es "Dale al EPO y descúbrelo. Tus servidores de producción probablemente no sean lo suficientemente importantes como para arriesgar vidas".
fuente
Esta es una de esas situaciones donde
no aplica, debes llamar a un profesional
Cualquier otra cosa es simplemente estúpida.
fuente
Como alguien cuya carrera anterior fue como técnico electrónico, tengo experiencia con "olores a quemado" que no eran incendios. Esto no es raro.
No cerraría un centro de datos por un olor. El humo es otro asunto, algo realmente arde (por lo general, pero un condensador de tantalio del tamaño de un guisante también puede llenar una habitación con humo). Es sorprendente cuánto olor puede hacer un componente frito en una fuente de alimentación.
Un termómetro TIC o IR (una herramienta útil y mucho más barata que un TIC) no necesariamente lo mostraría, ya que el componente no genera mucho calor y está dentro de una caja. Pero verifique si los dispositivos no funcionan, use sus herramientas de monitoreo. Para un olor como ese, el 95% del tiempo será una fuente de alimentación que afectará el rendimiento de todo el dispositivo.
fuente
Me gustan las imágenes de IR o las respuestas del termómetro, pero quizás lo que también ayudaría es un verdadero "detector de olores". Después de todo, lo que provocó su cautela fue el olor. El humo, el calor, el IR, etc. son todos sustitutos.
Algo parecido a éste: . Personalmente nunca los he usado o incluso los he visto usados en un centro de datos. Pero al menos teóricamente debería ser una herramienta ordenada. Si tienes el dinero para gastar en este artilugio que es.
http://www.sca-shinyei.com/odormeter o http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ
Le da un olor fuerte, así como la clasificación. Por lo tanto, debe ser posible detectar el olor. El diablo está en los detalles, por supuesto. Cuán sensible es, enmascarando el olor de fondo espurio, etc.
Una ventaja sobre las mediciones basadas puramente en la temperatura es que a menudo el olor ocurre en un punto o umbral mucho más temprano. O si el componente sobrecalentado está oculto por un cuerpo / cableado oculto, etc., es más fácil detectar las moléculas que escapan que un punto caliente de línea de visión.
Otra situación es un olor no relacionado con el calor. Hemos tenido una fuga en el circuito de enfriamiento antes y los olores de refrigerante también eran peculiares. Ni siquiera entraré en el antiguo caso de un roedor muerto en los conductos. :)
Me sorprendió lo sensibles que son estos sensores. Aparentemente, H2S / mercaptanos, etc. (culpables habituales) son detectables a niveles inferiores a ppm.
fuente