Los usuarios no pueden acceder a su correo electrónico, el CEO no puede acceder a la página de inicio de la compañía y su buscapersonas simplemente se activó con un código "911". ¿Qué haces cuando todo explota?
disaster-recovery
Jon Galloway
fuente
fuente
Mantén la calma
No te asustes. ¡Respirar! (Desde el diafragma, ayuda.) Si has estudiado meditación, eso también puede ayudarte.
Cuando se enfrenta a un estrés extremo, su cuerpo entrará en un modo de huir o luchar, porque su cuerpo piensa que está en una situación de vida o muerte. En este momento, su cuerpo bombeará menos sangre a algunas partes de su cerebro, disminuyendo funciones como el razonamiento. Esto efectivamente reduce su coeficiente intelectual como instinto, en lugar de racionalidad, comienza a dominar las funciones de su cerebro. Si alguna vez ha estado o ha sido testigo de una discusión acalorada, puede reconocer estos síntomas a medida que las emociones de las personas se inflaman y la racionalidad se toma unas vacaciones. Más tarde, cuando las personas tienen la oportunidad de enfriarse, es más probable que acepten haber cometido un error o haberse equivocado, y son más capaces de ver el otro lado, pero en el calor del momento, no tanto.
Mantener la compostura y mantener la inteligencia sobre usted mantendrá su cerebro funcionando a plena capacidad y garantizará que tome decisiones racionales basadas en la evidencia y la razón en lugar de la emoción y el miedo.
Triaje
La aplicación eficiente de recursos limitados para lograr el mayor beneficio al menor costo es sumamente importante aquí. Tome las decisiones lo antes posible sobre las cosas que deben arreglarse AHORA MISMO, las que pueden esperar un poco (horas, días) y las que pueden esperar indefinidamente. También aprenda a darse cuenta cuando algo es insalvable y no vale la pena guardarlo (por ejemplo, la mitad del enrutador se derritió, incluso si es el único, no puede guardarlo, comprar uno nuevo y obtenerlo en el sitio inmediatamente o encontrar algo que pueda llenar el vacío temporalmente).
Retener la conciencia situacional
No permita que su atención quede atrapada por algún problema interesante o por algo que aún no comprende. Manténgase enfocado en el panorama general y en hacer que las cosas más importantes funcionen.
Usa el método científico
Formar una hipótesis. Determine cómo probaría esta hipótesis. Reúna datos para probar la hipótesis. Busque también datos que no confirmen. Refina tu hipótesis y repite el ciclo tantas veces como sea necesario hasta que tengas suficiente confianza en tu hipótesis para tomar medidas.
Ser pragmático
Ahora no es el momento para el dogma. Está bien tomar algunos atajos aquí y allá al recuperarse del desastre. Esto es esencialmente acumular deuda técnica. En muchas empresas, una falla catastrófica significa una pérdida catastrófica de ingresos. Es mejor hacer que las cosas funcionen, incluso si están en una situación inestable, que arriesgarse y arriesgar el sustento de su empresa. Como siempre, el juicio es sumamente importante aquí. A veces tiene sentido apuntalar un ventilador de caja apuntando a un rack de servidores, a veces no.
Cuídate
¿Cuánto tiempo llevas trabajando en esta emergencia? ¿Cuándo fue la última vez que bebiste agua? ¿Cuándo fue la última vez que comiste? ¿Cuánto tiempo has estado despierto? No se queme solo porque haya una emergencia, tómese el tiempo para mantenerse hidratado, alimentado y descansado (en caso de que sea un trabajo prolongado de varios días).
Ayuda de reclutamiento
Es casi seguro que hay muchas personas con talento en su empresa que están motivadas y son capaces de prestar ayuda. Sin embargo, tenga cuidado de hacer que demasiadas personas corran y causen problemas el uno al otro. También tenga cuidado con las personas molestas al someterlas a un "firedrill". Encuentre personas que ya quieran ayudar, haga que trabajen en tareas específicas y asegúrese de que las personas se comuniquen entre sí.
Comunicar
La comunicación es crítica. Nada es tan aterrador como lo desconocido. Cuando la gente no sabe nada más que ese algo está roto, una declaración vacía de que volverá a estar en copia de seguridad en X horas es solo un poco tranquilizador (incluso menos tranquilizador después de que hayan pasado X horas y las cosas todavía están rotas). Las presiones en el juego pueden conducirlo a dar estimaciones de tiempo WAG demasiado optimistas, pero este es el curso equivocado. No solo digas que estás trabajando en ello, no solo digas que las cosas se arreglarán por X veces. Sé abierto, muestra tu proceso, detalla tu progreso y tus contratiempos. Proporcione información sobre el problema, su proceso para rastrearlo y su plan para arreglar las cosas (aunque no ahogue a las personas en minucias). Demuestre que el problema no es intratable, demuestre que las cosas se solucionarán eventualmente, demuestre que hay personas competentes en el problema,
fuente
No se asuste
fuente
Paso 0. Compruebe que no es su sistema de monitoreo el que tiene la culpa
fuente
iniciar sesión en serverfault
fuente
Reserve de inmediato un vuelo a un país sin extradición
fuente
Comprueba lo básico primero, parece una tontería, pero cosas como
Sé que se puede perder mucho tiempo buscando una solución cuando el problema está en contra
fuente
Hago ping a cosas. Lo que sucede después de eso varía mucho según los resultados del ping.
fuente
Lo sentimos, pero esta pregunta ya está perfectamente respondida en Cartoon sysadmin favorito :
fuente
Culpa a la red.
(¡es una broma!)
fuente
RTFLF - Lea el archivo de registro de Frakkin '
(No puedo tomar el crédito por esto, todo va a Scott Hanselman )
fuente
No intentes arreglar nada todavía.
Asegúrese de saber exactamente cuál es el problema real subyacente. Ahora empieza a arreglar las cosas. Si hay varias cosas que arreglar, considere cuidadosamente qué cosas se pueden retrasar (¡ojalá hasta el próximo día hábil, al menos!) Y cuáles deben arreglarse absolutamente ahora.
Pero lo más importante: una vez que todo funciona, pregunte por qué "explotó todo". ¿Qué vas a hacer para evitar que esto vuelva a suceder? ¿Existen pasos que facilitarían la solución si vuelve a ocurrir?
fuente
Hágales saber a las personas que está en ello y, si es posible, proporcióneles una estimación de cuándo las cosas volverán a la normalidad.
En cuanto a la resolución de problemas real que obviamente depende de lo que está mal. Usualmente mantengo una colección de scripts de "verificar estado" para varios servicios.
fuente
¡Verifique el cableado! He perdido horas revisando otras cosas cuando un simple intercambio de cable Eth0 habría resuelto el problema ...
fuente
Deberías tener planes de contingencia.
Los sistemas esenciales deben diseñarse con conmutación por error automática o con un plan de recuperación documentado y probado.
Cuanto más importante sea el sistema, más resistencia necesitará construir y más automático debería ser.
Si no tienes uno, entonces no era importante, ¿verdad?
fuente
Asegúrese de que la copia de seguridad de su currículum esté segura :) Luego,
Encuentra los puntos en común. Lo que es común a todos los sistemas afectados.
Encuentra lo que ha cambiado. Debería tener una gestión de cambio formal en su organización.
¿Dónde está el chico nuevo ... dónde está el jefe ...? ¿Uno de ellos tomó un atajo? (es solo un reinicio rápido del servidor, ¿qué podría dañar?)
fuente
Me gusta esta lista de solución de problemas La aplicación simple de solución de problemas ahora soluciona todo =)
fuente
Es difícil de la declaración proporcionar un conjunto específico de acciones. Su primer movimiento se basará en:
Obviamente, debe mantener la calma y alerta sobre el tema en cuestión. Su experiencia con la solución de problemas de red le habrá enseñado que esto podría ser algo trivial, como:
Dicho esto, también podría ser algo serio en las categorías de:
El componente clave es cuánto SABE sobre el tema. ¿Cuál es tu punto de referencia? (¿desde qué perspectiva está 'el sistema caído'?).
fuente
Verifica el DNS.
fuente
Comience simple y trabaje hacia lo absurdo.
¿Poder?
Ethernet?
Programa en ejecución?
...
Extraterrestres?
fuente