¿Cuál es tu lista de verificación para cuando todo explote?

40

Los usuarios no pueden acceder a su correo electrónico, el CEO no puede acceder a la página de inicio de la compañía y su buscapersonas simplemente se activó con un código "911". ¿Qué haces cuando todo explota?

Jon Galloway
fuente

Respuestas:

35

¡La primera respuesta es mantener la calma! Aprendí que la forma difícil en que el pánico a menudo solo empeora las cosas. Una vez que eso se logra, lo siguiente es determinar cuál es el problema. Las quejas de los usuarios y gerentes llegarán a usted desde todos los ángulos, diciéndole lo que ELLOS no pueden hacer, pero no cuál es el problema.

Una vez que conozca el problema, puede comenzar el plan para solucionarlo y comenzar a darles a sus usuarios enojados un calendario.

Sam Cogan
fuente
3
Este es un plan reactivo. Un verdadero plan de recuperación ante desastres ya está escrito y probado para cada proceso comercial crítico.
spoulson el
3
spaulson seguro: pero lo primero que debe hacer es averiguar si necesita activar el plan o si voltear el disyuntor lo solucionará todo.
pjz
1
Esto es realmente lo mejor que puedes hacer, ¡POSTAL PERFECTO! Después de que tenga que poder mantener toda la presión sobre su espalda porque, como se dijo en los comentarios anteriores, todos se apresurarán a su oficina para decirle que pueden ir a donde quieran. En realidad, la mayoría de las veces los usuarios son realmente egoístas en este momento y no quieren entender nada, solo quieren que ELLOS funcionen y no les importa el resto ... Así que estoy totalmente de acuerdo con tu publicación !
Marc-Andre R.
+1 para distinguir "el problema" de los síntomas.
bmb
59

Mantén la calma

No te asustes. ¡Respirar! (Desde el diafragma, ayuda.) Si has estudiado meditación, eso también puede ayudarte.

Cuando se enfrenta a un estrés extremo, su cuerpo entrará en un modo de huir o luchar, porque su cuerpo piensa que está en una situación de vida o muerte. En este momento, su cuerpo bombeará menos sangre a algunas partes de su cerebro, disminuyendo funciones como el razonamiento. Esto efectivamente reduce su coeficiente intelectual como instinto, en lugar de racionalidad, comienza a dominar las funciones de su cerebro. Si alguna vez ha estado o ha sido testigo de una discusión acalorada, puede reconocer estos síntomas a medida que las emociones de las personas se inflaman y la racionalidad se toma unas vacaciones. Más tarde, cuando las personas tienen la oportunidad de enfriarse, es más probable que acepten haber cometido un error o haberse equivocado, y son más capaces de ver el otro lado, pero en el calor del momento, no tanto.

Mantener la compostura y mantener la inteligencia sobre usted mantendrá su cerebro funcionando a plena capacidad y garantizará que tome decisiones racionales basadas en la evidencia y la razón en lugar de la emoción y el miedo.

Triaje

La aplicación eficiente de recursos limitados para lograr el mayor beneficio al menor costo es sumamente importante aquí. Tome las decisiones lo antes posible sobre las cosas que deben arreglarse AHORA MISMO, las que pueden esperar un poco (horas, días) y las que pueden esperar indefinidamente. También aprenda a darse cuenta cuando algo es insalvable y no vale la pena guardarlo (por ejemplo, la mitad del enrutador se derritió, incluso si es el único, no puede guardarlo, comprar uno nuevo y obtenerlo en el sitio inmediatamente o encontrar algo que pueda llenar el vacío temporalmente).

Retener la conciencia situacional

No permita que su atención quede atrapada por algún problema interesante o por algo que aún no comprende. Manténgase enfocado en el panorama general y en hacer que las cosas más importantes funcionen.

Usa el método científico

Formar una hipótesis. Determine cómo probaría esta hipótesis. Reúna datos para probar la hipótesis. Busque también datos que no confirmen. Refina tu hipótesis y repite el ciclo tantas veces como sea necesario hasta que tengas suficiente confianza en tu hipótesis para tomar medidas.

Ser pragmático

Ahora no es el momento para el dogma. Está bien tomar algunos atajos aquí y allá al recuperarse del desastre. Esto es esencialmente acumular deuda técnica. En muchas empresas, una falla catastrófica significa una pérdida catastrófica de ingresos. Es mejor hacer que las cosas funcionen, incluso si están en una situación inestable, que arriesgarse y arriesgar el sustento de su empresa. Como siempre, el juicio es sumamente importante aquí. A veces tiene sentido apuntalar un ventilador de caja apuntando a un rack de servidores, a veces no.

Cuídate

¿Cuánto tiempo llevas trabajando en esta emergencia? ¿Cuándo fue la última vez que bebiste agua? ¿Cuándo fue la última vez que comiste? ¿Cuánto tiempo has estado despierto? No se queme solo porque haya una emergencia, tómese el tiempo para mantenerse hidratado, alimentado y descansado (en caso de que sea un trabajo prolongado de varios días).

Ayuda de reclutamiento

Es casi seguro que hay muchas personas con talento en su empresa que están motivadas y son capaces de prestar ayuda. Sin embargo, tenga cuidado de hacer que demasiadas personas corran y causen problemas el uno al otro. También tenga cuidado con las personas molestas al someterlas a un "firedrill". Encuentre personas que ya quieran ayudar, haga que trabajen en tareas específicas y asegúrese de que las personas se comuniquen entre sí.

Comunicar

La comunicación es crítica. Nada es tan aterrador como lo desconocido. Cuando la gente no sabe nada más que ese algo está roto, una declaración vacía de que volverá a estar en copia de seguridad en X horas es solo un poco tranquilizador (incluso menos tranquilizador después de que hayan pasado X horas y las cosas todavía están rotas). Las presiones en el juego pueden conducirlo a dar estimaciones de tiempo WAG demasiado optimistas, pero este es el curso equivocado. No solo digas que estás trabajando en ello, no solo digas que las cosas se arreglarán por X veces. Sé abierto, muestra tu proceso, detalla tu progreso y tus contratiempos. Proporcione información sobre el problema, su proceso para rastrearlo y su plan para arreglar las cosas (aunque no ahogue a las personas en minucias). Demuestre que el problema no es intratable, demuestre que las cosas se solucionarán eventualmente, demuestre que hay personas competentes en el problema,

Cuña
fuente
24

No se asuste

Jauder Ho
fuente
44
En letras rojas grandes y amigables.
Spoike
1
Escuché que el rosa es un color relajante.
Sophie Alpert el
11
Tome una toalla y deje un mensaje que diga "Hasta luego, y gracias por todos los peces".
Jauder Ho
1
Dicen que el color topo es muy relajante
Glenn Slaven
¡Está a mitad de camino en cuanto al voto!
Andrew Grimm
22

Paso 0. Compruebe que no es su sistema de monitoreo el que tiene la culpa

Dave Cheney
fuente
Jajaja ¡Buena esa! Esto sucede muchas veces: P
Marc-Andre R.
12

iniciar sesión en serverfault

Phil Nash
fuente
11

Reserve de inmediato un vuelo a un país sin extradición

Glenn Slaven
fuente
8

Comprueba lo básico primero, parece una tontería, pero cosas como

  1. ¿Está encendido el servidor? (si aloja fuera del sitio)
  2. ¿Tu proveedor de hosting está caído?

Sé que se puede perder mucho tiempo buscando una solución cuando el problema está en contra

Glenn Slaven
fuente
2
sí, si todo está cayendo, revise el centro de datos y sus foros de soporte. Si hay 30 personas en línea, cuando generalmente hay 3, está golpeando al fanático.
Alister Bulman el
6

Hago ping a cosas. Lo que sucede después de eso varía mucho según los resultados del ping.

Dylan Beattie
fuente
Usé este método hoy. Muchas PC no podían imprimir. Intenté hacer ping al servidor de base de datos, OK. Intenté hacer ping al servidor de licencias de impresora, no hubo respuesta. Resultado = ¡Fallo del servidor!
Swinders
Buen punto;) Lo hago muchas veces al día antes de hacer cualquier otra cosa. Esto es en realidad mucho ahorro de tiempo: P
Marc-Andre R.
4

Culpa a la red.

(¡es una broma!)

Chico
fuente
3

RTFLF - Lea el archivo de registro de Frakkin '

(No puedo tomar el crédito por esto, todo va a Scott Hanselman )

Dillie-O
fuente
Este no debería ser el primer paso, pero debe ser uno de estos.
Marc-Andre R.
2

No intentes arreglar nada todavía.

Asegúrese de saber exactamente cuál es el problema real subyacente. Ahora empieza a arreglar las cosas. Si hay varias cosas que arreglar, considere cuidadosamente qué cosas se pueden retrasar (¡ojalá hasta el próximo día hábil, al menos!) Y cuáles deben arreglarse absolutamente ahora.

Pero lo más importante: una vez que todo funciona, pregunte por qué "explotó todo". ¿Qué vas a hacer para evitar que esto vuelva a suceder? ¿Existen pasos que facilitarían la solución si vuelve a ocurrir?

Stewart
fuente
1

Hágales saber a las personas que está en ello y, si es posible, proporcióneles una estimación de cuándo las cosas volverán a la normalidad.

En cuanto a la resolución de problemas real que obviamente depende de lo que está mal. Usualmente mantengo una colección de scripts de "verificar estado" para varios servicios.

Brian Rasmussen
fuente
¿Por qué fue esto menospreciado? Me parece un punto válido.
Adriano Varoli Piazza
Este es un punto excelente. La prevención es la clave para evitar un gran desastre;)
Marc-Andre R.
1

¡Verifique el cableado! He perdido horas revisando otras cosas cuando un simple intercambio de cable Eth0 habría resuelto el problema ...

Adriano Varoli Piazza
fuente
En realidad, un cable no muere sin motivo. Si no está bien apilado, envuelto o cualquier otro método de protección y todos pueden jugar con él, en realidad sí, es probable que se rompa un cable. De lo contrario, no hay razón.
Marc-Andre R.
0

Deberías tener planes de contingencia.

Los sistemas esenciales deben diseñarse con conmutación por error automática o con un plan de recuperación documentado y probado.

Cuanto más importante sea el sistema, más resistencia necesitará construir y más automático debería ser.

Si no tienes uno, entonces no era importante, ¿verdad?

Chico
fuente
0

Asegúrese de que la copia de seguridad de su currículum esté segura :) Luego,

Encuentra los puntos en común. Lo que es común a todos los sistemas afectados.

Encuentra lo que ha cambiado. Debería tener una gestión de cambio formal en su organización.

¿Dónde está el chico nuevo ... dónde está el jefe ...? ¿Uno de ellos tomó un atajo? (es solo un reinicio rápido del servidor, ¿qué podría dañar?)

BIBD
fuente
0

Es difícil de la declaración proporcionar un conjunto específico de acciones. Su primer movimiento se basará en:

  • Dónde estás
  • Cuánta información puede extraer de la persona que lo contactó
  • ¿Qué herramientas inmediatas tiene a mano para solucionar problemas (o buscar información)?
  • Su conocimiento sobre las rutas físicas y lógicas para su red.
  • ¿Cuánta ayuda tienes (parte de un equipo o ninja solitario)?

Obviamente, debe mantener la calma y alerta sobre el tema en cuestión. Su experiencia con la solución de problemas de red le habrá enseñado que esto podría ser algo trivial, como:

  • Un cable desconectado
  • Un mantenimiento no anunciado (otra tecnología 'arreglando' cosas)
  • Su CEO reaccionó de manera exagerada acerca de que la compañía estaba completamente condenada después de que se perdió la conectividad inalámbrica de su computadora portátil debido a que él / ella horneó una pizza de queso.

Dicho esto, también podría ser algo serio en las categorías de:

  • Transporte Físico (conectividad)
  • Hardware (enrutador \ conmutador \ servidor)
  • Almacenamiento (inaccesible \ comprometido \ eliminado)
  • Software (Servicio> Mal configurado \ Atacado \ fuera de línea)

El componente clave es cuánto SABE sobre el tema. ¿Cuál es tu punto de referencia? (¿desde qué perspectiva está 'el sistema caído'?).

l0c0b0x
fuente
0

Verifica el DNS.

Cawflands
fuente
0

Comience simple y trabaje hacia lo absurdo.

¿Poder?

Ethernet?

Programa en ejecución?

...

Extraterrestres?

Robert
fuente