Seguramente lo presenciaste con tus propios ojos (o lo harás) tarde o temprano: ese terrible proyecto / sistema / situación en la que algo se arruinó TAN solo que no puedes creer que realmente salió como lo hizo.
¿Mala administración? ¿Presupuesto equivocado? ¿Malentendido? ¿Simplemente tonta, simple ignorancia? Nombra tu causa, seguro que sucedió (y sigue sucediendo mucho, tristemente; mira aquí ).
Descríbalo aquí, por diversión (aunque algo del tipo cínico) y aprendizaje (con suerte).
Algunas reglas:
- Este no es el lugar para errores de administración aleatorios (incluso si son completamente devastadores), así que por favor evite "argh escribí mal ese rm -r" u "OMG, ACABO DE COPIAR LA BASE DE DATOS CORRUPTACIÓN SOBRE MI ÚLTIMA BUENA RESPALDA" (estado allí, hecho eso) ; Esas cosas son mejores aquí . Se trata de "¿qué tipo de drogas estaba exactamente bajo la influencia de quién diseñó / implementó este sistema?".
- Un WTF por publicación, para que puedan ser comentados correctamente.
- Por favor, publique algo que haya presenciado :-)
- Si fuiste tú quien lo hizo, todavía califica :-)
Pronto agregaré material, siéntase libre de agregar el suyo; y por favor haz :-)
Respuestas:
Respuesta por correo electrónico de un ingeniero de soporte de Microsoft a un problema informado:
¡Oro!
fuente
Me llamaron de una compañía de la que nunca había oído hablar, que se había encargado de implementar un servidor de correo Exchange 2003 para un cliente y no tenía ni idea de cómo hacerlo; nada demasiado extraño, ¿verdad? Trabajo como consultor independiente, así que estoy perfectamente bien haciendo trabajos que no sabes hacer por ti (y obteniendo tu dinero por ello).
Así que fui al sitio del cliente y descubrí algo bastante extraño: cada servidor de la red era un controlador de dominio ; los 15 más o menos de ellos.
Luego descubrí algo aún más extraño: ninguno de ellos se estaba replicando correctamente con ningún otro, el comportamiento general de Active Directory solo podía describirse como "errático", los usuarios tenían cualquier problema de red que puedas imaginar y Exchange simplemente se negó a instalar con desconocido. errores a la humanidad.
Así que eché un vistazo a la configuración de red en el servidor, y vi ... que estaba usando los servidores DNS públicos del ISP. Luego miro otro servidor ... y fue lo mismo. Entonces miro un DC ... lo mismo. Luego pregunté ... y se confirmó oficialmente: todas y cada una de las computadoras de la red (alrededor de 1500) usaban el DNS del ISP en lugar de un controlador de dominio legítimo.
Continué explicando que DNS es bastante crítico para la operación adecuada de Active Directory, y pude reconstruir la historia de fondo:
fuente
Había una vez un cliente que era una pequeña empresa (10 personas) con un historial médico electrónico. (No es un médico). Un día noté que las copias de seguridad habían fallado. Tras la prueba, la unidad de cinta no funcionaba en absoluto. Se lo mencioné al propietario, quien dijo que sabía muy bien que la unidad era mala, pero que era demasiado costosa para reemplazarla.
Claro, eso no es muy WTF.
El WTF es que tenía a su personal girando la cinta diariamente, llevándola a una caja de seguridad, y todo ese jazz durante los 6-9 meses desde que murió .
"No le digas al personal, podría preocuparlos"
fuente
Estaba trabajando como administrador de sistemas para una Gran Agencia Gubernamental (uno de los principales órganos del gobierno de Italia), y había estado administrando su centro de datos durante algunos meses. Una tarde, suena mi teléfono y mi jefe me dice algo muy malo: un apagón total .
Ok, tenemos UPS, ¿verdad?
Sí, pero no durarán mucho, así que mejor ve allí y apaga todo hasta que vuelva la energía.
Voy allí, camino por los corredores oscuros, llego a la sala de servidores ... y me saluda lo que solo puede describirse como un infierno puro . Literalmente. La habitación estaba tan caliente que podrías haber horneado pasteles. La alimentación del UPS estaba bien, pero la mitad de los servidores ya se habían apagado por sobrecalentamiento y los restantes gritaban en agonía.
¿La razón?
Los servidores estaban encendidos con UPS ... el aire acondicionado no .
fuente
Falla del ventilador HP ProLiant ML370 G3 ... Los sensores del ventilador en la placa base de este modelo tendieron a fallar después de 5 años. El servidor no puede arrancar cuando no se detecta la combinación incorrecta de ventiladores. Tuve que guiar al cliente a través del arranque rápido de la máquina con una aspiradora de tienda (para que los ventiladores giraran en el arranque) y así es como mantuvieron el servidor funcionando hasta que pude llegar con un nuevo sistema.
fuente
Solía ser un consultor de software de contabilidad para la contabilidad Dac-Easy. Una vez me llamaron a la oficina principal de un negocio local y el contador me dijo que si no podía resolver por qué el programa estaba lleno de errores contables cada fin de semana, tendrían que encontrar otra aplicación y consultor. Al revisar los archivos de registro administrativos, descubrí que todas las entradas se realizaban generalmente los viernes o sábados por la noche. Luego descubrí que la esposa del propietario estaba iniciando sesión en la computadora del sistema de contabilidad desde su casa usando PC Anywhere y tratando de equilibrar las cuentas con su chequera después de varios vasos de vino. Una vez que los números se veían bien, ella cerraría sesión.
fuente
Levanté una computadora que recibí de la oficina de nuestra empresa matriz cuando escuché algo en el interior. Cuando abrí el estuche, lo encontré 1/2 lleno con Mini-Wheat helado. Me imagino que un ratón vivía en él o usaba un alijo de comida. Probable punto de entrada fue la brecha entre la caja y el conector de teclado DIN.
No es exactamente lo que pediste, sino un WTF definitivo.
fuente
Otro cliente, otra historia de terror.
En la publicación principal hablé sobre haber sobrescrito erróneamente una buena copia de seguridad con la base de datos corrupta que debía reemplazar; Sucede :-(
Por lo tanto, se necesitaba una restauración desde la copia de seguridad. Afortunadamente, en realidad había una copia de seguridad allí: se hacía a diario, en un servidor de copia de seguridad central con una biblioteca de cintas realmente grande adjunta; este servidor gestionaba copias de seguridad para toda la empresa, era realmente costoso y tenía instalado un software Real Backup.
Hasta aquí todo bien. Buscamos el trabajo de copia de seguridad, cargamos la cinta adecuada, iniciamos la operación de restauración, se carga la cinta, comienza la restauración ... y simplemente no sucede nada.
Intentamos de nuevo, algo.
Descargamos, recargamos, reiniciamos, intentamos restaurar copias de seguridad anteriores ... nada cambia.
Suponemos que se estaba llevando a cabo una operación larga y la dejamos toda la noche ... al día siguiente, todavía no cambia nada.
Ok, es hora de llamar al soporte del proveedor de Real Backup Software ... pero no se puede hacer, estamos el domingo. Intentamos buscar el sitio de soporte del proveedor, pero se requiere un código de acceso especial, y solo un administrador lo tiene ... el mismo administrador que estará realmente molesto al descubrir que el sistema aún no funciona el lunes, cuando él viene a trabajar.
Otro día de dolor, y descubrí que el error es bien conocido, y lo ha solucionado un parche de proveedor, que (obviamente) nadie se molesta en aplicar. Así que voy a aplicarlo ... pero no se puede hacer: la administración no quiere arriesgarse a romper nada a menos que el proveedor confirme que el parche se puede aplicar de manera segura; el hecho de que el servidor de copia de seguridad no pudo restaurar nada aparentemente no les pareció lo suficientemente "roto".
Solo después de cuatro días en total, varias llamadas de soporte y el proveedor enviando un ingeniero de soporte en el sitio finalmente pudimos aplicar el parche y restaurar la copia de seguridad; el servidor de respaldo nunca había podido hacer restauraciones, pero nadie lo probó, por lo que nadie se dio cuenta.
fuente
Emulación de terminal para diversión y ganancias
Trabajo con un sistema más antiguo, esencialmente un montón de terminales de texto que se conectan a una caja Unix, con algunas computadoras con Windows para complicar las cosas.
Algunos hechos esenciales
Creo que puedes ver a dónde voy con esto.
Hubo intentos poco entusiastas de agregar soporte de terminal adecuado a los archivos terminfo y termcap, pero estos son solo parcialmente funcionales. El archivo propietario de termcap utilizado por la aplicación del sistema primario funciona, pero en su mayoría es irrelevante ya que $ TERM nunca se configura correctamente de todos modos.
Al iniciar sesión, cada usuario tiene que seleccionar básicamente desde dónde está iniciando sesión y qué distribución de teclado quiere usar; no hay detección automática involucrada. Esto establecerá $ TERM en ANSI, independientemente de qué terminal se esté utilizando en el lado del cliente, y un conjunto de variables de entorno para que la aplicación de software principal reasigne algunas de las claves de manera adecuada.
En el caso de las personas que usan la distribución del teclado incrustado en los terminales de texto, se ejecuta un script para reprogramar algunas de las teclas de la distribución incrustada (tal como se imprimió físicamente en el teclado), pero no todas. En las PC con Windows, se carga un mapa de teclas del cliente para reasignar la mayoría de las teclas de función a ANSI. No puedo reasignarlos todos, o de lo contrario algunas de las otras teclas dejarán de funcionar.
Iniciar sesión en cualquier otra cosa desde cualquiera de los terminales es un ejercicio fallido, y solo se puede hacer razonablemente directamente en el servidor. Como todo funciona, es difícil justificar el tiempo y el esfuerzo necesarios para solucionarlo. Pero agregar algo más nuevo que los terminales de texto de 20 años con los que estamos atrapados ahora requeriría esencialmente una reescritura de todo el sistema.
Lloro un poco por dentro cada vez que lo veo.
fuente
Conocí a alguien que decidió reorganizar los archivos en su computadora al poner todos los archivos .exe en una carpeta.
fuente
Una red con ~ 60 ( SIXTY ) PC.
Un jefe fanático de la seguridad.
Algunos nuevos conmutadores con capacidades de VLAN.
Un "plan de reorganización de la red" que involucra ~ 20 ( VEINTE ) VLAN.
Gracias a un poder superior desconocido, me fui antes de que todo esto pudiera comenzar realmente ...
fuente
Le dimos a uno de nuestros administradores de Unix un cuadro de Windows. Esto fue poco después de que le dimos a los administradores de Windows los cuadros de Linux para administrar en un intento de aumentar nuestra familiaridad en los diferentes sistemas operativos. Yo, como administrador de Windows tratando de no arruinar mi caja de Linux, hice muchas preguntas al equipo de Unix. Espero que este sea el objetivo del ejercicio. Después de una severa conferencia sobre asegurarme de haber dimensionado todos mis volúmenes correctamente y no poner todo en un solo volumen, o en una sola partición, salí y construí una caja perfectamente adecuada, que todavía está en producción dos años después.
Cuando el tipo de Unix que me había dado la conferencia sobre diferentes volúmenes y no construir cosas para que un disco completo pudiera bloquear el sistema operativo construyó su caja de Windows, puso todo en C :. Cuando dije "No puedo respaldar eso con ninguna política que tengamos y cuando esos registros llenen su caja se bloqueará". Él dijo: "Bueno, pensé que era Windows, todo en C: tiene sentido". No hizo otra partición en absoluto. Estaba seriamente atontado por esto. Absolutamente WTF estabas pensando en algo así. Aparentemente no se le ocurrió que algunas de las mejores prácticas son las mismas independientemente del sistema operativo.
fuente
La respuesta de Massimo me recuerda a otro WTF ...
Una pequeña oficina tiene un servidor Windows 2003 con Exchange, Symantec AV, etc. La compañía generalmente nos usa para hacer todo su trabajo de TI ... pero este nuevo hotshot está en la oficina y compró una nueva PC. Los tuvimos en una plataforma Dell Optiplex unificada, este tipo decidió reemplazar 3 de ellos con "excelentes máquinas" que estaban a la venta en Best Buy.
De todos modos, de alguna manera logran unirlo al dominio.
Primera llamada:
No podemos encontrar perspectivas. La máquina vino con Word (Microsoft Works), entonces, ¿dónde está todo lo demás?
Segunda llamada:
¿Cómo usamos el antivirus de red?
Este es el wtf. Fui al sitio, y 7 de sus máquinas habían sido configuradas como SERVIDORES Antivirus Symantec , en lugar de instalar el cliente. Aparentemente al caballero no le gustó que hubiéramos bloqueado la configuración del cliente, y decidió "reinstalar" el cliente para que pudiera cambiarlo cuando escaneara. Aparentemente, el primer CD para Symantec AV que habíamos dejado fuera de alguna manera lo convenció de instalar el "servidor", en lugar del cliente.
fuente
Un cliente me llamó para ayudar con algunas compilaciones de servidores. Durante la compilación, me informaron que se trataba de servidores de reemplazo para los dos inferiores del bastidor. Pensé que era extraño que la posición del estante fuera relevante y pregunté por qué. Resulta que la sala del servidor se inundó después de que la tubería de agua que pasa por el medio explotó.
Entonces, ¿qué está haciendo una tubería de agua en el medio de la sala de servidores que preguntas? Bueno, el baño de mujeres está al lado y la sala de servidores está convenientemente fuera de la vista. ¿Qué mejor lugar para poner la alimentación principal al baño?
fuente
Oh, esta es fácil ...
Tuve una instalación de sistema Linux para una empresa ubicada en un almacén en la zona rural de Kentucky. Este sistema es la aplicación de contabilidad / inventario para la organización. Estaba reemplazando un servidor SCO de la era de 1998 con un nuevo servidor CentOS 4. Como resultado, esperaba lo peor cuando se trataba de conectividad y clientes. Ya sabes, PC viejas, cableado defectuoso, etc. Envié nuevos conmutadores, cables, thin clients, etc. al sitio ...
Sin embargo, ¡NO esperaba que el "armario" de cableado estuviera en el BAÑO ! En realidad, el cableado estaba ubicado en el espacio sobre el techo caído directamente sobre el inodoro del baño del almacén. Esto incluía el módem DSL, el HUB de 10 megabits y un bloque de 66 para los teléfonos ...
fuente
El mismo cliente involucrado en el asunto DNS From Hell.
Su servidor de Exchange siguió funcionando durante años con gracia e incluso sobrevivió a algunos fallos de disco (gracias, RAID y gracias más, copias de seguridad). Un día, me llamaron nuevamente por un problema no relacionado, y me dijeron de pasada algo los preocupaba: algunas veces, descubrieron que todos podían abrir el buzón de los demás; pensaron que era extraño, pero no hicieron nada, porque no saben cómo solucionarlo, y de todos modos el correo electrónico funcionaba y (casi) nadie había descubierto esto.
Estaba bastante sorprendido aquí: todos pudieron abrir el buzón de cualquier otra persona, y pensaron que esto era SOLO UNA PEQUEÑA molestia y no se molestaron en hacer nada durante TRES MESES . Cualquier persona común habría arrancado el cable de red del servidor inmediatamente, pero no ellos.
El origen del problema era ... extraño: alguien había configurado "Todos / Control total" en el nivel de Organización de Exchange en Active Directory, por lo que todos se convirtieron inmediatamente en administradores de Exchange; su única suerte fue que muy pocas personas lo notaron.
A partir de hoy, nadie sabe aún quién lo hizo.
fuente
Trabajé como programador a tiempo completo y administrador a tiempo parcial para una pequeña empresa que realizaba software de contabilidad (consulta: facturación de clientes y reclamos de seguros). Recibí una llamada de un gran cliente de que su servidor estaba caído; fue el nuevo producto que ejecuta Altos Unix SysV / 386. Como yo era todo lo que tenían, me enviaron a mí y a la nueva chica.
Llegué allí, y había una sala llena de operadores de entrada de datos escribiendo documentos de WordPerfect tan rápido como podían. Había una línea de larga distancia que salía del estado donde otro grupo de operadores estaba haciendo lo mismo.
El directorio de documentos tenía alrededor de 10,000 documentos perfectos de palabras, todos siguiendo el mismo formato. TODO EN UN DIRECTORIO. Tal y tal ha sido herido y sufre de tal y tal. Parece que este médico fue el tipo de referencia para los abogados que presentaron demandas por lesiones.
Traté de arrancar desde un disquete y solo obtuve muchos ruidos de búsqueda. Saqué el disquete y estaba completamente cubierto de telarañas, estoy hablando de puñados aquí. Era un consultorio médico, así que exigí hisopos y alcohol (era el único disco de arranque de Unix que teníamos, y la única posibilidad de arreglar las cosas en esa llamada de servicio), y comencé a limpiar el disquete, la unidad y el servidor.
Hubo dos problemas, uno era que el servidor estaba lleno de suciedad de la oficina alfombrada y su ubicación en la esquina de la habitación (en una gruesa alfombra de felpa), y se estaba sobrecalentando en la oficina de 80 grados. El sistema de archivos necesitaba FSCK'ing serio y dividí los archivos de 10K en un nuevo conjunto de subdirectorios alfabéticos y sugerí que lo desglosen aún más.
El doctor era un agujero perfecto que nos arrancó uno nuevo cuando entramos por la puerta. Cuando nos fuimos, explicamos que comprarnos la opción WordPerfect para UNIX no significaba que hubiéramos dimensionado el servidor para la creación de documentos intracontinentales; Además, necesitaba un aire acondicionado, una ubicación de servidor libre de alfombras, un UPS, un RAID externo y un mejor protocolo de archivo de directorio. De repente, él era todo oídos ya que así era como ganaba todo su dinero. Le di toda la información a Ventas, pero dejé ese trabajo poco después por otras razones.
fuente
Mi mejor WTF se originó en mi empleador actual, cuando comencé aquí.
Casi los primeros dos meses en el trabajo involucraron un estado constante de pánico y horror absoluto cuando descubrí el estado de los servidores. En mi nivel actual de experiencia, podría haber recomendado prender fuego al lugar y cobrar el seguro. Pero la mejor parte fue una política de la compañía:
No hubo contabilidad para los clientes de acceso telefónico. En un ISP que obtuvo la mitad de sus ingresos de clientes de acceso telefónico. En realidad, esta había sido una política que había estado vigente durante unos 6 años cuando comencé, y me dejó perplejo que no se hubiera hecho nada al respecto. La línea estándar era "confiamos en que nuestros clientes no usen demasiado". El hecho de que el lugar funcionara con un presupuesto muy reducido y no tuviera un administrador real en el cambio durante todo ese tiempo no ayudó a cosas que no creo.
El resultado final de esta política, por supuesto, fue que los spammers básicamente se habían apoderado del grupo de acceso telefónico. Casi todas las noches, usarían una cuenta para marcar en varios módems hasta que todo el grupo estuviera lleno, y luego eliminarían el spam lo más rápido que pudieran. La versión de AAA RADIUS no ayudó en nada porque no había un cambio rápido de "permitir solo un usuario a la vez" en ese momento. Pirateé algo juntos en Perl para desconectar a cualquiera con dos inicios de sesión hasta el momento en que el servidor RADIUS pudiera ser reemplazado, y eso solucionó ese problema en algún momento de la primera semana o dos. Parte del otro problema era que no se me permitía tener suficiente tiempo para arreglar las cosas (ver: presupuesto reducido) ya que también estaba haciendo soporte técnico al mismo tiempo. Pero parte de la razón por la que sigo aquí es porque tuve un reinado libre sobre todo. No creo que Realmente alguna vez me han dicho que no siga adelante e implemente alguna idea sólida. La única restricción que he tenido fue dinero.
fuente
Hace diez años, me entrevisté para una compañía cuyo cableado de la sala de servidores primaria parecía sopa de espagueti. El equipo de red estaba en 3 bastidores cerca de una esquina de una habitación de 20 pies x 60 pies. Había una cascada de cables de red de todo tipo de colores que caían por los estantes y terminaban en un grupo de cables enredados de aproximadamente 7 pies de ancho y que se extendían a unos 5 pies de los estantes. No había ninguna documentación y nadie sabía qué fue a dónde.
La compañía tenía una participación de mercado del 95% en un campo que se ocupaba de la seguridad de la vida y la propiedad. Todo lo que puedo decir es que eso puede dar una pausa real.
Por cierto, la compañía todavía está en el negocio y aparentemente ha limpiado muchas cosas desde entonces.
fuente
Estuve en un armario de Demarc no hace mucho tiempo y encontré esta dulce configuración en un sitio:
Instalación del cable de fibra Elite = TWIST TIE
texto alternativo http://locobox.googlepages.com/Fiber.jpg texto alternativo http://locobox.googlepages.com/Fiber2.jpg
fuente
Hace unos años, la compañía para la que trabajaba adquirió uno de nuestros competidores y tuve que auditar sus máquinas (Centos) para asegurar que cumplieran con nuestros estándares en términos de configuración (su administrador de sistemas había rechazado la oportunidad de unirse a nuestra compañía en favor de comenzar su propia empresa que desarrolló soluciones llave en mano).
En /etc/rc.local (el hogar de todos los grandes WTF) encontré:
y
Nota: eth1 se configuró en ifcfg-eth1 con una máscara de red de 255.255.255.0
Aparentemente, los administradores de sistemas reales no usan esos archivos de configuración cliché como / etc / fstab y / etc / sysconfig / network-scripts / *
fuente
A principios de este año contratamos a una nueva chica. Me pidieron que me asegurara de que todas las fuentes de la compañía estuvieran instaladas en su computadora. Sabía que sí, pero decidí elegir mis batallas e instalarlas nuevamente. Recibí una llamada de la chica unos 5 minutos después y ella quería que fuera y le mostrara cómo usar el nuevo "software" que instalé. Me acerqué, abrí Word y le enseñé cómo cambiar las fuentes ... que es lo que instalé.
¡Esta chica tenía un doctorado! Ella ya no trabaja aquí, pero no porque no supiera cómo usar las fuentes.
fuente