Discos defectuosos en el servidor antiguo

12

Tengo un servidor Netware 3.12 de la era de 1998 que ejecuta todo en nuestro campus: libro mayor, compras, nómina, información de estudiantes, calificaciones, lo que sea. El servidor tiene un controlador RAID Adaptec con dos volúmenes:

  1. RAID 1, 2 discos scsi de 17 GB, Seagate ST318417W
  2. RAID 5, 3 discos scsi de 4 GB, 2 Seagate ST34573W y 1 ST34572W.

Actualmente estamos en las primeras etapas de un proyecto para reemplazar este sistema, pero no solo te lanzas a un nuevo sistema como ese, así que necesito mantener este servidor en funcionamiento hasta al menos noviembre de 2011.

Esta semana no tuvimos uno sino dos discos duros que fallaron. Afortunadamente, son de diferentes volúmenes y podemos seguir funcionando por el momento, pero dada la naturaleza cercana de estas fallas, tengo serias dudas de que podré evitar fallas catastróficas de este servidor hasta el objetivo de noviembre como está sin Restauración de la redundancia RAID: solo se necesitará una falla de unidad más en cualquier lugar y estoy completamente manguera.

Somos lo suficientemente afortunados de tener "repuestos" de coincidencia exacta en ambas unidades, pero los repuestos están en condiciones desconocidas. Intenté intercambiar solo ellos, pero el controlador RAID no es lo suficientemente inteligente como para manejar esto y hace que el sistema no se pueda arrancar.

En cuanto al controlador RAID en sí, hay una utilidad en la que puedo acceder durante la POST a través de un atajo Ctrl-A, pero no puedo hacer mucho desde allí. Para administrar realmente los volúmenes, primero debo iniciar en Netware, momento en el cual puedo usar CI/O Array Management Software Version 2.0para ver la información del volumen. Sospecho que la forma normal de administrar las cosas es arrancar desde un disquete especial con el software del controlador, pero ese disquete ya no existe.

Revisando las opciones en el software RAID, creo que la única forma compatible de reemplazar un disco en un volumen RAID existente es agregar físicamente el disco, arrancarlo y configurarlo como "repuesto" para un volumen, forzar el uso del volumen el repuesto para reemplazar un disco inactivo existente (y en este punto solo estoy adivinando) para que el disco inactivo se convierta en repuesto, repare el volumen, retire el repuesto del volumen y luego apague y retire el disco. Luego, comience de nuevo para el otro disco fallido. Todo esto equivale a mucho tiempo de inactividad, suponiendo que incluso pueda hacerlo funcionar y que mis repuestos sean buenos.

En cuanto a la búsqueda de repuestos confiables, no tengo idea de dónde comenzar a buscar un nuevo disco scsi de 4GB, o incluso qué sistema scsi exacto estoy buscando, ya que ha pasado por varias iteraciones diferentes con el tiempo.

Otra opción es migrar esto a una máquina virtual (hyper-v), pero todos los intentos anteriores que hemos realizado en esta área no han podido llegar muy lejos. Cuando se instaló esta máquina, recién me estaba graduando de la escuela secundaria, por lo que requiere un conocimiento de nivel inferior de netware y dos que he desarrollado, o si lo olvidé desde entonces (tampoco soy exactamente un dos neófito).

Parte de mi problema es que este es un servidor de alto uso, y desmontarlo durante unos días para resolver las cosas no funcionará muy bien.

En cuanto a la pregunta, estoy buscando cualquier cosa que pueda ser útil en esta situación: una recomendación sobre un lugar para encontrar buenos repuestos de esta época, experiencia personal reparando volúmenes RAID usando un controlador similar o construyendo un vm hyper-vm desde un viejo servidor de software, una línea en un disquete con un mejor software para el controlador RAID, recomendación sobre un buen consultor de Novell en Nebraska que sería capaz de arreglar las cosas, otra opción que aún no he considerado, etc.

Actualización:
para las copias de seguridad, solo tenemos copias de seguridad buenas (verificadas recientemente mediante restauración) de los datos , nada para el software que realmente ejecuta las cosas.

Actualización 2:
solo un informe de progreso de que actualmente tengo una instalación de Netware 3.12 en funcionamiento en VMWare Virtual Server 2.0, gracias en gran medida a la guía que encontré aquí:
http://cerbulescubogdan.blogspot.com/2010/11/novell-netware-312 -on-vmware.html

Los siguientes pasos son preparar volúmenes de software vacíos para que coincidan con los volúmenes adicionales en mi servidor existente, volcar todo en la unidad C: \ y los volúmenes de software en mi servidor existente, y descubrir a partir de esa información qué módulos necesitan agregarse al software, instalando mis licencias (todavía tenemos ese disco, si es bueno) y moviendo los datos.

Tengo aprobación para apagar el servidor durante una semana después del primero del año (lamentablemente no antes), por lo que, además de crear volúmenes vacíos, el resto del trabajo tendrá que esperar hasta entonces.

Actualización final (5 de enero de 2011):
pude obtener repuestos trabajando en ambas matrices de incursiones sin pérdida de datos esta semana. El controlador enumera ambos ahora como "TOLLERANTE DE FALLOS" (¡sí!). También pude construir sobre el progreso de mi última actualización y ahora tengo un servidor "de repuesto" funcional en VMWare Server 2.0. El repuesto puede ejecutarse y usar nuestro software erp, pero no puedo ponerlo en producción porque (todavía) no puedo imprimir desde esa caja (y no tengo idea de por qué). Aun así, esta máquina virtual funcionará en caso de que no tenga otra opción, y entre ella y los arreglos RAID reparados, me siento cómodo viviendo con la situación hasta que pueda desechar la máquina en noviembre.

Epílogo (16 de enero de 2012):
El proyecto para reemplazar este servidor con un sistema completamente nuevo se puso en marcha según lo planeado. ¡Hurra por no más cubiertos! Todos saluden Servidor SQL! El rey esta muerto. ¡Larga vida al rey!

Todavía planeamos mantener el antiguo servidor funcionando durante un tiempo más, hasta después de que finalice nuestra auditoría posterior al año fiscal en agosto. Pero si ocurre una falla entre ahora y entonces, nadie se quejaría demasiado.

Joel Coel
fuente
1
¿Cuál es la pregunta?
andyhky
Ver el último párrafo
Joel Coel
2
Al igual que otros, perdí el interés mucho antes de llegar al párrafo de la pregunta. Es posible que desee considerar volver a formatear todo para plantear la pregunta antes o condensarla.
John Gardeniers
2
Quiero poner esto en perspectiva (que quizás ya sepa): su operación COMPLETA se basa en una máquina de 12 años que no puede reemplazar por un año completo. Tienes un problema.
Jeff Ferland
2
Gracias por la actualización de su proyecto. Me alegra saber que su migración fue exitosa.
Starfish

Respuestas:

12

Obtenga (y continúe obteniendo, diariamente o con mayor frecuencia) buenas copias de seguridad de los datos del archivo compartido ahora . Si pierde la máquina, probablemente no podrá encontrar los disquetes necesarios (sí) para restaurarla. Obtenga una copia de la partición de DOS que Netware arranca, si es posible, también.

Eso suena como una tarjeta RAID Adaptec AAA-131 (o algo de esa época). Si estoy en lo cierto, no encontrará un software de administración mucho mejor porque no existe ninguno (consulte http://www.adaptec.com/en-us/downloads/novell_netware/novell_netware/productid=aaa-131&dn=aaa-131 .html para las últimas versiones disponibles). Usé muchas de esas tarjetas "en el día" y funcionaron bien.

Si se trata de un AAA-131, tenga mucho cuidado al jugar con su configuración . No hay forma de configurar un conjunto RAID sin limpiar los discos de esas tarjetas. Eso significa, por ejemplo, si quita la caja y conecta algunos discos de prueba y, por ejemplo, borra la configuración y establece un conjunto RAID en ellos, cuando vuelva a conectar los discos de "producción" no habrá forma de usarlos sin que la tarjeta los formatee primero. Si. Es tan malo

Novell Netware se ejecutará en los hipervisores VMware. Recomiendo contratar a alguien que tenga una buena experiencia de Novell Netware (hay personas aquí, te estoy mirando, Sysadmin1138, que lo tiene) para ayudarte a mover el contenido del servidor a un entorno virtual donde , al menos, puedes seguir así.

Si las computadoras de sus clientes son modernas y tienen un cliente de red de Microsoft instalado, es posible que la migración a una máquina basada en Windows Server sea realmente rápida y fácil. Levante la máquina con Windows Server con el mismo nombre que el servidor Netware, exponga una estructura de directorio compartida con la misma convención de nomenclatura UNC que la máquina Netware, copie todos los archivos y duplique los permisos en la máquina de destino (a mano). Puede que no sea tan difícil de hacer y podría "organizar" la migración en un laboratorio de pruebas de antemano y probar a algunos clientes con ella para decidir qué debe cambiarse desde una perspectiva de entorno de script / usuario.

Probablemente pueda obtener hardware adicional de eBay. Sin embargo, todo lo que compre de esa cosecha también tendrá problemas de confiabilidad.

Si yo fuera usted, estaría contactando a alguien bueno con Windows Server para ayudarlo a organizar una migración lejos de esa caja AHORA . Probablemente, se puede hacer llegar el caso a la gerencia para gastar algo de dinero dando que podría perder todo el contenido de la caja de Netware prácticamente en cualquier momento. La caja de reemplazo no necesitaría una potencia masiva (dado lo que está reemplazando), por lo que las licencias de software y la copia de seguridad serían sus mayores costos. Los problemas de migración relacionados con el cliente podrían minimizarse mediante el uso de un consultor que sea bueno con scripting y pueda planificar los detalles de cambiar la configuración relacionada con el cliente a través de scripts de inicio de sesión y inicio de sesión.

Evan Anderson
fuente
El software de administración del campus que ejecutamos en esta máquina requiere el directorio de Novell para su configuración de seguridad, de lo contrario, solo AD en un abrir y cerrar de ojos. Recordaré no jugar demasiado con el controlador RAID.
Joel Coel
44
@ Joel Coel: Yeeouch. Eso apesta. Obtenlo virtualizado tan rápido como puedas, entonces. El viejo controlador RAID proporcionará un BIOS Int 13 que permitirá que las herramientas de imagen de disco de DOS (como el viejo GHOST para DOS) funcionen correctamente. Obtendría una imagen sector por sector de todas las particiones de Netware y luego conseguiría a alguien que lo ayudara a migrarlas a los discos virtuales para el hipervisor de su elección.
Evan Anderson
Trabajando en una respuesta ahora.
sysadmin1138
10

Lo sé, porque lo he hecho (Hola Evan), que VMWare tiene un soporte decente para NetWare. Incluso para las cosas realmente viejas (lo que estás ejecutando). NetWare de esos NOOP antiguos la CPU cuando está inactiva en lugar de HALTING, por lo que cualquier CPU que se le dé en una VM se vinculará. Para eso están las herramientas VMWare, hacen que no lo haga. VMWare ha existido desde los años 90 (e incluso ha tenido un puesto en BrainShare durante varios años) y ha tenido que hacerlo, es por eso que tienen soporte. La virtualización de Microsoft es lo suficientemente nueva como para que nunca hayan tenido que virtualizar NetWare, por lo que no funciona allí.

Si este servidor es tan crítico como usted dice, obtener algunas licencias de VMWare debería ser una venta fácil. Como mínimo, obtenga una licencia de VMWare Workstation, que al menos llevará este servidor a un entorno virtual. VMWare Server es gratuito (creo) si realmente tiene que hacerlo. Una vez que el trabajo está hecho, puede considerar moverlo a algo como ESXi hasta que pueda ser reemplazado más formalmente.

Hay otras opciones, dependiendo de tus habilidades con Linux. Novell ha pasado bastante tiempo obteniendo Xen (no KVM, Xen, aunque ambos usan qemu) para soportar NetWare. Probablemente funcionará con NW3.12, aunque deberá asegurarse de utilizar el modo de virtualización completo , no la paravirtualización.

Ese servidor es lo suficientemente nuevo como para tener una unidad de CD-ROM, lo que probablemente será su salvación. Una vez que haya hecho su copia de seguridad, inicie en un ISO-Linux si lo desea. No podrá acceder a los datos, pero debería ver el disco duro. En ese momento, haga una ddcopia completa de ambos volúmenes en otro lugar de su red. Esas imágenes de unidad pueden ser utilizadas directamente por qemu como unidades virtuales.

Hay formas de convertir imágenes generadas por dd en VMware VMDK, pero no las he usado yo mismo. Google ellos, están ahí afuera.

sysadmin1138
fuente
Algunas tarjetas RAID Adaptec antiguas no son compatibles con Linux. El OP puede bloquearse usando una utilidad de imagen de DOS (para aprovechar el BIOS Int13 de la tarjeta). Una buena utilidad dd-to-vmdk que he usado es: sourceforge.net/projects/raw2vmdk
Evan Anderson
Tiene unidad de CD, pero resulta que la unidad no funcionó :(
Joel Coel
5

Esto no es realmente útil en términos de su pregunta (francamente, ya TIENE repuestos, y la única sugerencia útil que tengo para obtener discos antiguos sería " Alimentar los números de modelo de la unidad a Google Shopping "), pero antes de tocar cualquier otra cosa realmente debería ASEGURARSE DE QUE TIENE UNA BUENA RESPALDO Y PUEDE RESTAURARLA EXITOSAMENTE EN UNA MÁQUINA NUEVA EN UN ESTADO ÚTIL .

Si esta máquina es tan crítica como parece por su descripción, esa debería ser su prioridad cero en este momento. Si no ha realizado una prueba de restauración exitosa en sus copias de seguridad en un tiempo, debe suponer que no valen nada, y debe asegurarse de que realmente pueda recuperarse si esta máquina jadea y se agota.
Si otro disco cae sobre ti y no tienes copias de seguridad utilizables, eso es prácticamente el juego de pelota. Se mudará a su nuevo sistema de inmediato, ya sea que esté listo o no.

Solo mis $ 3.50.

voretaq7
fuente
Convenido. Pon a prueba tu capacidad de restauración. # 1 Primera cosa. Sin una manera de restaurar, es posible que no tenga copias de seguridad. (Estado allí, hecho que es una mierda No lo hagan...)
minamhere
2

Otros ya han abordado las copias de seguridad, etc., por lo que no repetiré nada de eso. Hay un par de cosas que puede hacer para mejorar sus posibilidades de que el sistema continúe funcionando.

Comience por invertir en un filtro de línea de muy buena calidad y colóquelo entre el UPS y el servidor. Esas unidades antiguas ya serán bastante sensibles a las sobretensiones, picos e incluso fluctuaciones de suministro bastante pequeñas.

Veo por su actualización que ya ha instalado las unidades de repuesto, pero esto es lo que habría recomendado: antes de probar las unidades de repuesto en el servidor, colóquelas en otra máquina y estrese la basura con el software de grabación o, si no puede obtener esos ciclos de prueba continuos utilizando el software de prueba de manejo regular. Siga así durante al menos unos días antes de declarar que las unidades son confiables. Las unidades viejas que han estado almacenadas son notoriamente poco confiables y pueden fallar en un abrir y cerrar de ojos.

John Gardeniers
fuente
1

Excelentes sugerencias arriba. Pruebe esto también: en el hardware moderno de repuesto, intente hacer una recuperación de todo el sistema desde su última copia de seguridad completa. Asegúrese de que la máquina de repuesto no esté en la red.

¿Qué es eso, me temo que podrías decir? ¿No tiene copias de seguridad y / o un procedimiento de restauración? Bueno, ¿ahora sabes en qué estás trabajando para la próxima semana?

mfinni
fuente
1

En respuesta solo a doble / triple / cuádruple recomendamos hacer una copia de seguridad todos los días hasta que encuentre una solución. Si no puede reemplazar fácilmente las unidades muertas, su única solución es migrar a nuevas unidades. Si eso significa construir un nuevo servidor o migrar lentamente su servidor existente para usar nuevas unidades en su servidor existente, es la única opción.

Tuvimos 2 de 3 discos duros que fallaron en una sola noche en una matriz RAID 5 de 7 años. Nuestras copias de seguridad estaban muy desactualizadas. 8 días y $ 17,000 después, una empresa de recuperación de datos pudo recuperar todo nuestro servidor de Exchange, pero a nadie le gustó. (Excepto yo, porque se suponía que debía estar haciendo copias de seguridad todos los días. En el hardware que solicité pero nadie me compraría, pero ese hecho se perdió en todos los demás ...)

Lo único bueno de esto fue que el cliente aprobó de inmediato mi solicitud de compra de hardware de 6 meses. Pero, santo cielo, fueron 8 días extremadamente estresantes. Hágase un favor, haga una copia de seguridad ahora y comience a trabajar en un plan de respaldo de contingencia "ponerse en marcha con cualquier hardware que pueda encontrar en su oficina" ahora.

minamhere
fuente