¿Por qué 5 iMacs diferentes desarrollaron particiones corruptas de OS X cuando las unidades físicas están bien?

9

Soy técnico de mi distrito escolar local y estamos teniendo algunos problemas con nuestro laboratorio multimedia iMac. En los últimos nueve meses, 5 de los 22 iMacs han sufrido daños en el sistema de archivos. El único recurso para estas máquinas ha sido borrar completamente la partición OS X y comenzar de nuevo (con la restauración adecuada de Time Machine).

Aquí está la lista de por qué sé que es corrupción del sistema de archivos:

  • El iMac no arrancará OS X. He visto que se detiene en el "throbber", la barra de progreso o simplemente el logotipo de Apple.

  • El montaje del disco iMac a través del modo de disco de destino (me encanta esa característica) tiene éxito, pero solo para la partición Bootcamp. La partición OS X no se puede montar.

  • Una verificación del disco revela que la partición OS X debe repararse (he visto entradas de hermanos no válidos, niños huérfanos, etc.). Intentar reparar el disco falla. Este último intento (justo ayer) dijo que los árboles del catálogo B no podían ser reconstruidos. Debería haber tomado notas más completas sobre lo que se dijo cada vez, pero cada vez hasta este último supuse que era un tipo de evento extraño en un millón. Una casualidad

  • Intentar reparar o reconstruir las unidades con Drive Genius 3 también falla Hasta ahora, el 98% de los archivos del usuario han sido recuperables a través de Data Rescue 3 El disco duro físico no parece estar fallando (recuperar archivos de la unidad no se cuelga o "beachball" ", la unidad no aparece y desaparece en la Utilidad de Discos, Finder sigue respondiendo, etc.)

  • Normalmente lo atribuiría a una serie de malos discos. Simplemente resultó ser el tipo desafortunado que compró una mala racha de iMacs, ¿verdad? Aquí es donde las cosas comienzan a ponerse interesantes. Te presento la lista de rarezas:

  • Las unidades se verifican como buenas a través de SMART

  • La RAM se desprotege
  • Después de eliminar y volver a crear la partición (y volver a instalar OS X) todos los problemas desaparecen.
  • La corrupción no le ha sucedido a la misma Mac dos veces
  • Bootcamp se instala en la misma unidad y funciona antes, después y durante la corrupción en el lado de Mac.
  • La partición Bootcamp no ha tenido este problema en CUALQUIERA de los iMacs

Además, para descartar lo obvio:

  • No ha habido apagones ni sobretensiones.

  • Dudamos seriamente de un virus, ya que el mal funcionamiento aparece en cualquier lugar desde simultáneamente (dos máquinas cayeron al mismo tiempo hace aproximadamente un mes) hasta meses de diferencia. Además, los documentos del usuario se restauran después del reformateo, por lo que uno supondría que si se tratara de un programa malicioso, la Mac seguiría fallando una y otra vez.

  • Las máquinas han estado en un área climatizada.

  • No ha sido el mismo usuario afectado

  • A veces, el problema se produce después de un apagado forzado inevitable (que ocurre con poca frecuencia. Estas máquinas no se apagan excesivamente de forma incorrecta. Solo lo que esperaría con un Mac Lab que ejecuta multimedia cinco días a la semana), otras veces está completamente fuera de servicio. -el azul

El software utilizado con frecuencia incluye:

  • iPhoto
  • iDVD
  • iMovie
  • Safari

Las máquinas también están cargadas con Parallels 5, que carga la partición Bootcamp en una VM. Parallels se configuró a través del asistente estándar, sin configuración extraña o hacks.

Y por último pero no menos importante, las especificaciones:

  • iMac 10,1 (21.5 pulgadas)
  • Unidades de stock
  • OS X Snow Leopard (últimas actualizaciones)
  • Memoria de stock
  • Unido a nuestra infraestructura de Active Directory
  • Sistema de archivos HFS + (no distingue entre mayúsculas y minúsculas, el valor predeterminado para OS X Snow Leopard)
  • Sin mantenimiento de unidad fuera de lo común. programas Drive Genius se cargó ayer por la tarde (DESPUÉS de recuperarse de la última falla) para ejecutar una verificación en todos los iMacs, pero no se instaló antes. Todos los Mac, tanto los que han fallado en el pasado como los que nunca han fallado, pasaron con gran éxito.

TL; DR: la partición OS X se ha dañado en cinco iMacs diferentes, pero las unidades físicas están bien. ¡¿¡¿¡POR QUÉ!?!?!

Ocho Cuarto Trimestre
fuente
Off Topic: 8¼b: puede usar Shift + Enter para ingresar saltos de línea en los cuadros de comentarios. También he oído que existen complementos del navegador (¿script de usuario?) Que invierten el rol de enter y shift-enter, por lo que enter insertará un salto de línea y shift-enter enviará el comentario.
Jason Salaz
+1 pregunta bien documentada. ¿Alguna vez has considerado que podría ser un acto de estudiantes?
¿Cómo se asigna iMac 10,1 a iMac {early | mid | late} 20YX para que sea más fácil analizar el lado del hardware? Si reemplaza los #desktopcomputers con uno de los números de serie, support.apple.com/manuals/#desktopcomputers obtendrá el nombre descriptivo de sus iMacs.
bmike

Respuestas:

6

HFS Plus (HFS +) es un sistema de archivos frágil y un poco desactualizado. Si lo buscas en Google, encontrarás muchos informes de corrupción del sistema de archivos.

Reiniciar sin desmontar el sistema de archivos es la mejor manera de corromperlo. Esto sucede cuando la Mac se congela por alguna razón (en mi caso es la tarjeta de video nvidia) o fallas de alimentación.

Aquí hay algunos consejos, que en mi humilde opinión debería reducir la posibilidad de corrupción del sistema de archivos:

  1. Cuando el sistema se congele, intente reiniciar desde ssh. Cuando el subsistema de gráficos de mi mac se mantiene, aún se puede acceder a través de SSH; intente abrir la conexión ssh desde su red y reinícielo. Puede usar Apple Remote Desktop (€ 62) para esta tarea. Debe habilitar el acceso ssh primero.

  2. Hazlo diskutil verifyVolume /periódicamente. Sí, incluso si HFS + es un sistema de archivos registrado, la corrupción es posible. Puede usar Apple Remote Desktop para ejecutar esto en todas las computadoras del aula a la vez.

  3. Usa múltiples volúmenes. El uso de múltiples volúmenes debería reducir la posibilidad de corrupción. La separación /de /Users/debería facilitar la restauración (ya sea / o / Los usuarios se dañarán). Tenga en cuenta que esto probablemente podría complicar las cosas con Bootcamp.

  4. Montar particiones con opciones que reducen la escritura. El montaje de particiones con noatimeopción debería reducir la escritura en él. Por defecto, cada vez que se accede a un archivo, su marca de tiempo de acceso se "toca".

  5. Asegúrese de que no haya intentos de montar la partición HFS + desde otros sistemas operativos. ¿Es posible que alguien esté iniciando una distribución de Linux desde usb / dvd y montando /en modo rw o jugando con la configuración de diario?

Espero que mi respuesta sea útil.

PD: la corrupción generalmente es gradual, no repentina. Existe la posibilidad de que algo específico esté causando esto, software o flujo de trabajo. Mi mente está en Parallels 5, pero debería corromper el volumen del bootcamp, no el de MacOS. La búsqueda de su KB no revela nada útil.

PPS: es frágil porque no tiene un sistema real para corregir la corrupción dentro de un archivo. Un diario registra las transferencias e intenta volver a copiar los datos para devolver el sistema de archivos a un estado coherente, pero si el archivo perdido es vital (como los datos reales de la estructura del sistema de archivos), entonces no hay recurso. De hecho, debido a que el archivo de catálogo (que enumera toda la información de datos lógicos) se almacena como un archivo, si está dañado en ciertos lugares, todo su sistema de archivos se convierte en datos de basura inútiles, o basura tendida parcialmente en caso de que esté dañado y se produce una reproducción de diario que hace que reestructure el sistema de archivos de una manera que no sea coherente con los datos (por ejemplo, el archivo ayb son de 1 MB y 2 MB respectivamente, pero la reproducción cambia a 2 MB y 1 MB, lo que da como resultado la mitad del contenido de B estando dentro de A).

mspasov
fuente
2
Cualquier sistema de archivos tendrá problemas teniendo en cuenta las circunstancias. ¿Pero "frágil" y "un poco anticuado"? De Verdad? Un poco anticuado en mi mente no es diario. Y ese no es el caso de HFS +.
Jason Salaz
Si el sistema de archivos fuera frágil, ¿no tendrían todos los Mac problemas? Las instalaciones con cientos de equipos Mac que auditan las desconexiones bruscas de energía y un programa continuo de botas seguras, reparaciones del sistema de archivos cortarán este tipo de cosas de raíz.
bmike
+1 para HFS Plus (HFS +) es un sistema de archivos frágil. He experimentado este escenario exacto con dos discos duros. Windows no se ve afectado, hfs + no se puede reparar. La recreación de la partición y la reinstalación de os x funciona bien
Clint Good
2

Cosas que podrían hacerlo fuera de mi cabeza ...

Dijiste que no has tenido sobretensiones o caídas de tensión ¿Cómo lo estás confirmando? Teníamos un salón de clases donde las fuentes de alimentación de la PC estaban aparentemente al azar. Tuvimos que hacer que el personal de mantenimiento conectara un medidor de monitoreo al circuito y descubrió que el tomacorriente tiene picos de voltaje enormes.

La memoria no está asentada correctamente y daña los datos.

Conduzca los cables flojos.

discos duros marginales que tienen un mal conjunto de sectores pero que no son lo suficientemente malos como para activar alertas o escaneos en busca de sectores defectuosos.

Algo en el lado de Windows a través de bootcamp está modificando la unidad de una manera que no le gusta. Protección contra copia? ¿Conducir utilidades?

Dijiste que está en un laboratorio. ¿Qué corren los estudiantes? ¿Está monitoreando o bloqueando lo que se puede ejecutar que podría estar haciendo?

Usted ha dicho que esto parece ser aleatorio, no hay dos máquinas que hagan que esto suceda en una fila. Esto me llevaría a sospechar que un estudiante o un grupo de estudiantes lo están causando o que hay un problema de energía aleatorio en el laboratorio que lo está causando. ¿Hay alguna forma de rastrear quién utilizó por última vez las máquinas para ver si este problema parece seguir mágicamente a uno de sus usuarios?

Bart Silverstrim
fuente
No hemos estado usando ningún equipo de monitoreo de energía, no. Simplemente dejando de lado el informe de los maestros de la escuela secundaria sobre eso. editar GAH! Nota personal: la tecla Intro no crea una nueva línea en el modo de comentarios.
EightQuarterBit
Tal vez quiera probar eso. Tampoco había indicios de un problema de este tipo en el aula, pero el director de TI era un experto en ingeniería eléctrica en la universidad y les pidió que lo revisaran. Hizo los cálculos y descubrió que tenían picos periódicos de miles de voltios ...
Bart Silverstrim
Hemos hecho una prueba de RAM en cada máquina que ha tenido este problema, todos pasaron. Se podría pensar que si los cables de la unidad estuvieran flojos, el problema se habría manifestado varias veces en la misma máquina en el mismo iMac, en lugar de en varios iMacs. Además, si se tratara de un cable de unidad suelto, es extraño que no se haya producido en las particiones Bootcamp.
EightQuarterBit
Es posible que las unidades sean realmente marginales, pero me cuesta comprarlo. He comprobado, vuelto a comprobar y comprobé tres veces estas unidades. He utilizado la Utilidad de Discos de Apple y Drive Genius 3 para escanear los mocos de los discos. Además, nunca he visto una unidad marginal sin tener al menos algunos indicadores en SMART. He visto discos duros "malos" que pasaron SMART, pero todavía tenían un alto recuento de sectores reubicados y otras cosas cuando usaban una utilidad SMART. Estas unidades? Nada
EightQuarterBit
He pensado en Windows jugando con la partición de Mac, y todavía no lo he descartado. Sin embargo, el hecho de que el controlador de bootcamp de Apple SOLO montará particiones HFS + como solo lectura parece impedir eso. No estamos utilizando ninguna herramienta de disco o utilidades de tipo "congelación profunda" en el lado de Windows.
EightQuarterBit
1

¿Ha considerado una revisión periódica de las máquinas? Puede programar fácilmente pases semanales de verificación de fsck (hasta que descubra por qué está ocurriendo la corrupción) y luego mensualmente para mantener una pestaña de las cosas.

Con un sistema de archivos registrado, se necesita un mal trato repetido para que los Mac se degraden hasta el punto de no arrancar. Incluso el software malo no escribe en el lado del sistema de arranque, por lo que sospecho que algo está claramente mal. En las Mac que se apagan limpiamente y llaman la atención cada vez que se reparan errores menores del sistema de archivos (cada vez que una Mac se reinicia y fsck no se está ejecutando en modo preen es una señal de problemas en el horizonte).

Con una implementación de 25 macs, puede pasar un tiempo proactivo sobre las comprobaciones del sistema de archivos y ver cuáles no se apagan limpiamente mediante la configuración de un servidor syslog u otro sistema de auditoría centralizado.

bmike
fuente
0

Consideraría la actividad estudiantil. Si está ejecutando bootcamp y OS X, entonces apuesto a que los estudiantes están bloqueando el lado de Mac para ejecutar boot camp, porque no son pacientes. Este también puede ser el caso si hay un bloqueador de pantalla presente.

Yo sugiero:

  1. Retira el campamento de entrenamiento. En su lugar, ejecute una máquina virtual en Parallels o Virtual Box. (He encontrado que Windows XP en VirtualBox funciona bastante bien). Configure esto para que la máquina virtual sea inmutable, almacenada localmente en la antigua partición de bootcamp. Esto evitará que los niños se jodan con la instalación de Windows. Redireccione su directorio de inicio para leer fuera de su directorio de inicio de Mac en su servidor. (Esta es una PITA para configurar la primera vez, ya que abarca alrededor de un millón de regedits)

  2. Establezca alguna forma de monitoreo de inicio de sesión para saber qué estudiantes han usado qué máquinas. Esto tiene la ventaja de que puede detectar al mismo niño que inicia sesión en varias máquinas, generalmente haciendo esto como un favor para alguien que está prohibido. Configuré que cuando el mismo inicio de sesión estaba en dos máquinas, ambas máquinas se reiniciaron.

Sherwood
fuente