¿Causas del daño repentino y masivo del sistema de archivos? ("El inodo raíz no es un directorio") [cerrado]

8

Tengo una computadora portátil con Maverick (muy feliz hasta ayer), con un SSD Patriot Torx; Cifrado LUKS de toda la partición; un volumen físico lvm encima de eso; luego home y root en volúmenes lógicos ext4 además de eso.

Cuando intenté arrancarlo ayer, se quejó de que no podía montar el sistema de archivos raíz. Ejecutando fsck, básicamente cada inodo parece estar equivocado. Tanto los sistemas de archivos de inicio como de raíz muestran problemas similares. Comprobar un superbloque de respaldo no ayuda.

e2fsck 1.41.12 (17-May-2010)
lithe_root was not cleanly unmounted, check forced.
Resize inode not valid.  Recreate? no

Pass 1: Checking inodes, blocks, and sizes
Root inode is not a directory.  Clear? no   
Root inode has dtime set (probably due to old mke2fs).  Fix? no
Inode 2 is in use, but has dtime set.  Fix? no
Inode 2 has a extra size (4730) which is invalid
Fix? no
Inode 2 has compression flag set on filesystem without compression support.  Clear? no
Inode 2 has INDEX_FL flag set but is not a directory.
Clear HTree index? no
HTREE directory inode 2 has an invalid root node.
Clear HTree index? no
Inode 2, i_size is 9581392125871137995, should be 0.  Fix? no
Inode 2, i_blocks is 40456527802719, should be 0.  Fix? no
Reserved inode 3 (<The ACL index inode>) has invalid mode.  Clear? no
Inode 3 has compression flag set on filesystem without compression support.  Clear? no
Inode 3 has INDEX_FL flag set but is not a directory.
Clear HTree index? no
....

Al correr stringspor los sistemas de archivos, puedo ver que hay nombres de archivos y datos de usuarios. Tengo copias de seguridad lo suficientemente buenas (toque madera) que no vale la pena moverse para recuperar archivos individuales, aunque podría guardar una imagen del disco sin cifrar antes de reconstruir, por si acaso.

smartctlno muestra ningún error, tampoco lo hace el registro del núcleo. Ejecutar un modo de escritura badblocksen el intercambio lv tampoco encuentra problemas. Por lo tanto, el disco puede estar fallando, pero no de una manera obvia.

En este punto estoy básicamente, como dicen, ¿jodido? Volver a la reinstalación, ¿tal vez ejecutar bloques defectuosos en el disco y luego restaurar desde la copia de seguridad? Ni siquiera parece haber suficientes datos para presentar un error significativo ...

No recuerdo que esta máquina se estrelló la última vez que la usé.

En este punto, sospecho que un error o corrupción de memoria causó que escribiera basura en los discos cuando se ejecutó por última vez, o algún tipo de modo de falla sutil para el SSD.

¿Qué crees que habría causado esto? ¿Hay algo más que intentes?

billar
fuente

Respuestas:

4

Parece que tu primer superbloque está corrupto. Hay muchas copias del superbloque, ya que es la pieza más crítica del sistema de archivos. Puede probar e2fsckcon la -bopción de verificar si una copia diferente del superbloque tiene la información correcta. Consulte e2fsck (8) para obtener más información sobre la -bopción y cómo determinar la ubicación de los superbloques adicionales.

IIRC, solo hay una copia del directorio raíz, por lo que si se dañó, tendrá que volver a crearse, vacío. Los directorios originalmente en el directorio raíz aparecerán en / lost + found y tendrá que reubicarlos desde allí.

Las tablas de Inode se extienden a través de la partición. Es poco probable que los pierdas a todos. Los que son recuperables, si sus archivos no se pueden reubicar en sus directorios originales, también terminarán en / lost + found.

Juliano
fuente
Oh, entonces, ¿piensas que debido a que el superbloque estaba corrupto, los punteros a las regiones de inodo en realidad no señalaron a los inodos en absoluto, por lo tanto, todos parecían corruptos? Eso tiene sentido.
Poolie
Comprobar con otros superbloques no ayudó.
Poolie
2

He visto esto antes. Es algo que ver con Ubuntu 10.10. Miraba a mi alrededor en el rastreador de errores ya que ha sido publicado varias veces. Para estar seguro, tome una instantánea del disco, límpielo y luego suéltelo en un sistema secundario para ver si el error se repite (para descartar el disco - culpable poco probable).

Concierto público
fuente
Lo he visto dos veces con este SSD, y nada en el mismo sistema con discos magnéticos, o en otro sistema con un SSD diferente. Entonces sospecho que el SSD en este punto.
billar
1

Actualización: Eventualmente, me convencí de que el problema era algún tipo de falla SSD complicada, o supongo que posiblemente una interacción entre el núcleo y la SSD. Lo reemplacé con un disco magnético y no he tenido problemas nuevamente.

billar
fuente