Tengo una bahía de unidad externa con 4 discos eSATA. Mi sistema tiene una tarjeta eSATA de 4 puertos, así como un par de unidades de hardware RAID1 internas. Las unidades externas están en pares RAID1 de software como /dev/md0
y /dev/md1
. Ambos se han configurado como volúmenes físicos LVM para crear mi storagevg
grupo de volúmenes LVM. Recientemente, una sola unidad se desconectó (sospecho que hay cables), pero no parece haber una buena manera de identificar físicamente qué unidad necesito verificar, especialmente porque el orden de inicialización no es el mismo entre las botas. ¿Cómo puedo encontrar el disco que necesita atención?
Si tiene problemas para hacer coincidir el número de serie de la unidad o la indicación de puerto con las ubicaciones espaciales de sus discos, puede ejecutar
cat /dev/sdz >/dev/null
(dóndesdz
está la unidad fallida) y ubicar la unidad por su LED (o por el oído si no está en una sala de servidores ruidosa) ) Si la unidad ni siquiera se enciende, eso debería ser suficiente para saber cuál es. Asegúrese de poner una etiqueta visible en los discos para la próxima vez.fuente
La información que
udisks
proporciona (ya sea en la línea de comandos o en la Utilidad de disco GNOME ) incluye el número de serie del disco. En los discos que tengo, el número de serie está impreso en la parte superior y en la parte frontal (el que está en el otro lado del que contiene los conectores), tanto como números como con un código de barras. Desafortunadamente, la mayoría de las carcasas de PC hacen que sea imposible leer esas publicaciones en serie sin extraer el disco ...También puede encontrar los números de serie en
/dev/disk/by-id/
.Como su disco está fuera de línea, ¿supongo que el núcleo no lo "ve" actualmente? En ese caso, es posible que deba eliminarse: desea el disco con un número de serie que no esté en la lista ...
fuente
Con el raid de software, este es un problema común. Las incursiones de hardware tienden a tener una característica que le permite parpadear el LED asociado con una unidad, suponiendo que su hardware lo admita.
Pero con el software RAID cada unidad tiene algunos metadatos únicos. Puede leerlo desde cada unidad utilizando el comando
mdadm -E /dev/sda1
para cada unidad en la matriz, modificando los dispositivos para que coincidan con su entorno. Entonces, si tiene una situación en la que una unidad le está dando problemas y está actualmente fuera de línea. Lo ejecutaría en cada unidad que esté en línea, registrando el número menor para cada unidad. Luego, utilizando un Live CD que admite MD, el CD de rescate del sistema es bueno, con solo una unidad a la vez conectada y ejecutando este comando para encontrar al culpable. Esto probablemente no sea tan sencillo como te gustaría, pero debería funcionar.fuente
lsscsi
Si el disco no está funcionando, es una buena señal. Entonces / proc / mdstat le dirá qué miembro falló. Suponiendo que no tiene una buena unidad de disco tendrá que profundizar por número de serie, sg_inq debería ayudar con eso.
Si tiene una buena caja de unidades, debería poder habilitar la baliza de disco para ayudar a identificar el miembro defectuoso.
http://www.mail-archive.com/[email protected]/msg07307.html
fuente
Para obtener los códigos de serie de todos los discos duros ejecutados:
fuente
Es simple. Este, por ejemplo, es el resultado en mi PC:
como pueden ver, me he unido / dev / sdh1 y / dev / sdg1 en / dev / md0
fuente
Dado que su matriz no tiene inteligencia SES y el LED de actividad del disco no se puede conducir directamente, por ejemplo, necesita soporte de firmware para eso. La única otra cosa que puede hacer es inmovilizar la E / S lo mejor que pueda y luego usar algo como
dd
osg_read
en los miembros mismos para avanzar un patrón de lecturas en el disco que crea un patrón de parpadeo identificable de manera única utilizando el LED de actividad faro de hombre si quieres. Realmente es su única alternativa, a menos que bajar la matriz sea una opción.Este tipo de capacidad de servicio es lo que diferencia a las matrices de almacenamiento externo. Como no planificó con anticipación garabateando los números de serie y sus posiciones, no puede hacer la simple diferencia establecida para identificar la unidad defectuosa. Es el precio que paga por la solución que implementó, ya sea que se dé cuenta o no, pero bueno, viva y aprenda.
fuente