¿Cómo se mide la velocidad del disco y qué es rápido? ¿Cuánto tiempo debe tomar una copia de 1500 GB?

11

¿Cómo se mide la velocidad del disco? ¿Es Mbit o Mbyte por segundo leído? ¿Cuál es el promedio hoy y qué es rápido y qué es muy rápido en la industria?

Digamos que alguien dice que lleva mucho tiempo hacer una copia de un archivo de 1500 GB (digamos un archivo de base de datos), cuánto tiempo tomaría eso en un sistema profesional y cómo se puede calcular tomando en cuenta la velocidad del disco duro. ?

hol
fuente

Respuestas:

19

Las velocidades de disco generalmente se miden en;

  • Velocidad de rotación en revoluciones por minuto (más baja a 4200 rpm, luego 5400, 7200, 10k y 15k; esto no se aplica a los SSD o la memoria flash).
  • La velocidad de la interfaz es la más rápida que los discos electrónicos pueden intentar enviar los datos al controlador de disco (estos van desde los 100 MBps de ATA hasta los 150/300/600 Mbps de SATA, los 2/4/8/16 Gbps de Fibre Channel e incluso las velocidades PCIe para almacenamiento basado en flash como FusionIO).
  • El tiempo de búsqueda es simplemente el tiempo que lleva comenzar a leer o escribir un sector particular del disco; estos pueden variar de 3 a 15 ms para discos a una pequeña fracción de esto para discos SSD / flash.
  • Luego llegamos a la velocidad real que puede esperar, hay cuatro velocidades que debería interesarle; lectura secuencial (lectura de un bloque de datos muy grande), escritura secuencial (igual pero escritura), lectura aleatoria (obteniendo datos de todo el disco) y escritura aleatoria. Estos varían enormemente, pero para discos giratorios puede esperar cualquier cosa, desde 25 MBps a 150 MBps para lectura y escritura secuenciales y cualquier cosa, desde 3 MBps a 50 Mbps para lectura y escritura aleatorias. Los SSD suelen estar en el rango de 200 MBps para operaciones secuenciales y generalmente un poco menos para operaciones aleatorias. FusionIO puede alcanzar fácilmente 1GBps para todos, pero generalmente es pequeño y costoso.

Como puede ver, no hay un promedio real, si desea recomendaciones sobre qué comprar, no dude en volvernos con toda la información que pueda ; esto debe incluir presupuesto, tipo de aplicación, tamaño del conjunto de datos, base de usuarios , hardware / OS más cualquier otra cosa que creas que sería útil

En cuanto a su copia de 1.5TB, bueno, si estuviera haciendo esto en un disco SATA de 7200rpm conectado a 2 USB, debería obtener al menos 30MBps-40MBps o más, el 1.5TB completo podría tomar más de 10 horas más o menos. Si este fuera un típico sistema DAS / SAN profesional, esperaría en la región de 100 MBps, lo que significa que tomaría alrededor de 3 horas.

Espero que esto ayude, ah y solo para aclarar, MB = megabytes, Mb es megabits.

Chopper3
fuente
8

Hay muchas, muchas variables involucradas en este tipo de cálculos. Los sistemas de disco del mundo real tienen muchas interdependencias. Solo dentro de una sola computadora:

  • Velocidad nominal real del propio disco (generalmente las RPM, 5200, 7200, 10K, 15K)
  • El sistema de archivos en uso
  • Si un sistema RAID está o no en uso
    • Si es así, el rendimiento de la tarjeta RAID
    • El tipo de RAID
  • El sistema operativo en uso
  • Las operaciones de lectura y escritura tienen características de rendimiento completamente diferentes.
  • La relación lectura / escritura para operaciones
  • Para operaciones secuenciales, el factor de fragmentación del almacenamiento.

Como puede ver, la velocidad de un disco en sí es uno de los muchos factores. Es un factor grande, pero sigue siendo uno de muchos. Si esa copia de 1.5TB está en el mismo disco, entonces el disco (95% de probabilidad) realizará un rendimiento de lectura / escritura aleatorio del 100%, lo que generalmente genera las peores métricas de rendimiento. Si la copia es de un disco a otro, y los datos son 100% secuenciales y el disco de destino está completamente vacío, esto debería generar el rendimiento más rápido posible con este subsistema de disco. El rendimiento en el mundo real estará en algún punto entre estos dos extremos.

Si está copiando entre dos servidores separados, hay aún más factores involucrados.

Tengo una matriz de almacenamiento en el trabajo que puede saturar canales SAS de 3Gb (gigaBIT) cuando realizo operaciones en gran medida secuenciales. Si tuviera 6Gb SAS, probablemente también podría estar muy cerca de saturarlos. Para E / S aleatorias, este sistema en particular funciona de manera muy diferente en función del sistema operativo (OpenSolaris, por ejemplo, tuvo la peor E / S aleatoria y Linux XFS el mejor en un factor de 3).

Hay demasiadas variables para responder a estas preguntas definitivamente.

sysadmin1138
fuente
3

La duración de la copia de 1,5 TB de datos depende en gran medida del tipo de datos. Si tiene unos 1,500 archivos de 1GB, probablemente solo tomará unas pocas horas, pero si tiene mil millones y medio de archivos de 1KB, probablemente tomará días.

Esto se debe a dos especificaciones rivales en los discos: el rendimiento y el tiempo de acceso promedio. Un disco tradicional con un rendimiento de 100 MB / seg y un tiempo de acceso de 10 ms es bastante común. Si puede transmitir datos secuencialmente, puede obtener 100 MB / seg. Sin embargo, si necesita saltar a otro lugar, le llevará 10 ms. Si hubiera estado transmitiendo, podría haber escrito 1 MB de datos en el tiempo que lleva saltar a otra ubicación.

Crear un archivo puede tomar varias búsquedas, por lo que crear un archivo de 1 KB puede "costar" tanto como transmitir varios MB de datos.

Por lo tanto, en algunos casos es mejor hacer una copia de disco sin formato del dispositivo de bloque que copiar en el sistema de archivos a través de algo como rsync. Si tiene muchos archivos, en un sistema de archivos que, por ejemplo, está lleno al 50% o más, a menudo es mejor que simplemente copie el dispositivo de bloque completo a través de "dd", en la medida del tiempo que tome. Por supuesto, no puede hacer esto mientras el sistema de archivos está montado, por lo que también tiene inconvenientes.

Los SSD pueden ayudar a mitigar esto, porque sus tiempos de acceso son aproximadamente 100 veces más rápidos, pero los discos SSD MLC tienen problemas de acceso complicados dependiendo de la disponibilidad de un grupo de bloques previamente borrados. Los SSD SLC pueden ayudarlo.

Los controladores RAID con caché incorporada pueden ayudar con las búsquedas, al igual que algo como el módulo de kernel flashcache que le permite almacenar en caché un dispositivo de bloque a través de un SSD.

Los sistemas RAID pueden permitir múltiples búsquedas paralelas, reduciendo efectivamente el tiempo de acceso promedio y también la paralelización para aumentar el rendimiento. Pero su rendimiento general a menudo dependerá de cuántos archivos estén involucrados.

Sean Reifschneider
fuente