Problema
He leído muchas discusiones sobre el almacenamiento y sobre si las SSD o las HDD clásicas son mejores. Estoy bastante confundido Los discos duros todavía son bastante preferidos, pero ¿por qué?
¿Qué es mejor para el almacenamiento activo? Por ejemplo, para bases de datos, donde el disco está activo todo el tiempo?
Sobre SSD
Pros
- Ellos están callados.
- No es mecanico.
- Lo más rápido.
Contras.
- Más caro.
Pregunta.
- Cuando se usa el ciclo de vida de una celda de un SSD, ¿qué sucede entonces? ¿El disco se reduce solo por esta celda y funciona normalmente?
- ¿Cuál es el mejor sistema de archivos para escribir? ¿Es ext4 bueno porque guarda en las celdas consecutivamente?
Sobre HDD.
Pros
- Más barato
Contras.
- En caso de falla mecánica, creo que generalmente no hay forma de repararlo. (Por favor confirmar.)
- La más lenta, aunque creo que la velocidad del disco duro suele ser suficiente para los servidores.
¿Es solo por el precio? ¿Por qué se prefieren los discos duros? ¿Y los SSD son realmente útiles para los servidores?
hard-drive
storage
hardware
ssd
génerobee
fuente
fuente
Respuestas:
Un aspecto de mi trabajo es diseñar y construir sistemas de almacenamiento a gran escala (a menudo conocidos como "SAN" o "Redes de área de almacenamiento"). Por lo general, utilizamos un enfoque escalonado con SSD y HDD combinados.
Dicho esto, cada uno tiene beneficios específicos.
Los SSD casi siempre tienen un mayor costo por byte. Puedo obtener 10k SAS 4kn HDD con un costo por gigabyte de $ 0.068 / GB USD. Eso significa que por aproximadamente $ 280 puedo obtener una unidad de 4TB. Los SSD, por otro lado, generalmente tienen un costo por gigabyte en los 10 y 20 centavos de dólar, incluso tan alto como dólares por gigabyte.
Cuando se trata de RAID, la velocidad se vuelve menos importante y, en cambio, el tamaño y la confiabilidad son mucho más importantes. Puedo construir un sistema RAID N + 2 de 12TB con discos duros mucho más baratos que los SSD. Esto se debe principalmente al punto 1.
Cuando se trata adecuadamente, los discos duros son extremadamente baratos de reemplazar y mantener. Debido a que el costo por byte es más bajo, reemplazar un HDD por otro debido a una falla es más barato. Y, debido a que las fallas del HDD generalmente están relacionadas con el tiempo en comparación con la escritura de datos, su reemplazo no comienza automáticamente a usar TBW cuando reconstruye la matriz RAID. (Por supuesto, el porcentaje de TBW utilizado para una reconstrucción es pequeño en general, pero el punto se mantiene).
El mercado de SSD es relativamente complejo. Hay cuatro tipos principales de SSD (actuales, en el momento de este escrito), clasificados desde el mayor número de escrituras totales admitidas hasta el más bajo: SLC, MLC, TLC, QLC. El SLC generalmente admite el mayor número de escrituras totales (el principal factor limitante de la vida útil de SSD), mientras que el QLC generalmente admite el menor número de escrituras totales.
Dicho esto, los sistemas de almacenamiento más exitosos que he visto están en niveles con ambas unidades en uso. Personalmente, todos los sistemas de almacenamiento que recomiendo a los clientes generalmente siguen los siguientes niveles:
El rendimiento de lectura / escritura disminuye a medida que aumenta los niveles, los datos se propagarán a un nivel donde la mayoría de los datos comparten la misma frecuencia de acceso / modificación. (Es decir, cuanto más frecuentemente se lean / escriban los datos, mayor será el nivel en el que reside).
Espolvorea un canal de fibra bien diseñado allí, y en realidad puedes construir una SAN que tenga un rendimiento más alto que las unidades integradas .
Ahora, a algunos elementos específicos que mencionas:
Sus preguntas sobre SSD
Sus preguntas sobre el disco duro
fuente
¿Lo es? No estoy seguro de que sea honesto.
Los discos duros vienen en grandes tamaños a un precio decente en este momento, eso es innegable, y creo que la gente confía en ellos para una retención de datos más larga que los SSD también. Además, cuando los SSD mueren, tienden a morir por completo, todo de una vez, mientras que los HDD tienden a morir de una manera más predecible que tal vez les permita más tiempo para extraer los datos primero si es necesario.
Pero de lo contrario, SSD es el camino a seguir para la mayoría de los usos: desea un par de arranque, un par de SATA de 500 GB en R1 no le costará la tierra, para el uso de DB realmente no puede vencer a los SSD (siempre que sus registros estén encendidos modelos de alta resistencia de todos modos). Para las copias de seguridad, sí, puede usar grandes unidades de disco duro de 7.2k, lo mismo para conjuntos de datos muy grandes (de hecho, compré más de 4.000 unidades de disco duro de 10 TB a principios del año pasado por este requisito), pero de lo contrario, SSD es el camino a seguir.
fuente
Estado sólido para todo caliente: uso interactivo, bases de datos, cualquier cosa en línea. Los husillos como almacenamiento cálido barato, solo para archivos no bastante fríos o datos a los que se accede con poca frecuencia. En particular, los discos duros en un área de preparación antes de que las copias de seguridad se archiven en cinta.
Los diferentes tipos de medios para calor frente a frío también ayudan con cierta diversidad. Una falla de pérdida de datos en una marca de controlador SSD sería mucho peor si eliminara tanto los datos en línea como los de respaldo. Es poco probable, pero los husillos y la cinta son baratos de todos modos, ¿por qué correr el riesgo?
El modo de falla de cualquier dispositivo en particular no es importante, siempre y cuando los arreglos permanezcan redundantes y respaldados. Por lo general, el procedimiento consiste en reemplazar una unidad con cualquier síntoma de falla. Experimente reparándolos en sus sistemas de prueba, donde cualquier falla catastrófica no afecta los servicios de producción.
El sistema de archivos es una cuestión de preferencia personal. Si bien hay sistemas de archivos SSD optimizados, algo que usted sabe y puede reparar puede ser más importante.
fuente
La gran ventaja de un SSD es la velocidad y la fiabilidad, sin embargo, uno de los pequeños secretos sucios es el número limitado de ciclos de escritura que tiene un SSD. Si está creando un servidor que tiene mucha actividad de escritura en el disco duro, como una base de datos o un servidor de correo electrónico, necesitará un SSD más costoso que tenga una mayor resistencia.
NAND Flash tiene 3 tipos
TLC está diseñado principalmente para servidores web o servidores de archivo que tienen pequeños ciclos de escritura. MLC es para servidores que tienen una combinación de ciclos de lectura y escritura como servidores de bases de datos de bajo volumen. SLC está diseñado para servidores que tienen muchos ciclos de lectura / escritura como un servidor de base de datos de alto volumen.
El principal factor de conducción entre SSD y HDD es la aplicación y el presupuesto. En un mundo perfecto, los discos duros SSD SLC harían obsoleto un HDD estándar, pero todavía no hemos llegado.
fuente
Eso depende de con quién hable, sus antecedentes (administración, TI, ventas, etc.) y a qué tipo de servidor se refiere la discusión. Los discos duros son generalmente un orden de magnitud menos costoso por byte, pero usan más energía y casi siempre son más lentos, dependen de la carga de trabajo.
Casi siempre se reduce el costo y la cantidad de almacenamiento que se puede adaptar a una cantidad determinada de servidores. Si puede obtener el rendimiento de una matriz RAID de 5 discos con un solo SSD, el SSD probablemente sea mucho menos costoso y use una fracción de la potencia, pero también obtendrá quizás 1/10 del almacenamiento.
Aquí es donde se complica, y por qué muchas personas se saltearán la complicación y simplemente irán con los discos duros que conocen.
Los SSD vienen en diferentes grados con límites en la cantidad de datos que se pueden escribir en las celdas, que NO es lo mismo que la cantidad de datos escritos por el host. Escribir pequeñas cantidades de datos termina escribiendo grandes cantidades en las células, esto se llama amplificación de escritura y puede matar rápidamente unidades con clasificaciones de baja resistencia.
Las celdas SSD se nombran por la cantidad de bits que pueden almacenar, para almacenar n bits, necesitan 2 ^ n niveles de voltaje por celda. Un TLC (bit triple) necesita 8 niveles de voltaje para direccionar esos bits. En general, cada vez que aumenta el nivel de bits por celda, obtiene una caída de 3-10X en la durabilidad de la celda. Por ejemplo , una unidad SLC puede escribir todas las celdas 100000 veces antes de que las celdas mueran, Enterprise eMLC 30000 veces, MLC 10000, TLC 5000, QLC 1000.
También hay mejoras generacionales en la tecnología de celdas SSD, una mejor litografía y 3D NAND mejoran la densidad y el rendimiento en comparación con 2D NAND más antiguo, "El MLC de hoy es mejor que el SLC de ayer", según lo citado por el analista Jim Handy .
Los SSD en realidad no escriben directamente en las celdas direccionadas, escriben en bloques de celdas. De esta forma, el bloque tiene una cantidad más consistente de escrituras de celda, y cuando las celdas salen de la tolerancia, todo el bloque se marca como incorrecto y los datos se mueven a un nuevo bloque. La resistencia SSD se basa en el tipo de celda, cuántos bloques de repuesto están disponibles, cuánta sobrecarga para la corrección de errores y cómo la unidad utiliza el almacenamiento en caché y los algoritmos para reducir la amplificación de escritura. La tolerancia que el fabricante selecciona para marcar mal también entra en juego, una unidad empresarial marcará bloques defectuosos antes que una unidad de consumo, a pesar de que cualquiera de ellos sigue siendo completamente funcional.
Los SSD de "alta escritura" de grado empresarial se basan en celdas SLC o eMLC y tienen grandes cantidades de bloques de repuesto, y generalmente tienen un gran caché con condensadores para asegurarse de que el caché pueda descargarse en el disco cuando se pierde la energía.
También hay unidades con una resistencia mucho menor para aplicaciones de "alta lectura" como servidores de archivos que necesitan tiempos de acceso rápidos, cuestan menos por byte al precio de resistencia reducida, con diferentes tipos de células, menos área de reserva, etc. puede tener solo el 5% de la resistencia de una unidad de "alta escritura", pero tampoco la necesitan cuando se usa correctamente.
Mi base de datos es pequeña, con lecturas intermitentes que representan el 95% del acceso, y la mayor parte está en caché en RAM, es casi tan rápido en un HDD como en SSD. Si fuera más grande, no habría suficiente RAM en el sistema, y el SSD comienza a marcar una gran diferencia en los tiempos de acceso.
Las unidades SSD también hacen que las copias de seguridad y los pedidos de magnitud de recuperación sean más rápidos. Mi base de datos restaurada de la copia de seguridad en aproximadamente 10 minutos a una SSD lenta, o aproximadamente 11 segundos a una realmente rápida, la copia de seguridad en una HDD hubiera sido de aproximadamente 25 minutos. Eso es al menos 2 órdenes de magnitud, y eso puede hacer una gran diferencia dependiendo de la carga de trabajo. Literalmente puede pagarse el día 1.
Las bases de datos con grandes cantidades de pequeñas escrituras pueden asesinar una unidad TLC de grado de consumidor en cuestión de horas.
Absolutamente, si se selecciona el tipo de unidad y el grado correctos para la aplicación, si lo hace mal, puede ser un desastre.
Mi servidor ejecuta varias bases de datos, más almacenamiento en red de alta lectura, más almacenamiento de metraje de seguridad de alta escritura, más almacenamiento mixto de lectura y escritura de archivos y copia de seguridad del cliente. El servidor tiene un conjunto de discos duros RAID-6 para el almacenamiento en red masivo y NVR, un único SSD MLC de alto rendimiento para MySQL y 3 unidades TLC de consumo en RAID-5 para copias de seguridad de clientes y bases de datos y almacenamiento de red de acceso rápido.
La velocidad de escritura en el SSD RAID es aproximadamente la misma que la del HDD RAID, pero la velocidad de lectura de acceso aleatorio es más de 10 veces más rápida en el SSD RAID. Una vez más, este es un SSD TLC para el consumidor, pero dado que la velocidad de escritura secuencial es aproximadamente 3 veces más rápida que la LAN de gigabits, nunca se sobrecarga, y hay mucha sobrecarga si el sistema realiza copias de seguridad locales cuando se accede de forma remota.
La mayoría de los SSD también ofrecen borrado seguro instantáneo (ISE) , que puede borrar los datos en unos segundos, en comparación con muchas horas o días para los HDD que no tienen esa característica, solo unos pocos HDD de grado empresarial tienden a ofrecer ISE, pero se están convirtiendo más común. Esto es muy útil si está retirando o volviendo a utilizar un disco.
Depende del tipo de datos y los tipos de características del sistema de archivos que desee. Solo estoy usando EXT4 y BTRFS (necesito instantáneas y sumas de verificación). La sobrecarga del sistema de archivos disminuirá el espacio utilizable y puede reducir ligeramente la vida útil de los SSD, BTRFS tiene una sobrecarga alta para las sumas de verificación y otras características, y las instantáneas utilizarán mucho espacio.
Independientemente del tipo de unidad, ¿alguna vez ha tenido que realizar la recuperación de datos en una unidad muerta? Puede ser muy costoso , es mejor tener una copia de seguridad escalonada, RAID en el almacenamiento principal, copias de seguridad versionadas localmente en un dispositivo o máquina diferente, y luego sincronizarlas fuera del sitio o en la nube. 1 TB de almacenamiento en la nube es de $ 5 por mes, la recuperación de datos en un HDD puede costar 2 mil dólares, y un SSD muerto puede ser imposible de recuperar ... solo haga las copias de seguridad y olvide la reparación.
fuente
AMBOS.
Todavía tengo que ver morir un SSD debido a la carga de escritura (se supone que son de solo lectura en este caso). No es que no mueran por otros motivos, incluidos, entre otros, sobrecalentamiento y errores de firmware.
Y he visto un disco duro muerto. Muchos más de ellos, en realidad.
Mucho sobre la fiabilidad.
En algunos casos tiene sentido crear RAID1 mixto (HDD + SSD). De esta manera, puede cubrir los modos de falla relacionados con ambos y aún tener un rendimiento de lectura SSD.
En otros casos, tiene sentido usar un SSD solo para el diario del sistema de archivos: obtendrá el doble de rendimiento de escritura del HDD (porque ahorra la mitad de las escrituras y la mitad de las búsquedas) y generalmente no hay riesgo incluso si su SSD abusado muere Ext4 pierde su diario con bastante gracia.
fuente
data=ordered
. No "guarda la mitad de las escrituras" a menos que su carga de trabajo solo implique renombrar y eliminar archivos / directorios, y crear archivos vacíos. Pero sí, el diario en SSD debería cargar significativamente la mayoría de las cargas de trabajo al eliminar muchas escrituras pequeñas.Los dos factores principales a considerar son:
Los SSD expulsan los HDD del agua en términos de rendimiento. Si necesita un alto rendimiento y bajos tiempos de acceso, nada supera a los SSD .
Pero el costo por gigabyte de SSD es mucho más alto que el de HDD. Si necesita mucho almacenamiento y el rendimiento o los tiempos de acceso son menos importantes, nada supera a los discos duros.
Las cifras de rendimiento (ancho de banda) pueden ser ayudadas por el nivel RAID apropiado (sin embargo, no por los tiempos de acceso, a menos que sus unidades estén atrasados lo suficiente como para que las colas sean un problema).
Las cifras de tiempo de acceso de lectura para conjuntos de datos pequeños se pueden ayudar mediante el almacenamiento en caché adecuado (es decir, poner más RAM en su servidor). Sin embargo, no será útil para las escrituras (con la excepción de las memorias caché de RAM respaldadas por batería en controladores o discos).
Por lo tanto, todo realmente depende de su caso de uso. Un servidor de copia de seguridad / archivado que necesita mucha capacidad pero no se preocupa mucho por los tiempos de acceso o el ancho de banda estará mejor utilizando HDD. Un servidor de base de datos de alto tráfico preferirá SSD. En el medio ... depende.
Cualquiera sea la situación:
Necesitas copias de seguridad. No se trata de si una unidad (SSD o HDD) fallará, se trata de cuándo .
Si el servidor tiene algún tipo de importancia, desea algún tipo de RAID para mantener el tiempo de actividad y proteger los datos. RAID generalmente también ayudará con el rendimiento. Lo cual depende mucho de sus requisitos (nuevamente, un compromiso de rendimiento / costo).
fuente
Como ya se mencionó, la gran diferencia es el precio por GB frente al rendimiento aleatorio de IO.
Tome, por ejemplo, un Seagate Exos 16 TB: a ~ 550 $, tiene un comando de 0,034 $ / GB. Ahora compárelo con un Micron 5200 ECO 7.68 TB de nivel de entrada (en cuanto a velocidad) con un precio de ~ 1300 $, con una relación resultante de 0,14 $ / GB: el HDD es 5 veces más barato, pero también es 2 veces más grande. Por otro lado, el rendimiento de E / S aleatorio de SSD es mucho mejor, con un inconveniente : los SSD de consumidor, que carecen de caché de escritura protegida contra pérdida de potencia, son bastante lentos (a veces tan lentos como HDD) para una carga de trabajo rica en E / S aleatoria sincronizada (por ejemplo: bases de datos, máquinas virtuales ) Este es un punto muy importante, raramente analizado por las revisiones en línea. Los SSD empresariales, con condensadores de uso casi universal como protección de pérdida de potencia, no sufren esta debilidad, ya que tienen una IO aleatoria de lectura y escritura muy alta.
De lo anterior, puede comprender por qué SSD ha matado los discos SAS de gama alta de 15K y 10K: proporcionan un rendimiento mucho mejor a un costo comparable (los discos de 15K eran especialmente caros). Por otro lado, los 7.2K HDD tienen una posición muy sólida en los sistemas de almacenamiento de alta capacidad.
Intel Optane (que se basa en Xpoint en lugar de NAND) se encuentra en una clase propia tanto en velocidad como en durabilidad, con un precio muy alto / GB: un Optane P4801x de 100 GB cuesta más de 260 $, con un costo por GB de > 2.6 $, 80 veces más en comparación con los discos duros. Por esta razón, a menudo se usa como un "acelerador de aplicaciones" o como un dispositivo de registro / diario.
Por estas razones, las SAN y el servidor modernos a menudo usaban un subsistema de almacenamiento en niveles o en caché :
Los sistemas escalonados colocan datos activos en el nivel rápido (SSD) y datos fríos en el nivel lento (HDD). En tales sistemas, el espacio de almacenamiento total es la suma del nivel rápido y lento; sin embargo, tienen particiones estáticas: si los datos fríos se calientan repentinamente, debe esperar a que se muevan al nivel rápido. Además, el nivel rápido debe ser tan duradero como el lento;
el sistema basado en caché tiene todos los datos en HDD lento, aumentado con un caché dinámico en SSD donde los datos activos se copian (en lugar de mover); Esto significa que dichos sistemas tienen un espacio de almacenamiento total igual al que ofrece el nivel lento, pero con la flexibilidad adicional de un caché dinámico. Con los sistemas basados en caché, el nivel rápido puede estar formado por SSD económicos y baratos.
¿Cuál es el mejor sistema de archivos para un SSD basado en flash? Una respuesta ingenua puede ser "la que escribe menos", pero la realidad es que cualquier tecnología avanzada de sistemas de archivos se basa en un enfoque CoW que, basado en la implementación específica, puede conducir a una amplificación de escritura bastante sustancial (es decir: ZFS y WALF van a escribir más que, por ejemplo, EXT4 o XFS). Para un punto de vista puro "sin escritura", creo que es difícil vencer a EXT4 y XFS (especialmente cuando está respaldado por lvmthin , que permite instantáneas rápidas incluso en estos sistemas de archivos clásicos); sin embargo, realmente me gusta la garantía de protección de datos adicional y la compresión lz4 rallada por ZFS.
Entonces, ¿realmente necesita un almacenamiento SSD para sus tareas de servidor? Depende:
si necesita almacenar de forma económica múltiples TB de datos, el camino a seguir es HDD (o como mucho SSD de consumo barato);
Si tiene una carga de trabajo mayoritariamente secuencial (por ejemplo: servidor de archivos), no necesita SSD;
si su carga de trabajo es rica en IO aleatoria, se beneficiará enormemente de los SSD;
Si tiene un patrón de escritura pesado de fsync, las SSD empresariales (o un controlador RAID robusto con caché de escritura protegido por pérdida de potencia) son su mejor opción, con la desventaja de un alto costo.
fuente
Respuesta simple aquí: utilice SSD para obtener datos de rendimiento rápido, por ejemplo, al crear un servidor para realizar operaciones de datos grandes y rápidas (como la edición de video)
Use HHD para el almacenamiento lento de archivos.
En general, los HDD son menos confiables que los SSD a pesar de que tienen un costo por concierto más bajo que los SSD.
si se almacenan datos confidenciales, considere usar un ssd y también un disco duro para la copia de seguridad.
fuente
La tranquilidad no siempre es buena. Como los autos eléctricos en la carretera son demasiado silenciosos. Los ruidos de acceso al HDD pueden proporcionar seguridad (cómo detecté una interrupción en un servidor de trabajo mientras miraba una película. (Además: las impresoras de alimentación de línea vinculadas a / var / log / messages son más difíciles de borrar una sola entrada)
fuente
Lo veo así
¿Para qué servicio estoy construyendo el servidor?
Si es un servicio de infraestructura como LDAP / AUTH / Printing, etc., por el que ofrece un servicio, es principalmente un problema de memoria, ahorre dinero y use HDD (7.2k o 10k, tal vez un dispositivo de arranque SSD raid 1) y arroje una carga de memoria. .
Asegúrese de usar un controlador de incursión flash respaldado por batería para el servidor de archivos, luego puede usar HDD de manera eficiente si el controlador confirma la escritura y no los discos.
Si se trata de una base de datos de servicio de datos, etc., entonces use RAID SSD para un alto rendimiento pero controle los costos utilizando HDD también, algunas bases de datos, por ejemplo, no requerirán una alta velocidad de escritura o no solo ejecutarán los IOP para garantizar el uso de almacenamiento de alto costo.
Al final del día, todo se reduce a dinero y a su director financiero / director financiero / vicepresidente financiero.
fuente
Los SSD son claramente los mejores, mejorarán y seguirán siendo más baratos, pero hoy son más caros.
Los discos duros están bien para tareas de almacenamiento secuencial:
Los discos duros también están bien para tareas insensibles a la latencia:
Entonces, para un servidor, si tiene el presupuesto, puede llenarlo con SSD. Más allá de eso, utilizando la lista incompleta anterior, puede ahorrar dinero al mezclar con discos duros.
RAID, y los niveles están más allá del alcance de esta pregunta, estoy seguro de que hay muchas otras preguntas al respecto.
En cuanto al ciclo de vida de los SSD, (recuerdo haber leído el Samsung Evo Pro (producto de consumo) ha durado mucho más de lo prometido). Las celdas individuales ciertamente pueden romperse con el tiempo, pero eso no rompe todo el disco. La vida útil de la celda está vinculada a la cantidad de escrituras. en esa celda El controlador SSD difunde las escrituras en varias celdas a lo largo del tiempo. Si el SSD está lleno al 99% y el espacio restante se usa con muchas escrituras, ese espacio restante se agotará más rápido.
fuente
Si hay una necesidad de
entonces HDD es más confiable
La sobrescritura parece ser más lenta en SSD
¡Sin embargo, el SSD es increíble!
marcó la revolución del almacenamiento físico de exabytes / yotabytes en un pequeño armario / estante
Se puede instalar un enfriador de nitrógeno grande y un espacio pequeño puede servir un estante de almacenamiento puro
SSD Cache es otra sorprendente tecnología de lectura más rápida que permite el almacenamiento en caché a otro nivel
fuente