¿Cuál es el estado actual (2016) de los SSD en RAID?

51

Hay muchos recursos disponibles en línea que analizan el uso de unidades SSD en configuraciones RAID; sin embargo, estos datan de hace unos años, y el ecosistema SSD se mueve muy rápido, justo como esperamos el lanzamiento del producto "Optane" de Intel a finales de este año. que cambiará todo ... otra vez.

Prefacio a mi pregunta afirmando que hay una diferencia cualitativa entre los SSD de grado de consumidor (por ejemplo, Intel 535) y los SSD de grado de centro de datos (por ejemplo, Intel DC S3700).

Mi principal preocupación se relaciona con el TRIMsoporte en escenarios RAID. A mi entender, a pesar de que han pasado más de 6 años desde que se introdujeron los SSD en las computadoras de nivel de consumidor y 4 años desde que NVMe estaba disponible comercialmente, los controladores RAID modernos todavía no admiten la emisión de TRIMcomandos a los SSD adjuntos, con la excepción de los controladores RAID de Intel en modo RAID-0.

Me sorprende que el TRIMsoporte no esté presente en el modo RAID-1, dada la forma en que las unidades se duplican entre sí, parece sencillo. Pero yo divago.

Observo que si desea tolerancia a fallas con los discos (tanto HDD como SSD), los usaría en una configuración RAID, pero como los SSD estarían sin TRIM significa que sufrirían amplificación de escritura, lo que resulta en un desgaste adicional, lo que a su vez, causaría que los SSD fallaran prematuramente; esta es una ironía desafortunada: un sistema diseñado para proteger contra fallas en la unidad podría terminar directamente resultando en esto.

Entonces:

  1. ¿Es TRIMnecesario el soporte para los SSD modernos (era 2015-2016)?

    1.1. ¿Hay alguna diferencia en la necesidad de TRIMsoporte entre SSD SATA, SATA-Express y NVMe?

  2. A menudo, las unidades se anuncian como mejoradas de recolección de basura incorporada; ¿Eso obvia la necesidad de TRIM? ¿Cómo funciona su proceso de GC en entornos RAID?

    1.1. Por ejemplo, vea este QA de 2010 que describe una degradación del rendimiento bastante mala debido a la no-TRIMming ( https://superuser.com/questions/188985/how-badly-do-ssds-degrade-without-trim ) - y esto El artículo de 2015 expone que se recomienda utilizar TRIM ( http://arstechnica.com/gadgets/2015/04/ask-ars-my-ssd-does-garbage-collection-so-i-dont-need-trim -derecho / ). ¿Cuál es su respuesta a estos fuertes argumentos por la necesidad de TRIM?

  3. Una gran cantidad de artículos y debates de años anteriores se refieren a SLC vs MLC flash y que SLC es preferible, debido a su vida útil mucho más larga, sin embargo, parece que todos los SSD de hoy (independientemente de dónde se sientan en el espectro de consumidor a empresa) son MLC en la actualidad, ¿es esta distinción de relevancia ya?

    1.1 ¿Y qué hay del flash TLC?

  4. Los SSD empresariales tienden a tener límites de resistencia / escritura mucho más altos (a menudo medidos en cuántas veces puede sobrescribir completamente la unidad en un día, durante la vida útil esperada de 5 años de una unidad), si su límite de ciclo de escritura es muy alto (p. Ej. 100 escrituras completas por día) ¿significa esto que no las necesitan TRIMen absoluto porque esos límites son muy altos o, al contrario, esos límites solo se pueden lograr con el uso TRIM?

Dai
fuente
66
Si bien no puedo responder a su pregunta, creo que debería considerarse a la luz del hecho de que nuestra industria está haciendo todo lo posible para eliminar el RAID patentado, todos los proveedores de nube pública ahora usan SSD en servicios de cómputo y almacenamiento, seguramente lo resolvieron. con software, codificación de borrado, etc. Las innovaciones de computación en la nube han expuesto cosas como RAID de hardware, Cisco IOS y redes de área de almacenamiento patentadas como productos sin sentido que fermentan en la parte superior de la cadena alimentaria y en realidad obstaculizan la innovación. el RAID de hardware no se puede vender a escala (a AWS, Azure, CERN) así que ...
Sum1sAdmin
@ Sum1sAdmin , todos los proveedores de la nube pública usan SSD ahora en servicios de cómputo y almacenamiento ¿Está diciendo que AWS o BlackBlaze almacenan datos solo en SSD?
AL
@AL bueno no, solo estoy señalando que la oferta SSD para el almacenamiento de bloque, archivo, objeto y efímero
Sum1sAdmin
Estoy completamente en desacuerdo con la "diferencia cualitativa" entre comercial y consumidor. Les puedo asegurar que no hay diferencia en la fabricación de NAND. Ciertamente hay diferentes fabricantes (Samsung vs Intel) pero ninguno tiene un proceso especial de fabricación para el consumidor. Ciertamente hay diferencias de características, pero no diferencias de calidad.
Jim B
Hablando de Optane, estamos casi a mitad de 2016 y no está a la vista ... ¿Alguien sabe cuál es el trato?
Jeff Meden

Respuestas:

24

Intentemos responder una pregunta a la vez:

  • ¿Es necesario el soporte TRIM para los SSD modernos (era 2015-2016)?

Respuesta corta: en la mayoría de los casos, no. Respuesta larga: si reserva suficiente espacio libre (~ 20%), incluso la unidad de nivel de consumidor generalmente tiene valores de consistencia de rendimiento bastante buenos (pero debe evitar las unidades que, en cambio, se ahogan en escrituras sostenidas). Las unidades de nivel empresarial son aún mejores, tanto porque tienen mayor espacio libre de forma predeterminada como porque su combinación de controlador / firmware está optimizada para el uso continuo de la unidad. Por ejemplo, eche un vistazo a la unidad S3700 a la que hizo referencia: incluso sin recortar, tiene muy buena consistencia de escritura.

  • A menudo, las unidades se anuncian como una mejor recogida de basura incorporada, ¿eso elimina la necesidad de TRIM? ¿Cómo funciona su proceso GC en entornos RAID?

El recolector de basura de la unidad hace su magia dentro de la caja de arena de la unidad: no sabe nada sobre el entorno exterior. Esto significa que (en su mayoría) no se ve afectado por el nivel RAID de la matriz. Dicho esto, algunos niveles de RAID (el basado en la paridad, básicamente) a veces (y en alguna implementación específica) pueden aumentar el factor de amplificación de escritura, por lo que esto a su vez significa un mayor trabajo para las rutinas de GC.

  • Muchos artículos y debates de años anteriores se refieren a SLC vs MLC flash y que SLC es preferible, debido a su vida útil mucho más larga, sin embargo, parece que todos los SSD (independientemente de dónde se sientan en el espectro del consumidor a la empresa) son MLC en la actualidad ¿Es esta distinción de relevancia más

Las unidades SLC básicamente han desaparecido de la empresa, relegadas principalmente a tareas militares y algunas tareas industriales. La empresa marcada ahora se divide en tres grados:

  • HMLC / MLCe flash es el que tiene los mejores chips MLC agrupados y está certificado para soportar al menos 25000/30000 ciclos de reescritura;
  • Los chips 3D MLC tienen una clasificación de aproximadamente 5000-10000 ciclos de reescritura;
  • Los chips MLC planar y 3D TLC normales tienen una clasificación de aproximadamente 3000 ciclos de reescritura.

En realidad, cualquiera de los tipos de flash anteriores debería proporcionarle una gran capacidad de escritura total y, de hecho, puede encontrar unidades empresariales con todos los tipos de flash anteriores.

La diferenciación real entre las unidades empresariales y de consumo son:

  • el combo controlador / firmware, con unidades empresariales mucho más difíciles de morir debido a un error inesperado del controlador;
  • la memoria caché de escritura protegida por energía, extremadamente importante para evitar daños en la capa de traducción Flash (FTL), que se almacena en la propia memoria flash.

Los controladores de grado empresarial son mejores principalmente debido a sus controladores y condensadores de potencia, en lugar de debido a un mejor flash.

  • Los SSD empresariales tienden a tener límites de resistencia / escritura mucho más altos (a menudo medidos en cuántas veces puede sobrescribir completamente el disco en un día, durante la vida útil esperada de 5 años del disco), ¿esto evita cualquier preocupación sobre la amplificación de escritura causada por no ejecuta TRIM?

Como se indicó anteriormente, las unidades de grado empresarial tienen un espacio libre predeterminado mucho mayor (~ 20%) que, a su vez, reduce drásticamente la necesidad de TRIM regulares

De todos modos, como nota al margen, considere algunos RAID de software que admiten TRIM (¿alguien dijo Linux MDRAID? )

shodanshok
fuente
¿Solo 35000 ciclos de escritura? Eso no suena como muchos. Supongo que tiene sentido si los reemplazos de unidades aumentados son más baratos que comprar la misma capacidad en SLC.
user253751
~ 30000 ciclos mínimos de reescritura garantizados no son nada malo: con la mayor capacidad que brinda el conmutador a NAND de 2 bits por celda, las unidades MLC son mucho más baratas que las SLC y mantienen una calificación de resistencia similar. Además, los días en que las células SLC de clase de 50 nm se clasificaron en> 100000 ciclos de reescritura probablemente hayan desaparecido: incluso las unidades empresariales tienen flash de clase 34 / 25nm (o más pequeño), con una resistencia intrínsecamente menor (que también afectan a las unidades SLC).
shodanshok
@shodanshok Su conclusión es "Utilice SSD de grado empresarial (SAS) conectados a un controlador RAID normal y no se preocupe por eso", ¿y que no veré un impacto en el rendimiento en los 5 años que se justifica un disco? ¿Y que los problemas de rendimiento documentados por otros usuarios solo afectan a las unidades de nivel de consumidor?
Dai
@Dai para unidades de "grado empresarial" No me refiero solo a los SSD SAS, sino que también los SSD SATA seleccionados pueden considerarse "de grado empresarial". Y sí, las unidades empresariales tienen una consistencia de rendimiento muy buena, incluso en estado estable (es decir, completamente lleno). Para ver un ejemplo de tales unidades, consulte aquí . Incluso algunas unidades de consumo, cuando se combinan con una sobreprovisión generosa, pueden ser bastante consistentes. Ver aquí para un ejemplo.
shodanshok
1
Binning es el proceso mediante el cual los chips de silicio se examinan y agrupan en función de su calidad. Por lo tanto, los chips MAND NAND empresariales son básicamente los chips "mejor hechos" y mejor probados.
shodanshok
9

TRIM no es algo de lo que me preocupe cuando uso SSD en controladores RAID modernos. Los SSD han mejorado, las características del controlador RAID de hardware se han optimizado para estas cargas de trabajo y, por lo general, se implementan informes de resistencia.

TRIM es para unidades SATA de gama baja. Para los SSD SAS, tenemos un mapa SCSI, y quizás esa es la razón por la que no encuentro las necesidades de TRIM ...

Pero el otro comentarista es correcto. El almacenamiento definido por software (SDS) está cambiando la forma en que usamos SSD. En las soluciones SDS, los controladores RAID son irrelevantes. Y cosas como TRIM tienden a ser menos importantes porque los SSD están cumpliendo roles específicos. Pienso en la memoria caché de lectura de almacenamiento de Nimble o en ZFS L2ARC y ZIL ... Todos satisfacen necesidades específicas y el software está aprovechando los recursos de manera más inteligente.

ewwhite
fuente
3
UNMAP y TRIM hacen exactamente lo mismo.
Michael Hampton
2
Recortar / desasignar siempre es necesario; sin él, tendrías que confiar completamente en la recolección interna de basura
Jim B
La recolección interna de basura no sustituye a TRIM. No hay una función de firmware que pueda reemplazar lo que hace TRIM. Es un poco alarmante que muchas respuestas aquí no entiendan lo que realmente hace TRIM y por qué es necesario. Consulte artículos como este arstechnica.com/gadgets/2015/04/…
Shiv
1

Niveles RAID con SSD Una respuesta anterior sugiere que los niveles RAID con paridad, como RAID 5, aumentan la amplificación de escritura. Realmente hay más de una forma de interpretar eso: el impacto en una unidad o el impacto en el conjunto de unidades.

En comparación con la no redundancia, RAID 5 agrega escrituras al conjunto, ya que agrega paridad de suma de verificación. En comparación con una matriz RAID 0 de unidades (n-1), el impacto por unidad de la matriz RAID 5 con n unidades no es nada. Cada una de las n unidades recibe la misma cantidad de escrituras. RAID 5 agrega 1 / (n-1) escrituras adicionales al conjunto. RAID 1 y RAID 10, sin embargo, agregan 100% de escrituras adicionales al conjunto, porque todo lo escrito en un SSD se escribe en su espejo.

Por lo tanto, en términos de escritura en un conjunto RAID 5 frente a un conjunto RAID 10 con el mismo número de unidades, los SSD en el conjunto RAID 5 recibirán menos escrituras. Y eso se mantiene incluso si aumenta la cantidad de SSD en el conjunto RAID 10 para igualar la capacidad utilizable.

Keith J
fuente
0

Shodanshok tocó la respuesta real aquí. Si reserva espacio adicional, el "exceso de aprovisionamiento", la resistencia de su SSD y la coherencia del rendimiento de escritura mejorarán con el tiempo, y la falta de soporte TRIM se vuelve irrelevante. La reserva de ese espacio adicional se puede hacer tan simple como, comenzando con un nuevo SSD, dividiendo menos de la capacidad total. La mayoría de los controladores en el disco tratan el espacio nunca utilizado de la misma manera que el espacio reservado y, por lo tanto, reducen significativamente la amplificación de escritura. Para el arranque y el sistema operativo, el 10% de espacio reservado es probablemente suficiente. Para las unidades que se reescriben con frecuencia, aumente ese espacio.

Keith J
fuente