¿Es seguro usar SSD MLC de consumidor en un servidor?

44

Nosotros (y quiero decir Jeff) estamos estudiando la posibilidad de utilizar discos SSD Consumer MLC en nuestro centro de datos de respaldo.

Queremos tratar de mantener bajos los costos y aumentar el espacio utilizable, por lo que los Intel X25-E están a un precio aproximado de 700 $ cada uno y 64 GB de capacidad.

Lo que estamos pensando hacer es comprar algunos de los SSD de gama baja que ofrecen más capacidad a un precio más bajo. Mi jefe no cree que valga la pena invertir unos 5k en discos en servidores que se están quedando sin el centro de datos de respaldo.

Estas unidades se utilizarían en una matriz RAID de 6 unidades en un Lenovo RD120. El controlador RAID es un Adaptec 8k (renombrado Lenovo).

¿Qué tan peligroso es este enfoque y qué se puede hacer para mitigar estos peligros?

Zypher
fuente
44
¿Cuál es la razón para usar SSD en lugar de hiladores? La sabiduría popular sobre el rendimiento de SSD es "pagar o no molestar", pero ciertamente hay otros aspectos que podrían ser una ventaja.
peterchen 02 de
Tengo curiosidad sobre el problema que estás tratando de resolver aquí. Si es simplemente uno de los costos, ¿por qué se consideran las SSD en lugar de las unidades convencionales?
John Gardeniers
@peterchen, puede usar un par de SSD o cincuenta husillos de 15K.
Mircea Chirea
@iconiK: ¿quiere decir "para un servidor, de todos modos necesita gastar mucho dinero"? Si es así, sí, por eso también me preguntaba.
peterchen

Respuestas:

61

Algunos pensamientos;

  • Los SSD tienen memoria de "sobrecompromiso". Esta es la memoria utilizada en lugar de las células 'dañadas' al escribir. Los SSD de gama baja solo pueden tener un 7% de espacio de sobrecompromiso; rango medio alrededor del 28%; y discos empresariales de hasta el 400%. Considera este factor.
  • ¿Cuánto les escribirás por día? Incluso los SSD de rango medio, como los basados ​​en los chips 1200 de Sandforce, rara vez aprecian más de alrededor de 35 GB de escrituras por día antes de cortar seriamente la memoria comprometida.
  • Por lo general, el día 1 de un nuevo SSD está lleno de escritura, ya sea sistema operativo o datos. Si tiene significativamente más de> 35 GB de escrituras en el primer día, considere copiarlo en lotes para darle al SSD un "tiempo de limpieza" entre lotes.
  • Sin la compatibilidad con TRIM, el rendimiento de escritura aleatoria puede disminuir hasta un 75% en semanas si hay mucha escritura durante ese período; si puede, use un sistema operativo que admita TRIM
  • Los procesos internos de recolección de basura que realizan los SSD modernos se realizan de manera muy específica durante los períodos de silencio, y se detiene en la actividad. Esto no es un problema para una PC de escritorio donde el disco podría estar en silencio el 60% de su ciclo de trabajo habitual de 8 horas, pero ejecuta un servicio de 24 horas ... ¿cuándo tendrá la oportunidad de ejecutarse este proceso?
  • Por lo general, está enterrado en las especificaciones, pero al igual que los discos `` regulares '' de cheapo, solo se espera que los SSD económicos tengan un ciclo de trabajo de alrededor del 30%. Los usará casi el 100% del tiempo; esto afectará su tasa de MTBF.
  • Si bien los SSD no sufren los mismos problemas mecánicos que los discos normales, sí tienen errores de uno o varios bits, por lo tanto, considere la posibilidad de RAID aunque no sea el instinto. Obviamente impactará en toda esa encantadora velocidad de escritura aleatoria que acaba de comprar, pero considérela de todos modos.
  • Todavía es SATA, no SAS, por lo que su gestión de colas no será tan buena en un entorno de servidor, pero, de nuevo, el aumento de rendimiento adicional será bastante dramático.

Buena suerte, simplemente no los 'fríes' con escrituras :)

Chopper3
fuente
2
¿Te refieres al 400% para el espacio extra, o al 40%? Iba a editar su respuesta, pero no pude encontrar una cita, así que supongo que podría ser del 400%. (Es un muy buen punto, por cierto)
ChrisInEdmonton
99
Tampoco siempre está claro si TRIM es compatible con una configuración RAID. Recuerde, los SSD se extraen del sistema operativo con RAID. Asegúrese de consultar con el proveedor de RAID.
Matt Sherman
55
Me refería a 400 Chris, específicamente los que se usan en FC SAN, aunque muy costoso, muy.
Chopper3
55
Un truco para obtener más espacio de reserva de una unidad es hacer el borrado seguro, luego particionarlo con una gran fracción sin usar. Este espacio libre aumentará el rendimiento y la vida útil del SSD.
Zan Lynx
1
Solo quiero hacer +1 con @ZanLynx .. Por lo general, solo particiono alrededor del 80% de la unidad cuando estoy usando SSD + Raid.
Rastreador1
12

Encontré este enlace, que tiene un análisis interesante y completo de SSD MLC vs SLC en servidores

Desde mi punto de vista, usar una matriz SSD flash MLC para una aplicación empresarial sin al menos usar los efectos atenuantes de desgaste de una tecnología como la MFT de Easyco es como saltar de un avión sin paracaídas.

Tenga en cuenta que algunos proveedores de SSD MLC afirman que sus unidades son lo suficientemente "empresariales" para sobrevivir a las escrituras:

SandForce pretende ser la primera compañía con un controlador que admita chips flash de celdas de varios niveles para unidades de estado sólido utilizadas en servidores. Mediante el uso de chips MLC, el SF-1500 allana el camino para reducir el costo y los discos de mayor densidad que desean los fabricantes de servidores. Hasta la fecha, las unidades flash para servidores han utilizado chips flash de celda de un solo nivel. Esto se debe a que la resistencia y la confiabilidad de los chips MLC generalmente no han estado a la altura de los requisitos de los servidores.

Hay más análisis de estas afirmaciones en AnandTech .

Además, ahora Intel ha quedado en el récord diciendo que SLC podría ser excesivo en los servidores el 90% del tiempo :

"Creíamos que se requería SLC [celda de un solo nivel], pero lo que descubrimos a través de estudios con Microsoft e incluso Seagate es que estas aplicaciones de alto consumo de cómputo realmente no escriben tanto como pensaban", dijo Winslow. "El noventa por ciento de las aplicaciones del centro de datos pueden utilizar esta unidad MLC [celda multinivel]".

.. durante el último año, los proveedores han llegado a reconocer que al usar un software especial en los controladores de disco, pueden aumentar la confiabilidad y la resistencia de sus SSD MLC de clase de consumidor hasta el punto en que las empresas los han adoptado por servidores de centros de datos de alto rendimiento y matrices de almacenamiento. Los proveedores de SSD han comenzado a usar el término flash NAND eMLC (Enterprise MLC) para describir esos SSD.

"Desde una perspectiva de volumen, vemos que hay entornos informáticos de alto rendimiento de escritura intensiva que aún pueden necesitar SLC, pero eso está en el 10% superior incluso de los requisitos del centro de datos empresarial", dijo Winslow.

Intel alimenta a ese 10% superior del mercado de centros de datos empresariales a través de su empresa conjunta con Hitachi Global Storage Technologies. Hitachi está produciendo la línea SSD400S de SSD SCSI conectados en serie, que tiene 6 Gbit / seg. rendimiento: el doble que el de sus SSD SATA basados ​​en MLC.

Intel, incluso para sus unidades SSD orientadas al servidor, ha migrado de SLC a MLC con un espacio de "sobreaprovisionamiento" muy alto con la nueva serie Intel SSD 710 . Estas unidades asignan hasta un 20% del almacenamiento total para redundancia internamente:

El rendimiento no es la máxima prioridad para el SSD 710. En cambio, Intel tiene como objetivo proporcionar resistencia de nivel SLC a un precio razonable mediante el uso de eMLC HET NAND más barato. El SSD 710 también admite el sobreaprovisionamiento configurable por el usuario (20%), lo que aumenta significativamente la resistencia del disco. La garantía del SSD 710 es de 3 años o hasta que un indicador de desgaste alcance un cierto nivel, lo que ocurra primero. Esta es la primera vez que vemos la garantía SSD limitada de esta manera.

Jeff Atwood
fuente
7

Siempre base este tipo de cosas en hechos en lugar de suposiciones. En este caso, recopilar datos es fácil: registre perfiles IOPS de lectura / escritura a largo plazo de sus sistemas de producción y luego descubra con qué puede vivir en un escenario de recuperación ante desastres. Debes usar algo como el percentil 99 como medida. No , no utilice promedios cuando se mide IOPS cpacity - los picos son todo lo que importa! Luego debe comprar la capacidad requerida y los IOPS según sea necesario para su sitio de recuperación ante desastres. Las SSD pueden ser la mejor manera de hacerlo, o tal vez no.

Entonces, por ejemplo, si sus aplicaciones de producción requieren 7500 IOPS en el percentil 99, puede decidir que puede vivir con 5000 IOPS en un desastre. Pero eso es al menos 25 discos de 15K requeridos allí mismo en su sitio de DR, por lo que SSD podría ser una mejor opción si sus necesidades de capacidad son pequeñas (parece que lo son). Pero si solo mide que hace 400 IOPS en producción, simplemente compre 6 unidades SATA, ahórrese algunas monedas y use el espacio extra para almacenar más instantáneas de respaldo en el sitio de DR. También puede separar las lecturas y escrituras en su recopilación de datos para determinar cuánto tiempo durarán los SSD no empresariales para su carga de trabajo en función de sus especificaciones.

Recuerde también que los sistemas DR pueden tener una memoria más pequeña que la producción, lo que significa que se necesitan más IOPS (más intercambio y menos caché del sistema de archivos).

rmalayter
fuente
5

Incluso si el SSD MLS solo duró un año, en un tiempo los reemplazos serán mucho más baratos. Entonces, ¿puede lidiar con tener que reemplazar el SSD MLS cuando están fuera?

Ian Ringrose
fuente
un buen punto, particularmente porque estarán en una matriz RAID ... siempre y cuando "demasiados" de ellos no fallen a la vez, esto es realmente plausible.
Jeff Atwood
@Jeff, si puedes cambiar algo de entrada y salida con tus PC de escritorio, de modo que no todos obtengan un poco de uso, esto hará que sea menos fácil que todos fallen al mismo tiempo.
Ian Ringrose
@Jeff, creo que en gran medida, Fail == "comenzar a hacer derechos muy lentos" en lugar de "no leer datos"
Ian Ringrose
no te encanta la corrección automática :-)
Jeroen Wiert Pluimers
3

Si dejamos de lado el problema de la cantidad de escritura (o probamos que los SSD de nivel de consumidor pueden manejarlo), creo que los SSD son algo bueno para agregar a los entornos de nivel empresarial. Probablemente usará los SSD en una matriz RAID. RAID5 o RAID6. Y el problema con esto es que después de una falla de una sola unidad, la matriz se vuelve cada vez más vulnerable a fallas. Y el tiempo para reconstruirlo depende en gran medida del volumen de la matriz. Una matriz de varios TB puede tardar días en reconstruirse, mientras se accede constantemente. En el caso de los SSD, las matrices RAID serán a) inevitablemente más pequeñas b) el tiempo de reconstrucción disminuye drásticamente.

Vlad
fuente
3

Un Whitepaper sobre las diferencias entre SLC y MLC de SuperTalent pone la resistencia de MLC y una décima parte de la resistencia de un SSD SLC, pero lo más probable es que los SSD de MLS sobrevivan al hardware en el que los está poniendo de todos modos. Sin embargo, no estoy seguro de cuán confiables son esas estadísticas / hechos de SuperTalent.

Suponiendo que obtenga un nivel similar de soporte del proveedor de los SSD MLC, entonces el precio más bajo hace que valga la pena intentarlo.

chunkyb2002
fuente
1
Se han mencionado vidas de 5 años para el uso típico de escritorio. Si esa es una estimación precisa, ¡no van a sobrevivir al servidor en un entorno de centro de datos!
JamesRyan 01 de
@JamesRyan: aunque no se muestra en la mayoría de los cálculos, la vida útil depende mucho de la fracción de espacio libre.
Ben Voigt
1
En las organizaciones para las que he trabajado, siempre hemos puesto la actualización del hardware del servidor a los 3 años. Tenía la impresión de que, en general, era la mejor práctica aceptada, pero corríjame si me equivoco.
chunkyb2002
3

Simplemente debe calcular la cantidad de escrituras diarias que tiene con su configuración actual y compararla con lo que el fabricante garantiza que sus unidades SSD pueden soportar. Intel parece ser el más adelantado en esto: por ejemplo, eche un vistazo a sus hojas de datos de unidades SSD principales: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

La Sección 3.5 (3.5.4, específicamente) del documento de especificaciones dice que está garantizado que su disco dure al menos 5 años con 20 GB de escrituras por día. Supongo que eso se calcula al usar toda la capacidad de la unidad y no aprovisionar espacio libre para las escrituras usted mismo.

También es interesante la hoja de datos sobre el uso de SSD convencionales en un entorno empresarial.

cearny
fuente
Desafortunadamente, no es tan simple porque la nivelación del desgaste amplifica las escrituras (recuerde que está diseñado para difundir las escrituras, no las reduce) de una manera que es patentada y puede variar enormemente en su efectividad según el patrón de uso.
JamesRyan
Hm, muy buen punto. Además, perder el comando TRIM si usa las unidades en una configuración RAID también debería aumentar la amplificación de escritura. Supongo que todo se reduce a la idea de cada fabricante del patrón de uso típico.
cearny
2

Implementé un par de unidades SLC de 32 gb hace un par de años como un búfer para alguna aplicación horriblemente mal diseñada que estábamos usando.

La aplicación tenía 90% de escrituras pequeñas (<4k) y se ejecutaba de manera consistente (24/7) a 14k w / s una vez en las unidades SSD. Se configuraron RAID 1, todo era color de rosa, la latencia era baja.

Sin embargo, aproximadamente un mes después y la primera unidad se empacó, literalmente en 3 horas, la segunda unidad también había muerto. RAID 1 no es un buen plan después de todo :)

Estoy de acuerdo con los otros carteles en algún tipo de RAID 6 si nada más difunde esas escrituras en más unidades.

Ahora tenga en cuenta que esto fue hace un par de años y estas cosas son mucho más confiables ahora y es posible que no tenga un perfil de E / S similar.

La aplicación ha sido rediseñada, sin embargo, como un espacio intermedio que puede o no ayudarlo, creamos un gran disco ram, creamos algunos scripts para reconstruir / respaldar el disco ram y tomar el golpe de aproximadamente una hora de pérdida de datos /tiempo de recuperación.

Nuevamente, su ciclo de vida de sus datos puede ser diferente.

sysboy
fuente