Nosotros (y quiero decir Jeff) estamos estudiando la posibilidad de utilizar discos SSD Consumer MLC en nuestro centro de datos de respaldo.
Queremos tratar de mantener bajos los costos y aumentar el espacio utilizable, por lo que los Intel X25-E están a un precio aproximado de 700 $ cada uno y 64 GB de capacidad.
Lo que estamos pensando hacer es comprar algunos de los SSD de gama baja que ofrecen más capacidad a un precio más bajo. Mi jefe no cree que valga la pena invertir unos 5k en discos en servidores que se están quedando sin el centro de datos de respaldo.
Estas unidades se utilizarían en una matriz RAID de 6 unidades en un Lenovo RD120. El controlador RAID es un Adaptec 8k (renombrado Lenovo).
¿Qué tan peligroso es este enfoque y qué se puede hacer para mitigar estos peligros?
Respuestas:
Algunos pensamientos;
Buena suerte, simplemente no los 'fríes' con escrituras :)
fuente
Encontré este enlace, que tiene un análisis interesante y completo de SSD MLC vs SLC en servidores
Tenga en cuenta que algunos proveedores de SSD MLC afirman que sus unidades son lo suficientemente "empresariales" para sobrevivir a las escrituras:
Hay más análisis de estas afirmaciones en AnandTech .
Además, ahora Intel ha quedado en el récord diciendo que SLC podría ser excesivo en los servidores el 90% del tiempo :
Intel, incluso para sus unidades SSD orientadas al servidor, ha migrado de SLC a MLC con un espacio de "sobreaprovisionamiento" muy alto con la nueva serie Intel SSD 710 . Estas unidades asignan hasta un 20% del almacenamiento total para redundancia internamente:
fuente
Siempre base este tipo de cosas en hechos en lugar de suposiciones. En este caso, recopilar datos es fácil: registre perfiles IOPS de lectura / escritura a largo plazo de sus sistemas de producción y luego descubra con qué puede vivir en un escenario de recuperación ante desastres. Debes usar algo como el percentil 99 como medida. No , no utilice promedios cuando se mide IOPS cpacity - los picos son todo lo que importa! Luego debe comprar la capacidad requerida y los IOPS según sea necesario para su sitio de recuperación ante desastres. Las SSD pueden ser la mejor manera de hacerlo, o tal vez no.
Entonces, por ejemplo, si sus aplicaciones de producción requieren 7500 IOPS en el percentil 99, puede decidir que puede vivir con 5000 IOPS en un desastre. Pero eso es al menos 25 discos de 15K requeridos allí mismo en su sitio de DR, por lo que SSD podría ser una mejor opción si sus necesidades de capacidad son pequeñas (parece que lo son). Pero si solo mide que hace 400 IOPS en producción, simplemente compre 6 unidades SATA, ahórrese algunas monedas y use el espacio extra para almacenar más instantáneas de respaldo en el sitio de DR. También puede separar las lecturas y escrituras en su recopilación de datos para determinar cuánto tiempo durarán los SSD no empresariales para su carga de trabajo en función de sus especificaciones.
Recuerde también que los sistemas DR pueden tener una memoria más pequeña que la producción, lo que significa que se necesitan más IOPS (más intercambio y menos caché del sistema de archivos).
fuente
Incluso si el SSD MLS solo duró un año, en un tiempo los reemplazos serán mucho más baratos. Entonces, ¿puede lidiar con tener que reemplazar el SSD MLS cuando están fuera?
fuente
Si dejamos de lado el problema de la cantidad de escritura (o probamos que los SSD de nivel de consumidor pueden manejarlo), creo que los SSD son algo bueno para agregar a los entornos de nivel empresarial. Probablemente usará los SSD en una matriz RAID. RAID5 o RAID6. Y el problema con esto es que después de una falla de una sola unidad, la matriz se vuelve cada vez más vulnerable a fallas. Y el tiempo para reconstruirlo depende en gran medida del volumen de la matriz. Una matriz de varios TB puede tardar días en reconstruirse, mientras se accede constantemente. En el caso de los SSD, las matrices RAID serán a) inevitablemente más pequeñas b) el tiempo de reconstrucción disminuye drásticamente.
fuente
Un Whitepaper sobre las diferencias entre SLC y MLC de SuperTalent pone la resistencia de MLC y una décima parte de la resistencia de un SSD SLC, pero lo más probable es que los SSD de MLS sobrevivan al hardware en el que los está poniendo de todos modos. Sin embargo, no estoy seguro de cuán confiables son esas estadísticas / hechos de SuperTalent.
Suponiendo que obtenga un nivel similar de soporte del proveedor de los SSD MLC, entonces el precio más bajo hace que valga la pena intentarlo.
fuente
Simplemente debe calcular la cantidad de escrituras diarias que tiene con su configuración actual y compararla con lo que el fabricante garantiza que sus unidades SSD pueden soportar. Intel parece ser el más adelantado en esto: por ejemplo, eche un vistazo a sus hojas de datos de unidades SSD principales: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm
La Sección 3.5 (3.5.4, específicamente) del documento de especificaciones dice que está garantizado que su disco dure al menos 5 años con 20 GB de escrituras por día. Supongo que eso se calcula al usar toda la capacidad de la unidad y no aprovisionar espacio libre para las escrituras usted mismo.
También es interesante la hoja de datos sobre el uso de SSD convencionales en un entorno empresarial.
fuente
Implementé un par de unidades SLC de 32 gb hace un par de años como un búfer para alguna aplicación horriblemente mal diseñada que estábamos usando.
La aplicación tenía 90% de escrituras pequeñas (<4k) y se ejecutaba de manera consistente (24/7) a 14k w / s una vez en las unidades SSD. Se configuraron RAID 1, todo era color de rosa, la latencia era baja.
Sin embargo, aproximadamente un mes después y la primera unidad se empacó, literalmente en 3 horas, la segunda unidad también había muerto. RAID 1 no es un buen plan después de todo :)
Estoy de acuerdo con los otros carteles en algún tipo de RAID 6 si nada más difunde esas escrituras en más unidades.
Ahora tenga en cuenta que esto fue hace un par de años y estas cosas son mucho más confiables ahora y es posible que no tenga un perfil de E / S similar.
La aplicación ha sido rediseñada, sin embargo, como un espacio intermedio que puede o no ayudarlo, creamos un gran disco ram, creamos algunos scripts para reconstruir / respaldar el disco ram y tomar el golpe de aproximadamente una hora de pérdida de datos /tiempo de recuperación.
Nuevamente, su ciclo de vida de sus datos puede ser diferente.
fuente