¿Las unidades SSD son tan confiables como las unidades mecánicas (2013)?

162

Las unidades SSD existen desde hace varios años. Pero el problema de la confiabilidad aún surge.

Supongo que este es un seguimiento de esta pregunta publicada hace 4 años y actualizada por última vez en 2011. Ahora es 2013, ¿ha cambiado mucho? Supongo que estoy buscando alguna evidencia real, más que solo una intuición. Quizás los estés usando en tu DC. ¿Cuál ha sido tu experiencia?

Fiabilidad de las unidades ssd


ACTUALIZAR:

Ahora es 2016. Creo que la respuesta es probablemente sí (lástima que todavía cuesten más por GB).

Este informe da alguna evidencia:

Fiabilidad instantánea en la producción: lo esperado y lo inesperado

Y algunos datos interesantes sobre unidades mecánicas (de consumo):

Backblaze: datos y estadísticas del disco duro

Mate
fuente
2
¿Por qué dices que aún surge el problema de la confiabilidad?
ewwhite
66
El SSD de la computadora portátil de mi esposa deja de funcionar cada pocos meses y requiere una extraña solución de "encendido pero no intente arrancar durante veinte minutos". Entonces está bien de nuevo. Nueva tecnología, nuevas formas de fallar.
Jaydee
3
Solo un solo punto de datos, me temo: obtuve una MacBook Retina Pro en septiembre del año pasado y tuve una falla de SSD en la terminal dentro de los 60 días. La unidad de reemplazo ha estado bien, pero ahora soy muy cautelosa simplemente porque el reemplazo / actualizaciones de estos por parte del usuario realmente no es una opción.
Roddy
27
No quieres una unidad confiable de todos modos. Si falla a las 2 p.m. todos los días, podrá confiar en él para configurar su reloj. Lo que quieres es un disco resistente.
Alan B
3
Los SSD han existido por mucho más tiempo que "varios años". Más como 40, en realidad, e incluso si te refieres a SSD basados ​​en Flash, estamos hablando de casi 20 años.
alastair

Respuestas:

175

Esta será una función de su carga de trabajo y la clase de unidad que compre ...

En las implementaciones de mi servidor, no he tenido una falla SSD especificada correctamente. Eso es en muchos tipos diferentes de unidades, aplicaciones y cargas de trabajo.

¡Recuerde, no todos los SSD son iguales!

Entonces, ¿qué significa "correctamente especificada" ?

Si su pregunta es sobre el uso de SSD en aplicaciones empresariales y de servidor, ha cambiado bastante en los últimos años desde la pregunta original . Aquí hay algunas cosas para considerar:

  • Identifique su caso de uso: hay unidades de consumo, unidades empresariales e incluso SSD de aplicaciones industriales resistentes . No compre un disco barato destinado al uso de escritorio y ejecute una base de datos de escritura intensiva en él.

  • Hay muchos factores de forma disponibles: los SSD de hoy se pueden encontrar en tarjetas PCIe, SATA y SAS 1.8 ", 2.5", 3.5 "y otras variantes.

  • Use RAID para sus servidores: no dependería de una sola unidad mecánica en una situación de servidor. ¿Por qué harías lo mismo para un SSD?

  • Composición de la unidad: hay SSD basados ​​en DRAM, así como los tipos flash MLC, eMLC y SLC. Estos últimos tienen vidas limitadas, pero están bien definidos por el fabricante. por ejemplo, verá límites diarios de escritura como 5 TB / día durante 3 años .

  • La aplicación de la unidad es importante: algunas unidades son de uso general, mientras que otras están optimizadas para lectura o escritura. Las unidades basadas en DRAM como sTec ZeusRAM y DDRDrive no se desgastarán. Son ideales para entornos de alta escritura y para discos frontales más lentos. Las unidades MLC tienden a ser más grandes y optimizadas para lecturas. Las unidades SLC tienen una vida útil mejor que las unidades MLC, pero la MLC empresarial realmente parece ser lo suficientemente buena para la mayoría de los escenarios.

  • TRIM no parece importar: los controladores RAID de hardware todavía no parecen ser totalmente compatibles . Y la mayoría de las veces uso SSD, será en una configuración RAID de hardware. No es algo que me preocupe en mis instalaciones. ¿Tal vez deberia?

  • Resistencia: el sobreaprovisionamiento es común en los SSD de clase de servidor. A veces esto se puede hacer a nivel de firmware, o simplemente particionando la unidad de la manera correcta. Los algoritmos de nivelación de desgaste también son mejores en todos los ámbitos. Algunas unidades incluso informan estadísticas de vida útil y resistencia. Por ejemplo, algunos de mis SSD empresariales Sandisk de la marca HP se muestran 98% life remainingdespués de dos años de uso.

  • Los precios han caído considerablemente: los SSD alcanzan el precio correcto: relación de rendimiento para muchas aplicaciones. Cuando el rendimiento es realmente necesario, ahora es raro que las unidades mecánicas sean predeterminadas.

  • Las reputaciones se han solidificado: por ejemplo, Intel es seguro pero no de alto rendimiento. OCZ no es confiable. Las unidades basadas en Sandforce son buenas. sTec / STEC es extremadamente sólido y es el OEM para muchas unidades de matriz de alta gama. Sandisk / Pliant es similar. OWC tiene excelentes soluciones SSD con una excelente garantía para servidores de bajo impacto y para la implementación de estaciones de trabajo / portátiles.

  • La protección contra pérdida de energía es importante: mire las unidades con supercondensadores / supercaps para manejar escrituras sobresalientes durante eventos de energía. Algunas unidades aumentan el rendimiento con cachés a bordo o las aprovechan para reducir el desgaste. Los supercaps aseguran que esas escrituras se vacíen a un almacenamiento estable.

  • Soluciones híbridas: los proveedores de controladores RAID de hardware ofrecen la capacidad de aumentar las matrices de discos estándar con SSD para acelerar las lecturas / escrituras o servir como caché inteligente. LSI tiene CacheCade y sus ofertas de hardware / software Nytro . También existen soluciones de software y de nivel de sistema operativo para hacer cosas como proporcionar caché local en aplicaciones, bases de datos o sistemas de hipervisor. Los sistemas de archivos avanzados como ZFS hacen un uso muy inteligente de los SSD optimizados para lectura y escritura; ZFS se puede configurar para usar dispositivos separados para el almacenamiento en caché secundario y para el registro de intenciones, y los SSD a menudo se usan en esa capacidad incluso para grupos de HDD.

  • Llegó el flash de primer nivel: las soluciones de flash PCIe como FusionIO han madurado hasta el punto en que las organizaciones se sienten cómodas implementando aplicaciones críticas que dependen del mayor rendimiento. Las soluciones de dispositivos y SAN como RanSan y Violin Memory también están disponibles, con más participantes entrando en ese espacio.

ingrese la descripción de la imagen aquí

ewwhite
fuente
12
TRIM es realmente importante en unidades con muy poco aprovisionamiento excesivo, que es un caso varonil en unidades de consumo donde el $ / GB es muy importante. La mayoría de las unidades empresariales tienen un exceso de aprovisionamiento suficiente para que TRIM no haga ninguna diferencia.
Sr. Alpha
2
@MisterSmith Vea lo que escribí arriba. Diferentes SSD tienen diferentes características. Use la herramienta adecuada para el trabajo. Si tuviera que tomar un Corsair u otro disco de nivel de consumidor y usarlo como un SSD para un sistema de base de datos activo de escritura pesada o como el dispositivo de registro ZIL para una matriz de almacenamiento ZFS, lo grabaría en un mes o dos .
ewwhite
1
Excelente post. Un motivo favorito mío: los controladores RAID no siempre son la opción correcta con los SSD. Los controladores RAID fueron diseñados para eliminar datos y agregar códigos de corrección de errores en múltiples discos magnéticos. Los controladores SSD ya eliminan datos de forma nativa y agregan códigos de corrección de errores en varios bancos de NVRAM. Además, agregar un controlador RAID introduce un SPOF adicional, el controlador RAID en sí. El uso de un controlador RAID separado suele ser la opción correcta, pero a veces usar una mejor SSD (tarjetas SATA / SAS de mayor grado o incluso tarjetas PCI-E como Fusion-IO) es una mejor opción.
Jesper Mortensen
55
@rickyduck, en realidad en un centro de datos, un solo fallo de la unidad está protegido por RAID, y significa gastar algunos $$$ para reemplazarlo sin tiempo de inactividad; mientras que en una plataforma de juegos, una falla del disco único es la pérdida total de datos y la reinstalación del sistema operativo.
2
@MisterSmith, incluso las SSD de escritorio de gama alta son más baratas por GB que las destinadas a los usos típicos del centro de datos. Además de los controladores más potentes en algunos casos (o solo firmware de bajo volumen sintonizado para el rendimiento en lugar del rendimiento de ráfaga), obtienen el mejor flash desviado de la parte superior de la ejecución de producción porque muchas cargas de trabajo del servidor son mucho más intensivas en IO que el escritorio unidades y rápidamente mataría una unidad de consumo.
Dan Neely
59

Cada computadora portátil en mi trabajo tiene un SSD o un híbrido desde 2009. Mi experiencia con SSD en resumen:

  • Lo que llamaré unidades de "1ra generación", vendidas alrededor de 2009 principalmente:
    • En el primer año murieron alrededor de 1/4, casi todos por Síndrome de Muerte Súbita (SSD - Es gracioso, ríe). Esto fue muy notable para los usuarios finales y molesto, pero la diferencia de velocidad drástica hizo tolerable este patrón de falla constante.
    • Después de 3 años, todas las unidades han muerto (muerte súbita o desgaste), excepto dos que todavía están pateando (en realidad unidades L2Arc en un servidor ahora).
  • Los discos de "2da generación", vendidos alrededor de 2010-11, son distintos de la generación anterior, ya que sus tasas de Síndrome de muerte súbita cayeron dramáticamente. Sin embargo, el "problema" de desgaste continuó.
    • Después del primer año, la mayoría de las unidades todavía funcionaban. Hubo un par de muertes repentinas. Una pareja fracasó por el desgaste.
    • Después de 2-3 años, más de la mitad todavía están trabajando. La tasa de fracaso del primer año ha continuado esencialmente.
  • Las unidades de "tercera generación", vendidas en 2012+, todavía funcionan.
    • Después del primer año, todo sigue funcionando (toco madera).
    • La unidad más antigua que tengo es de marzo de 2012, por lo que aún no hay datos de 2-3 años.

Falla de SSD (acumulativa)


Actualización de mayo de 2014:
algunas de las unidades de "segunda generación" han fallado desde entonces, pero aproximadamente un tercio de las unidades originales todavía funcionan. Todas las unidades de "3.a generación" del gráfico anterior siguen funcionando (tocan madera). He escuchado historias similares de otros, pero todavía llevan la misma advertencia sobre la muerte en alas rápidas . Los vigilantes mantendrán bien respaldados sus datos.

Chris S
fuente
2
Mi experiencia hace eco de esto. Dicho esto, todavía proporcionamos discos duros USB para que los empleados los usen como copias de seguridad de la máquina del tiempo (además de nuestro régimen de copia de seguridad fuera del sitio estándar), para permitir restauraciones rápidas y granulares en caso de falla o pérdida catastrófica.
EEAA
22
Dale a la tercera generación otro año o dos. ;)
Andy
77
También vale la pena señalar que los SSD tienen muchas más probabilidades de sufrir errores de firmware que los HDD; el firmware es más complicado y menos maduro, lo cual no es una buena combinación.
alastair
2
@Andy tiene razón. A partir de 2009, usted dice que la vida media fue de aproximadamente un año. Para el 2010 a 2011, apenas tenemos 3 años para la mitad de ese rango en este momento, donde indica una vida media de 3 años. Eso solo podría basarse en las observaciones actuales. No se puede saber si la vida media de las unidades 2012 y 2013 ha mejorado más de 3 años hasta al menos 2016. (Podríamos tratar de extrapolar de fallas tempranas, pero es probable que solo sean defectos de fabricación aislados, no causados ​​por mucho tiempo a largo plazo.)
Andrew Vit
1
He estado usando 2 x Intel X25M 80Gb G1 desde 2010. Mi trabajo implica procesos pesados ​​de lectura / escritura. Cada pocos meses más o menos reinicio el disco (no es necesario) para recuperar el rendimiento, pero por lo demás no hay problemas. Agregué un Samsung 230 256Gb el año pasado. No hay problemas hasta ahora!
Antillar Maximus
18

En mi experiencia, el verdadero problema son los controladores moribundos, no la memoria flash en sí. He instalado alrededor de 10 SSD de Samsung (830, 840 [no pro]) y ninguno de ellos ha tenido problemas hasta ahora. Todo lo contrario son unidades con controladores Sandforce, tuve varios problemas con las unidades de agilidad OCZ, especialmente se congela en intervalos de tiempo irregulares, donde la unidad deja de funcionar hasta que apago / en la computadora. Te puedo dar dos consejos:

  1. Si necesita una alta confiabilidad, elija una unidad con MLC, mejor flash SLC. Samsung 840 fe tiene flash TLC, y una garantía corta, creo que no sin ningún motivo;)

  2. Elija una unidad con un controlador que se sepa que es estable.

klingt.net
fuente
Me recuerda a los controladores moribundos en la iluminación actual basada en LED. Los LED duran mucho tiempo, pero los controladores no parecen.
Matt
1
Quién sabe, pero tal vez sea parte de la obsolescencia planificada de las industrias :)
klingt.net
11

www.hardware.fr, uno de los sitios de noticias de hardware más grandes de Francia, está asociado con www.ldlc.com, uno de los revendedores en línea más grandes de Francia. Tienen acceso a sus estadísticas de retorno y han estado publicando informes de tasa de fallas (placas base, fuentes de alimentación, RAM, tarjetas gráficas, HDD, SSD, ...) dos veces al año desde 2009.

Estas son estadísticas de "muerte prematura", de 6 meses a 1 año de uso. Además, las devoluciones directas al fabricante no se pueden contar, pero la mayoría de las personas regresan al distribuidor durante el primer año y no debería afectar las comparaciones entre marcas y modelos.

En términos generales, las tasas de falla de HDD tienen menos variaciones entre marcas y modelos. La regla es mayor capacidad> más platos> mayor tasa de fallas, pero nada dramático.

La tasa de falla de SSD es más baja en general, pero algunos modelos de SSD fueron realmente malos con alrededor del 50% de rendimiento para los infames durante el período que solicitó (2013). Parece haberse detenido ahora que se compró esa marca infame.

Algunas marcas de SSD están "optimizando" su firmware solo para obtener resultados un poco más altos en puntos de referencia y en algún momento terminan con congelamientos, pantallas azules, ... Esto también parece ser un problema menor ahora que en 2013.

Los informes de tasa de falla están aquí:
2010
2011 (1)
2011 (2)
2012 (1)
2012 (2)
2013 (1)
2013 (2)
2014 (1)
2014 (2)
2015 (1)
2015 (2)
2016 (1) )
2016 (2)

Sacha K
fuente
Aquí hay un enlace a una versión traducida automática del artículo francés translate.googleusercontent.com/…
SDwarfs