¿Los controladores RAID suelen tener problemas de compatibilidad de marca de unidad SATA?

22

Hemos luchado con el controlador RAID en nuestro servidor de base de datos, un Lenovo ThinkServer RD120. Es un Adaptec renombrado que Lenovo / IBM dobla el ServeRAID 8k .

Hemos parcheado este ServeRAID 8k hasta lo último y lo mejor:

  • Versión de BIOS RAID
  • Versión de BIOS del plano posterior RAID
  • Controlador de Windows Server 2008

Este controlador RAID ha tenido múltiples actualizaciones críticas de BIOS incluso en el corto tiempo de 4 meses que hemos tenido, y el historial de cambios es simplemente ... bueno, aterrador.

Hemos probado estrategias de reescritura y reescritura en las unidades RAID lógicas. Todavía obtenemos errores de E / S intermitentes bajo actividad de disco pesado. No son comunes, pero graves cuando suceden, ya que provocan tiempos de espera de E / S de SQL Server 2008 y, a veces, fallas de los grupos de conexiones SQL.

Estábamos al final de nuestra cuerda resolviendo este problema. A falta de cosas difíciles como reemplazar todo el servidor o reemplazar el hardware RAID, nos estábamos desesperando.

Cuando obtuve el servidor por primera vez, tuve un problema en el que no se reconocía el compartimiento para unidades # 6. Cambiando los discos duros a una marca diferente, extrañamente, solucionó esto, y la actualización del BIOS RAID (por primera vez) lo solucionó permanentemente, por lo que pude usar la unidad original "incompatible" en el compartimento 6. En un presentimiento, comencé a asumir que los discos duros Western Digital SATA que elegí eran de alguna manera incompatibles con el controlador ServeRAID 8k.

Comprar 6 discos duros nuevos era una de las opciones más baratas sobre la mesa, así que elegí 6 discos duros Hitachi (también conocido como IBM, también conocido como Lenovo) bajo la teoría de que un controlador RAID de IBM / Lenovo es más probable que funcione con los discos. vendido con.

Parece que esa corazonada valió la pena: hemos pasado por tres de nuestros días de mayor carga (lunes, martes, miércoles) sin un solo error de E / S de ningún tipo. Antes de esto, regularmente teníamos al menos un "evento" de E / S en este período de tiempo. ¡Parece que cambiar de marca de disco duro ha solucionado nuestros problemas de E / S RAID intermitentes!

Si bien entiendo que IBM / Lenovo probablemente pruebe su controlador RAID exclusivamente con su propia marca de discos duros, me preocupa que un controlador RAID tenga problemas de E / S tan sutiles con marcas particulares de discos duros.

Entonces mi pregunta es, ¿ es este tipo de incompatibilidad de unidad SATA común con los controladores RAID? ¿Hay algunas marcas de unidades que funcionan mejor que otras, o están "validadas" contra un controlador RAID particular? Asumí que todos los discos duros SATA básicos eran iguales y funcionarían razonablemente bien en cualquier controlador RAID (de calidad suficiente).

Jeff Atwood
fuente

Respuestas:

6

, he encontrado esto con tarjetas de gama baja y controladores con errores. Sin embargo, no , no en una tarjeta renombrada Adaptec actualizada. Wow es todo lo que puedo decir. Una cosa a considerar, tal vez es más un error con la unidad que el controlador RAID.

No tengo una buena respuesta, pero como parece haber agotado la mayoría de sus opciones además de reemplazar la tarjeta, (y reemplazar las unidades hizo el truco) aquí hay algunas ideas que puede considerar para su solución de problemas:

  • Las unidades WD eran unidades RE (Edición RAID), ¿verdad? La recuperación de errores por tiempo limitado es importante, por lo que si no tiene eso y la unidad está intentando recuperar el sector, obtendrá una pausa muuuuuuuuuuuuuuuuuuuuuuuuuuu como de esa unidad. Si el controlador RAID es paciente y no deja caer la unidad, tendrá un gran problema en sus manos.

  • Verifique los datos SMART en las unidades que retiró y vea si hay algo interesante.

Otro comentario sobre la importancia de la función de recuperación de errores por tiempo limitado (TLER), del soporte del proveedor NAS / RAID:

Como mencioné antes, siempre sugerimos a los clientes que utilicen unidades de nivel empresarial si usan las unidades en la configuración RAID. Las unidades de nivel empresarial tienen un tiempo de respuesta más constante para que el RAID sea más seguro.

TorgoGuy
fuente
no sé, pero tenían "Recuperación de error limitada en el tiempo específica de RAID" como se muestra en la pestaña de especificaciones aquí .. newegg.com/Product/Product.aspx?Item=N82E16822136143
Jeff Atwood
Sí, tienes los correctos. (Observe el RE2 que figura en el título). ¡Eso derriba esa teoría! Por supuesto, aun así, echa un vistazo a los datos de SMART por si acaso (sí, sé que es raramente útil) ...
TorgoGuy
Resulta que las unidades eran un poco escamosas, después de todo. Brent Ozar heredó nuestros viejos discos y tuvo que usar RMA al menos uno de ellos por rarezas ...
Jeff Atwood
también, una interesante discusión relacionada sobre la función TLER que parece que algunos proveedores ven como un bit de software especial que voltean para hacer que las unidades sean mágicamente "empresariales". fatwallet.com/forums/expired-deals/993547
Jeff Atwood
13

Incluso para discos duros de escritorio que no son RAID y que son viejos, la compra de discos al vendedor (con el marcado ridículo esperado) a menudo puede marcar la diferencia. Por ejemplo, Apple tiene cuidado de enviar solo unidades que sean realmente capaces de cumplir con la F_FULLSYNC fcntl()bandera de Mac OS X , lo que contribuye en gran medida a garantizar que cosas como las copias de seguridad de Time Machine funcionen de manera confiable.

Nuevamente, este es un uso simple de escritorio vainilla sin RAID involucrado. Algo más complejo que eso y definitivamente desea comprar, si no las unidades sobrevaloradas propias del proveedor, entonces al menos los modelos de unidades que sabe con certeza están en la lista "aprobada" del proveedor.

Entonces, para responder a su pregunta, ¿es común? Yo diría que sí, más común de lo que piensas, incluso más allá del ámbito empresarial.

John Siracusa
fuente
Definitivamente obtendría los modelos de unidades que el vendedor generalmente vende si va a hacer una actualización de unidades de bricolaje para reducir los costos. ¡También recomendaría no comprar unidades (o controladores) con los que el sistema acaba de comenzar a enviarse para que no termines siendo el que encuentra los errores! SATA parece más escamosa que SAS a este respecto por alguna razón ...
Christopher Edwards
4

No creo que sea común per se. Sin embargo, tan pronto como comience a usar controladores de almacenamiento empresarial, ya sean controladores SAN o RAID independientes, generalmente querrá adherirse a su lista de compatibilidad de manera bastante estricta.

Es posible que pueda ahorrar dinero en el precio de la etiqueta comprando una gama barata de discos, pero esa es probablemente una de las últimas áreas en las que me gustaría ahorrar dinero, dada la importancia de los datos en la mayoría de los escenarios.

En otras palabras, la incompatibilidad explícita es muy poco frecuente, pero se recomienda el cumplimiento explícito de la compatibilidad.

Mark S. Rasmussen
fuente
4

No soñaría con usar discos SATA para un servidor: ninguno de ellos tiene el ciclo de trabajo esperado de una unidad de calidad de servidor y no tienen el conjunto de comandos enriquecido que SCSI / SAS tiene para monitorear el rendimiento y la salud de la unidad. Los servidores de Lenovo son baratos y excelentes si tiene muchos servidores con ninguno de ellos realmente tan importante, pero hay una razón por la cual los servidores de la serie 300 de HP representan el 40% del mercado: funcionan. En particular, sus controladores de disco 'SmartArray' son incomparables en confiabilidad y rendimiento y su garantía previa a la falla es una adición bienvenida. No es el más barato, pero ¿cuánto vale tu tiempo? He estado comprando sus servidores (bueno, Compaq first tbh) durante veinte años y no tengo ningún problema en comprar los 500-800 nuevos al año que hago. En serio, échales un vistazo.

Chopper3
fuente
2

La respuesta como siempre es "depende".

Para cierto almacenamiento empresarial (por ejemplo, EMC), el proveedor calificará específicamente las unidades e incluso llegará al punto de cargar firmware personalizado.

Como dice Mark, creo que es lo mejor cuando sigues la lista aprobada de un proveedor si hay una. El ahorro inicial de costos se ve compensado por el tiempo dedicado a intentar cazar gremlins.

Jauder Ho
fuente
es cierto, pero las unidades SATA "especiales" de Lenovo cuestan $ 250 y puedo comprar la misma unidad Hitachi por $ 60. Eso es un diferencial de casi 5x, en otras palabras ... $ 1250 versus $ 300. Estoy dispuesto a hacer un poco de experimentación para un gran ..
Jeff Atwood
Sé que el marcado a veces es ridículo, ¡debería ver el precio de las unidades EMC! Pero se reduce a cuánto valoras tus datos. Tener un almacenamiento confiable cuesta $ $$$. Don MacAskill de Smugmug ha estado entusiasmado con el Sun 7410 y eso puede ser algo que desee ver.
Jauder Ho
Me pregunto si hay una tarjeta 3ware compatible. He tenido buenas experiencias con ellos a lo largo de los años.
Jauder Ho
2

Tiene un controlador SAS, ese podría ser el problema. Si bien el protocolo SAS puede usarse para hacer un túnel en los comandos ATA, la señalización a nivel físico es un poco diferente (SAS usa un voltaje más alto y un diferencial más amplio). Casi todos los controladores pueden hablar directamente a las unidades SATA, pero si hay una placa posterior (¿grande? ¿Basura?) En el medio, la señal podría verse interrumpida. Por lo general, en el mundo empresarial, la conexión de controladores SATA directamente a un controlador SAS no es oficialmente compatible, debe usar un intercalador (una pequeña placa lógica que se conecta directamente al disco que, por un lado, comprende el protocolo SAS completo, por el otro habla ATA - de esta manera, el plano posterior lleva la señalización SAS más alta).

Algo relacionado: la mezcla de unidades SAS y SATA en el mismo plano posterior tiende a fallar, porque la señalización de todas las unidades (incluida SAS) se reduce al nivel SATA.

Luca Tettamanti
fuente
1

Lo más probable es que sus unidades WD necesiten una actualización de firmware . Consulte esta nota de IBM para descargar y aplicar la actualización. Como puede ver en las instrucciones , las unidades WD están lejos de ser las únicas con problemas.

Si va a colocar sus unidades en un entorno de servidor exigente, seguramente tendrá más problemas que en una configuración de escritorio entusiasta típica.

¿Podría comentar por qué eligió usar la serie de unidades Deskstar de clase de escritorio en lugar de la serie Ultrastar de clase Enterprise / RAID ? ¿Siente que el costo adicional no vale la fiabilidad y la velocidad adicionales?

Peter Stuer
fuente
Cuando se trata de discos duros, creo en muchos de ellos: matrices baratas y fácilmente reemplazables, donde el rendimiento proviene de la escala.
Jeff Atwood
Tenga cuidado al usar unidades de escritorio con controladores de almacenamiento de grado empresarial. Las unidades de nivel empresarial (generalmente) admiten comandos y consultas que las unidades de escritorio no admiten. Un servidor empresarial que una vez heredé estaba usando unidades de escritorio y vio errores frecuentes mientras el controlador intentaba obtener información sobre la temperatura y el estado de la unidad. Dado que los controladores empresariales suponen que usará unidades empresariales, el controlador no pudo manejar con gracia una unidad que no respondió a estas consultas (ya que esa no era una configuración compatible). Todo es muy YMMV
bta
0

Como ingeniero que trabaja con controladores RAID, puedo decir que no es raro que algunas marcas de unidades tengan problemas con ciertos controladores RAID. Cada unidad tiene sus peculiaridades particulares, y cualquier modelo de unidad enumerado en la lista de "dispositivos compatibles" del controlador tendrá sus peculiaridades explicadas por el controlador. Para que un modelo de unidad aparezca en la lista, debe cumplir con los estándares del fabricante del controlador en cuanto a rendimiento y confiabilidad. Cualquier unidad que no esté en esta lista podría funcionar, pero dado que no ha pasado por las mismas pruebas rigurosas que los dispositivos "aprobados", YMMV.

En particular, el protocolo SATA permite comandos específicos del proveedor (no estandarizados) que pueden ser definidos por la unidad o el controlador. En su caso, es posible que esté viendo un controlador que espera que una unidad responda a un comando propietario particular o una unidad que espera ver un comando propietario que nunca llega.

Otra posibilidad es que sus unidades problemáticas no se comporten muy bien bajo ciertas cargas de trabajo estresantes, y el comportamiento que ve fue suficiente para que Adaptec / IBM no enumere ese modelo de unidad como compatible.

Desafortunadamente, los protocolos de almacenamiento (SATA, SAS, etc.) no son tan buenos como otras interfaces estandarizadas (USB, PCI, etc.) donde todo lo que necesita es un bus y un dispositivo que hable el mismo idioma y todo está bien. Especialmente cuando se trata de equipos de nivel empresarial, los fabricantes de dispositivos y los fabricantes de unidades dedican mucho tiempo y energía de colaboración para garantizar que los clientes obtengan el mejor rendimiento posible de las configuraciones utilizadas por la mayoría de los clientes (es decir, el uso de unidades fuera del lista de "dispositivos compatibles"). Una unidad que no está en esa lista puede haber sido diseñada para funcionar de manera óptima con una marca diferente de controlador, y los errores que está viendo son un efecto secundario de la optimización.

bta
fuente