Nvidia K20X vs GeForce Titan para la aceleración GPGPU

10

Estoy tratando de entender la diferencia entre estas dos tarjetas gráficas para la informática académica, específicamente para el componente DGEMM.

Si miramos las estadísticas en bruto, ambas tienen el mismo chip GK110, tienen estadísticas comparables en prácticamente todas las categorías y, creo, tienen la misma arquitectura central. Antes de cualquier descuento, el K20X es aproximadamente 4 veces el costo de un Titán. Desde una perspectiva de eficiencia, parece tener mucho sentido usar Titan's sobre los K20X.

Me está costando entender la diferencia aquí, ¿alguien puede iluminar la situación?

Como nota, estoy buscando comprar estas tarjetas para un servidor de bastidor y ejecutarlas a toda velocidad esencialmente hasta que mueran; sin embargo, no considero que la eficiencia del uso de múltiples GPU para un solo trabajo sea particularmente primordial.

Ofión
fuente

Respuestas:

13

Hay algunas diferencias, sin embargo, no son necesariamente en hardware o especificaciones. Tenga en cuenta que esta es toda la información que obtuve de foros o comunicados de prensa, así que tómelo con un poco de sal.

El primero es la "escalabilidad y fiabilidad" ( fuente ). El K20 fue diseñado para instalarse en un sistema de clúster y funcionar a toda velocidad 24/7. El Titan está más diseñado para juegos, por lo que funcionará en este ciclo de trabajo, pero puede sufrir problemas de por vida a largo plazo si se usa de esta manera.

Los controladores también son diferentes, sin embargo, no estoy seguro de las principales diferencias. La diferencia en el enfoque del diseño de las tarjetas probablemente conduce a ganancias de rendimiento relativamente pequeñas para las tarjetas Tesla en este frente.

"Algunas características exclusivas de Tesla incluyen:

  • NVIDIA GPUDirect RDMA para rendimiento InfiniBand
  • Hyper-Q para MPI (Hyper-Q para CUDA Streams es compatible con GeForce GTX TITAN)
  • Protección ECC para todos los registros y memorias internas y externas.
  • Herramientas compatibles para la GPU y la gestión de clusters, como brillante Computing, ganglios."( Fuente )

Esto apunta al hecho de que la diferencia principal es su escalabilidad. Si está buscando ejecutar en una computadora de escritorio en su oficina, sería difícil argumentar en contra de un Titán sobre el K20 por la diferencia de precio. Si necesita el rendimiento adicional de múltiples K20, encuentre un centro HPC y gane tiempo con sus servidores.

Editar:

Después de analizar un poco más el ECC, estoy actualizando esta respuesta para señalar las implicaciones de tenerlo en el K20 y no en el Titán. La siguiente información es una paráfrasis de la información que se encuentra aquí .

ECC es una comprobación de errores en la DRAM y registros para la GPU. Los errores suaves son cuando un bit se transfiere / almacena incorrectamente. Cuanto más rápido y más cerca estén los circuitos, mayor será la probabilidad de un error suave. Si está resolviendo un conjunto de EDO acopladas o resolviendo un sistema lineal, un solo número desactivado por un bit podría cambiar significativamente los resultados de una manera no reproducible. La mayoría de las memorias RAM y cachés estándar en la CPU se verifican por error para estos errores utilizando ECC.

Por otro lado, las GPU no tienen ECC en general, aunque su bus de memoria es mucho más rápido que el de la CPU. Esto se debe a que si un píxel en la pantalla está apagado un poco por un cuadro, la calidad del programa no disminuye. Estos errores tampoco se propagan. Por lo tanto, se puede ahorrar una gran cantidad de bienes inmuebles (y costos) al omitir esta función. Esta complejidad adicional probablemente causa una gran parte del costo adicional de la línea Tesla.

Vidente de Godric
fuente
3
Gran respuesta +1! Es difícil creer que esas características sean tan costosas. Creo que la línea "Desarrollar con GeForce, Implementar con Tesla" del sitio vinculado de Nvidia resume los problemas importantes. Parece que la mejor solución por ahora es comprar varias GeForces y ejecutarlas con fuerza hasta que abandonen el humo azul, por así decirlo.
Ophion
3
"Sin embargo, esto no impidió que fueran utilizados en Oakridge". El Cray XK7 de OLCF llamado "Titan" utiliza las GPU Tesla K20, no el GTX Titan. NVidia dice que el GTX Titan tiene "la tecnología de" OLCF Titan, que es el mismo vocabulario utilizado cuando se dice que un automóvil económico tiene "la tecnología" de un automóvil de Fórmula 1. (El rendimiento de GTX Titan es bastante bueno, pero no tiene ECC y no se usa en ninguna instalación importante que yo sepa).
Jed Brown
1
Mi error, interpreté mal el artículo. Actualizaré la respuesta para no ser engañoso.
Godric Seer
2

En mi opinión, la diferencia parece ser principalmente la segmentación del mercado. Si usted es científico, entonces NVidia quiere que tenga miedo de que su documento sea rechazado porque está utilizando una GPGPU sin tantos errores de corrección de RAM como estaría disponible con K20X. Del mismo modo, si usted es una corporación, es posible que desee pagar 4 veces más si eso significa que es menos probable que lo demanden bajo sospecha de que sus cálculos no están tan corregidos por error como sea posible. Los jugadores individuales o aficionados GPGPU'ers se venden Titan porque tienen menos dinero y son más difíciles de persuadir de esta manera.

k20
fuente
2
Solo he realizado cálculos con ECC, ¿tiene un buen artículo que demuestre las fallas de los sistemas que no son ECC y los puntos de interrupción lógicos donde es beneficioso tenerlos?
Ophion
Para aquellos que quieren el resumen ejecutivo del excelente vínculo de BenC: los errores suaves que corregiría ECC son extremadamente raros, y el artículo llega a recomendar apagar ECC en Tesla para aumentar la velocidad. Advertencia: esto no se probó en realidad con GPU de consumo.
semi-extrínseco
0

Realmente depende de la aplicación que ejecute. GPUGRID.net se ejecuta en máquinas que no tienen ECC y todo está bien. Los resultados son tan buenos como en cualquier otra plataforma. Acellera también vende hardware con tarjetas GeForce y en muy pocos casos las GPU han fallado. GeForce es todo lo que necesitas.

David
fuente