Estoy usando la GPU NVIDIA Quadro K2000. Corrí deviceQuery.exe
, cuyos resultados están a continuación. Dice que solo tengo 2 unidades SM. No estoy seguro si realmente tengo solo 2 SM o si algunos de mis SM están deshabilitados como se menciona en el tercer comentario en esta pregunta SO .
También vi que la cantidad de SP son 192 por SM. Puede haber alguna forma de habilitar más SM y luego la cantidad de SP por SM disminuirá.
Actualización: La razón por la que pregunto es el hecho de que quiero que mi procesamiento de GPU sea eficiente. Tengo una imagen de 1080 x 1920 que he dividido en tres segmentos. Estoy transfiriendo estos segmentos H2D, procesando y transfiriendo D2H de forma asincrónica. Por lo tanto, quiero elegir una dimensión de bloques y una cantidad de subprocesos por bloque que pueda utilizar de manera eficiente la configuración de hardware de mi GPU. Además, todavía estoy confundido de que una GPU que tenga más de 2 SM (digamos 8 SM) pero menos cantidad de SP por SM (384/8 = 48 SP por SM) tenga el mismo rendimiento que una GPU que tenga 2 SM y 192 SP por SM? Quiero decir, ¿es el número total de SP disponibles lo que importa?
Respuestas:
En orden:
No estoy seguro si realmente tengo solo 2 SM o si algunos de mis SM están deshabilitados
Tu GPU es GK107. Tiene dos SMX, cada uno con 192 SP. No hay procesadores deshabilitados.
Puede haber [sic] hay alguna forma de habilitar más SM y luego el número de SP por SM disminuirá.
No hay una forma mágica de cambiar el silicio en el software.
Todavía estoy confundido de que una GPU que tenga más de 2 SM (digamos 8 SM) pero menos cantidad de SP por SM (384/8 = 48 SP por SM) tenga el mismo rendimiento que una GPU que tenga 2 SM y 192 SP por SM.
Esa es una gran pregunta y una que no voy a tratar de responder aquí. NVIDIA ha publicado una gran cantidad de documentos detallados sobre la arquitectura y el rendimiento de las diversas generaciones de sus tarjetas de cómputo insignia a medida que se lanzan. Si estás tan inclinado, te sugiero que los leas por ti mismo. Dicho esto, la regla general es que dentro de la misma generación de arquitecturacuanto más SM o SMX tenga un dispositivo, mejor funcionará en operaciones aritméticas. Comparar diferentes generaciones de GPU es inútil. Por ejemplo, la primera tarjeta de cómputo Telsa lanzada por NVIDIA tiene 16 SM (la C860). El más reciente tiene 15 SMX (el K40). Hay una diferencia de aproximadamente 10 veces en su rendimiento máximo de precisión simple. Tenga en cuenta también que muchas aplicaciones del mundo real están vinculadas al ancho de banda de memoria, y eso puede cambiar radicalmente la diferencia de rendimiento entre diferentes tarjetas. Mientras que el conteo central y el FLOP máximo han seguido más o menos la Ley de Moore, el ancho de banda de memoria no lo ha hecho.
fuente