¿Alguien puede darme el tiempo aproximado (en nanosegundos) para acceder a los cachés L1, L2 y L3, así como a la memoria principal en los procesadores Intel i7?
Si bien esto no es específicamente una pregunta de programación, conocer este tipo de detalles de velocidad es necesario para algunos desafíos de programación de baja latencia.
memory
latency
cpu-cache
low-latency
Ted Graham
fuente
fuente
Respuestas:
Aquí hay una Guía de análisis de rendimiento para la gama de procesadores i7 y Xeon. Debo enfatizar, esto tiene lo que necesita y más (por ejemplo, consulte la página 22 para ver algunos tiempos y ciclos, por ejemplo).
Además, esta página tiene algunos detalles sobre ciclos de reloj, etc. El segundo enlace sirvió a los siguientes números:
EDIT2
:Lo más importante es el aviso debajo de la tabla citada, que dice:
EDITAR: Debo resaltar que, además de la información de tiempo / ciclo, el documento de inteligencia anterior aborda muchos más (extremadamente) detalles útiles de la gama de procesadores i7 y Xeon (desde el punto de vista del rendimiento).
fuente
Números que todos deberían saber
De: Originalmente por Peter Norvig:
- http://norvig.com/21-days.html#answers
- http://surana.wordpress.com/2009/01/01/numbers-everyone-should-know/ ,
- http://sites.google.com/site/io/building-scalable-web-applications-with-google-app-engine
fuente
Costo para acceder a varios recuerdos en una bonita página
Resumen
Los valores disminuyeron pero se estabilizaron desde 2005
Todavía algunas mejoras, predicción para 2020
Ver también otras fuentes
Antiguo pero sigue siendo una excelente explicación profunda sobre la interacción del hardware y el software de la memoria.
Ver también
Para una mayor comprensión, recomiendo la excelente presentación de arquitecturas modernas de caché (junio de 2014) de Gerhard Wellein , Hannes Hofmann y Dietmar Fey en la Universidad Erlangen-Nürnberg .
Las personas de habla francesa pueden apreciar un artículo de SpaceFox que compara un procesador con un desarrollador, ambos a la espera de la información requerida para continuar trabajando.
fuente
[A]
publicado a continuación.Solo en aras de la revisión de 2020 de las predicciones para 2025:
Durante los últimos 44 años de la tecnología de circuito integrado, los procesadores clásicos (no cuánticos) evolucionaron, literal y físicamente "Per Aspera ad Astra" . La última década ha evidenciado que el proceso clásico se ha acercado a algunos obstáculos, que no tienen un camino físico alcanzable hacia adelante.
Number of logical cores
puede y puede crecer, pero no más de lo que es difícil, si no imposible, de eludir el techo basado en la física que ya puede alcanzar y puede crecer, pero puede crecer menos de (potencia, ruido, "reloj") , pero problemas con la distribución de energía y la disipación de calor aumentará puede crecer, teniendo beneficios directos de grandes huellas de caché y memoria de E / S más rápida y más amplia y beneficios indirectos de un cambio de contexto forzado del sistema con menos frecuencia, ya que podemos tener más núcleos para dividir otros hilos / procesos entreO(n^2~3)
Frequency [MHz]
Transistor Count
O(n^2~3)
Power [W]
Single Thread Perf
(Los créditos van a Leonardo Suriano y Karl Rupp)
Solo por el examen de 2015 de las predicciones para 2020:
Solo por el simple hecho de comparar el panorama de latencia de CPU y GPU:
No es una tarea fácil comparar incluso las alineaciones más simples de CPU / caché / DRAM (incluso en un modelo de acceso de memoria uniforme), donde la velocidad de DRAM es un factor para determinar la latencia y la latencia cargada (sistema saturado), donde este último gobierna y es algo que las aplicaciones empresariales experimentarán más que un sistema inactivo completamente descargado.
Los motores de GPU han recibido una gran cantidad de marketing técnico, mientras que las profundas dependencias internas son claves para comprender tanto las fortalezas reales como las debilidades reales que experimentan estas arquitecturas en la práctica (generalmente muy diferentes a las expectativas agresivas de marketing agresivo).
Por lo tanto, comprender las internalidades es mucho más importante que en otros campos, donde se publican arquitecturas y numerosos puntos de referencia disponibles gratuitamente. Muchas gracias a los microprobadores de GPU, que han dedicado su tiempo y creatividad a dar rienda suelta a la verdad de los esquemas reales de trabajo dentro de los dispositivos de GPU probados de enfoque de caja negra.
Mi disculpa por una "imagen más grande", pero el exceso de latencia también tiene límites cardinales impuestos por las capacidades smREG / L1 / L2 en chip y las tasas de aciertos / errores.
¿La línea de fondo?
Cualquier diseño motivado de baja latencia tiene que aplicar ingeniería inversa al "sistema hidráulico de E / S" (ya que 0 1-XFER son incompresibles por naturaleza) y las latencias resultantes rigen el límite de rendimiento para cualquier solución GPGPU, ya sea computacionalmente intensivo ( leer : donde los costos de procesamiento están perdonando un poco más una XFER de baja latencia ...) o no ( léase : donde (puede ser para sorpresa de alguien) las CPU-s son más rápidas en el procesamiento de extremo a extremo, que las telas de GPU [citas disponibles] )
fuente
Mire este diagrama de "escalera", que ilustra perfectamente diferentes tiempos de acceso (en términos de tics de reloj). Observe que la CPU roja tiene un "paso" adicional, probablemente porque tiene L4 (mientras que otros no).
Tomado de este artículo de Extremetech.
En informática se llama "complejidad de E / S".
fuente