| Fermi |
费米 |
2010 |
512 CUDA Cores |
支持 ECC,双精度性能良好 |
40/28nm,约30亿晶体管 |
Tesla M2050 |
| Kepler |
开普勒 |
2012 |
每 SMX 192 FP32 + 64 FP64 CUDA Cores |
GPU Direct 技术,ECC 支持 |
28nm,约71亿晶体管 |
Tesla K80, K40M |
| Maxwell |
麦克斯韦 |
2014 |
每 SM 128 CUDA Cores |
强调能效,双精度支持有限 |
28nm,约80亿晶体管 |
Quadro M5000 / M6000 |
| Pascal |
帕斯卡 |
2016 |
GP100:60 SM × (64 CUDA + 32 DP Cores) |
NVLink 1.0、HBM2 支持,高性能计算能力 |
16nm,约153亿晶体管 |
Tesla P100, Quadro GP100 |
| Volta |
伏特 |
2017 |
每 SM 包含 32 FP64 + 64 Int32 + 64 FP32 + 8 Tensor Core |
引入第一代 Tensor Core,NVLink2.0、NVSwitch1.0,AI 算力显著提升 |
12nm,约211亿晶体管 |
Tesla V100, Titan V |
| Turing |
图灵 |
2018 |
包含 RT Core + Tensor Core 2.0 |
AI 推理优化,适合轻量级任务部署 |
12nm,约186亿晶体管 |
Tesla T4 |
| Ampere |
安培 |
2020 |
A100:108 SM × (64 FP32 + 4 Tensor Core) |
Tensor Core 3.0;结构稀疏加速;MIG 1.0;NVLink 3.0 |
7nm,约283亿晶体管 |
A100, A30, A10 |
| Hopper |
赫柏 |
2022 |
H100:132 SM × (128 FP32 + Tensor Core 4.0) |
Transformer 引擎 1.0、FP8 支持、MIG 2.0、NVLink 4.0 |
4nm,约800亿晶体管 |
H100 |
| Ada Lovelace L40 |
爱达·洛芙蕾丝 (L40) |
2023‑Early |
18,176 CUDA Cores, Tensor Core Gen4 (568 units), RT Core Gen3 (142 units) |
48GB GDDR6 ECC、企业级稳定性、RT/AI 可视化加速、被广泛用于虚拟化和渲染任务 |
TSMC 定制 4N,约76.3B 晶体管, 608 mm² die |
NVIDIA L40 / L40S |
| Blackwell |
布莱克韦尔 |
2024‑2025 |
GB100 双芯片封装总计 2080 亿晶体管;GB100 包含两颗 GB100 die |
第五代 Tensor Core(支持 FP4/FP6)、第二代 Transformer 引擎、NVLink5.0/NV-HBI,高效能/机密 AI 计算 |
客制 4NP,双 die 总晶体管数约 2080 亿 |
B200 / GB200 NVL72 / RTX Pro 6000 Blackwell 等 |