显卡性能对比

NVIDIA显卡对比

GPU 型号 架构 FP64 TFLOPS FP32 TFLOPS FP16 TFLOPS INT8 TFLOPS FP8 TFLOPS FP4 TFLOPS 显存 显存类型 内存带宽(GB/s) NVLink RDMA PCIe CUDA 核心 TDP (W)
V100 Volta 7.8 15.7 125 250 16/32 GB HBM2 900 300 GB/s PCIe 3.0 5120 250–300
A100 Ampere 9.7 19.5 312 624 40/80 GB HBM2e 1555/2039 600 GB/s PCIe 4.0 6912 300–400
A800 Ampere 9.7 19.5 312 624 40 GB HBM2 1500 400 GB/s
RTX 4090 Ada 82.6 165 330 330 24 GB GDDR6X 1000 - PCIe 4.0 16384 ~450
RTX 6000 Ada Ada 91.1 182 364 364 48 GB GDDR6 960 - PCIe 4.0 18176* ~300
RTX 5090 Blackwell 104.8 419 838 838 32 GB GDDR7 1797 - PCIe Gen5 21760 ~575
RTX PRO 6000 Blackwell Blackwell 117 1850 3700 96 GB GDDR7 1597 900 GB/s PCIe Gen5 24064 600
H100 (SXM/P / PCIe) Hopper 34 67 1979 3958 3958 80/94 GB HBM3 3350/3900 400 GB/s PCIe Gen5 18432 350/700
H200 (NVL/SXM) Hopper 34 67 ~1980 ~3958 ~3958 141 GB HBM3e 4800 900 GB/s PCIe Gen5 18432 600–700
H20 Hopper 剪裁 44 296 592 96 GB HBM3 4000 900 GB/s PCIe Gen5 350
H800 Hopper 变体 80/94 GB HBM2e/HBM3 2000/3900 - PCIe Gen5
L20 Ada 16/48 GB GDDR6 ECC 448/864 - PCIe 4.0
L40 Ada 90.5 48 GB GDDR6 ECC 864 1.8 TB/s PCIe 4.0 ~300
B100 Blackwell 30 1125 2250 4500 4500 9000 96/192 GB HBM3e 7700–8000 - PCIe Gen5 ~1000
B200 Blackwell 系统级 37 1125 4500 9000 9000 18000 180 GB HBM3e 7700 - PCIe Gen5 ~1000
B300 Blackwell 系统聚合 系统级 系统级 系统级 系统级 系统级 系统级 聚合 聚合 聚合 - 系统级 大规模

注:

  • 带*的数据为未确认或推测值,请以官方发布为准

  • FP64 (双精度):H20, H800等特供卡为了合规,将双精度算力限制在极低水平,不适合做科学模拟(如气象、物理仿真)。

  • FP4:Blackwell 架构 (B系列/50系) 独有的精度,适合超大模型的极速推理。

  • H20 的特殊性:你可以看到 H20 的显存很大 (96GB),带宽也很高 (4.0TB/s),甚至高于原版 H100 (3.35TB/s),但这完全是为了弥补它被锁死的计算核心。它的实际 AI 算力 (FP16) 只有 H100 的 15% 左右,但在显存受限(Memory Bound)的大模型推理场景下,表现会比算力数据看起来好一些。

  • 消费级 vs 企业级:RTX 4090 / 5090 的性价比极高,但最大的短板是 显存太小 (24/32GB) 且 不支持 NVLink。这意味着你无法通过多卡互联来高效训练超大模型,只能做单卡推理或低效率的多卡并行。

  • FP64 陷阱:如果你是做科学计算(如流体力学、分子动力学),千万不要买 4090/5090 或 H20,必须购买 A100/H100/B200 原版,因为它们的 FP64 算力没有被阉割。