显卡性能对比

显卡性能对比
gogongxtNVIDIA显卡对比
| GPU 型号 | 架构 | FP64 TFLOPS | FP32 TFLOPS | FP16 TFLOPS | INT8 TFLOPS | FP8 TFLOPS | FP4 TFLOPS | 显存 | 显存类型 | 内存带宽(GB/s) | NVLink | RDMA | PCIe | CUDA 核心 | TDP (W) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| V100 | Volta | 7.8 | 15.7 | 125 | 250 | — | — | 16/32 GB | HBM2 | 900 | 300 GB/s | ✓ | PCIe 3.0 | 5120 | 250–300 |
| A100 | Ampere | 9.7 | 19.5 | 312 | 624 | — | — | 40/80 GB | HBM2e | 1555/2039 | 600 GB/s | ✓ | PCIe 4.0 | 6912 | 300–400 |
| A800 | Ampere | 9.7 | 19.5 | 312 | 624 | — | — | 40 GB | HBM2 | 1500 | 400 GB/s | ||||
| RTX 4090 | Ada | — | 82.6 | 165 | 330 | 330 | — | 24 GB | GDDR6X | 1000 | - | — | PCIe 4.0 | 16384 | ~450 |
| RTX 6000 Ada | Ada | — | 91.1 | 182 | 364 | 364 | — | 48 GB | GDDR6 | 960 | - | — | PCIe 4.0 | 18176* | ~300 |
| RTX 5090 | Blackwell | — | 104.8 | 419 | 838 | 838 | — | 32 GB | GDDR7 | 1797 | - | — | PCIe Gen5 | 21760 | ~575 |
| RTX PRO 6000 Blackwell | Blackwell | — | 117 | — | 1850 | — | 3700 | 96 GB | GDDR7 | 1597 | 900 GB/s | — | PCIe Gen5 | 24064 | 600 |
| H100 (SXM/P / PCIe) | Hopper | 34 | 67 | 1979 | 3958 | 3958 | — | 80/94 GB | HBM3 | 3350/3900 | 400 GB/s | ✓ | PCIe Gen5 | 18432 | 350/700 |
| H200 (NVL/SXM) | Hopper | 34 | 67 | ~1980 | ~3958 | ~3958 | — | 141 GB | HBM3e | 4800 | 900 GB/s | ✓ | PCIe Gen5 | 18432 | 600–700 |
| H20 | Hopper 剪裁 | — | 44 | 296 | 592 | — | — | 96 GB | HBM3 | 4000 | 900 GB/s | ✓ | PCIe Gen5 | — | 350 |
| H800 | Hopper 变体 | — | — | — | — | — | — | 80/94 GB | HBM2e/HBM3 | 2000/3900 | - | ✓ | PCIe Gen5 | — | — |
| L20 | Ada | — | — | — | — | — | — | 16/48 GB | GDDR6 ECC | 448/864 | - | — | PCIe 4.0 | — | — |
| L40 | Ada | — | 90.5 | — | — | — | — | 48 GB | GDDR6 ECC | 864 | 1.8 TB/s | — | PCIe 4.0 | — | ~300 |
| B100 | Blackwell | 30 | 1125 | 2250 | 4500 | 4500 | 9000 | 96/192 GB | HBM3e | 7700–8000 | - | ✓ | PCIe Gen5 | — | ~1000 |
| B200 | Blackwell 系统级 | 37 | 1125 | 4500 | 9000 | 9000 | 18000 | 180 GB | HBM3e | 7700 | - | ✓ | PCIe Gen5 | — | ~1000 |
| B300 | Blackwell 系统聚合 | 系统级 | 系统级 | 系统级 | 系统级 | 系统级 | 系统级 | 聚合 | 聚合 | 聚合 | - | ✓ | 系统级 | — | 大规模 |
注:
带*的数据为未确认或推测值,请以官方发布为准
FP64 (双精度):H20, H800等特供卡为了合规,将双精度算力限制在极低水平,不适合做科学模拟(如气象、物理仿真)。
FP4:Blackwell 架构 (B系列/50系) 独有的精度,适合超大模型的极速推理。
H20 的特殊性:你可以看到 H20 的显存很大 (96GB),带宽也很高 (4.0TB/s),甚至高于原版 H100 (3.35TB/s),但这完全是为了弥补它被锁死的计算核心。它的实际 AI 算力 (FP16) 只有 H100 的 15% 左右,但在显存受限(Memory Bound)的大模型推理场景下,表现会比算力数据看起来好一些。
消费级 vs 企业级:RTX 4090 / 5090 的性价比极高,但最大的短板是 显存太小 (24/32GB) 且 不支持 NVLink。这意味着你无法通过多卡互联来高效训练超大模型,只能做单卡推理或低效率的多卡并行。
FP64 陷阱:如果你是做科学计算(如流体力学、分子动力学),千万不要买 4090/5090 或 H20,必须购买 A100/H100/B200 原版,因为它们的 FP64 算力没有被阉割。
评论
匿名评论隐私政策




