显卡性能对比

gogongxt2025-12-122025-12-25

NVIDIA显卡对比

GPU 型号	架构	FP64 TFLOPS	FP32 TFLOPS	FP16 TFLOPS	INT8 TFLOPS	FP8 TFLOPS	FP4 TFLOPS	显存	显存类型	内存带宽(GB/s)	NVLink	RDMA	PCIe	CUDA 核心	TDP (W)
V100	Volta	7.8	15.7	125	250	—	—	16/32 GB	HBM2	900	300 GB/s	✓	PCIe 3.0	5120	250–300
A100	Ampere	9.7	19.5	312	624	—	—	40/80 GB	HBM2e	1555/2039	600 GB/s	✓	PCIe 4.0	6912	300–400
A800	Ampere	9.7	19.5	312	624	—	—	40 GB	HBM2	1500	400 GB/s
RTX 4090	Ada	—	82.6	165	330	330	—	24 GB	GDDR6X	1000	-	—	PCIe 4.0	16384	~450
RTX 6000 Ada	Ada	—	91.1	182	364	364	—	48 GB	GDDR6	960	-	—	PCIe 4.0	18176*	~300
RTX 5090	Blackwell	—	104.8	419	838	838	—	32 GB	GDDR7	1797	-	—	PCIe Gen5	21760	~575
RTX PRO 6000 Blackwell	Blackwell	—	117	—	1850	—	3700	96 GB	GDDR7	1597	900 GB/s	—	PCIe Gen5	24064	600
H100 (SXM/P / PCIe)	Hopper	34	67	1979	3958	3958	—	80/94 GB	HBM3	3350/3900	400 GB/s	✓	PCIe Gen5	18432	350/700
H200 (NVL/SXM)	Hopper	34	67	~1980	~3958	~3958	—	141 GB	HBM3e	4800	900 GB/s	✓	PCIe Gen5	18432	600–700
H20	Hopper 剪裁	—	44	296	592	—	—	96 GB	HBM3	4000	900 GB/s	✓	PCIe Gen5	—	350
H800	Hopper 变体	—	—	—	—	—	—	80/94 GB	HBM2e/HBM3	2000/3900	-	✓	PCIe Gen5	—	—
L20	Ada	—	—	—	—	—	—	16/48 GB	GDDR6 ECC	448/864	-	—	PCIe 4.0	—	—
L40	Ada	—	90.5	—	—	—	—	48 GB	GDDR6 ECC	864	1.8 TB/s	—	PCIe 4.0	—	~300
B100	Blackwell	30	1125	2250	4500	4500	9000	96/192 GB	HBM3e	7700–8000	-	✓	PCIe Gen5	—	~1000
B200	Blackwell 系统级	37	1125	4500	9000	9000	18000	180 GB	HBM3e	7700	-	✓	PCIe Gen5	—	~1000
B300	Blackwell 系统聚合	系统级	系统级	系统级	系统级	系统级	系统级	聚合	聚合	聚合	-	✓	系统级	—	大规模

注：

带*的数据为未确认或推测值，请以官方发布为准
FP64 (双精度)：H20, H800等特供卡为了合规，将双精度算力限制在极低水平，不适合做科学模拟（如气象、物理仿真）。
FP4：Blackwell 架构 (B系列/50系) 独有的精度，适合超大模型的极速推理。
H20 的特殊性：你可以看到 H20 的显存很大 (96GB)，带宽也很高 (4.0TB/s)，甚至高于原版 H100 (3.35TB/s)，但这完全是为了弥补它被锁死的计算核心。它的实际 AI 算力 (FP16) 只有 H100 的 15% 左右，但在显存受限（Memory Bound）的大模型推理场景下，表现会比算力数据看起来好一些。
消费级 vs 企业级：RTX 4090 / 5090 的性价比极高，但最大的短板是显存太小 (24/32GB) 且不支持 NVLink。这意味着你无法通过多卡互联来高效训练超大模型，只能做单卡推理或低效率的多卡并行。
FP64 陷阱：如果你是做科学计算（如流体力学、分子动力学），千万不要买 4090/5090 或 H20，必须购买 A100/H100/B200 原版，因为它们的 FP64 算力没有被阉割。