A100 vs V100

A100 vs V100

特性 A100 V100
架构 Ampere (GA100) Volta (GV100)
CUDA核心数量 6,912 5,120
SM数量 108 80
张量核心数量 640 640
张量核心精度支持 FP64, TF32, FP16, BF16, INT8, INT4 FP32, FP16
张量核心性能
显存容量 40GB / 80GB HBM2e 16GB / 32GB HBM2
显存带宽 1555 GB/s 900 GB/s
NVLink带宽 600 GB/s 300 GB/s
PCIe支持 PCIe 4.0 PCIe 3.0
功耗 (TDP) 400W 300W
多实例GPU (MIG) 支持 不支持
稀疏性加速 支持(\(\approx 2 \times V100\)) 不支持

架构

A100引入了TensorFloat-32 (TF32) Tensor Core以及结构化稀疏功能

  • 运行速度比 V100 FP32 FMA 操作快 10 倍(稀疏性快 20 倍)
  • FP16/FP32 混合精度,A100 Tensor Core 的性能是 V100 的 2.5 倍(稀疏性则提高到 5 倍)