云计算百科
云计算领域专业知识百科平台

GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网

记录一些平时接触到的 GPU 知识。由于是笔记而非教程,因此内容不求连贯,有基础的同学可作查漏补缺之用

  • 1 术语与基础
    • 1.1 PCIe 交换芯片
    • 1.2 NVLink
      • 定义
      • 演进:1/2/3/4 代
      • 监控
    • 1.3 NVSwitch
    • 1.4 NVLink Switch
    • 1.5 HBM (High Bandwidth Memory)
      • 由来
      • 演进:HBM 1/2/2e/3/3e
    • 1.6 带宽单位
  • 2 典型 8*A100/8*A800 主机
    • 2.1 主机内拓扑:2-2-4-6-8-8
      • 存储网卡
      • NVSwitch fabric:intra-node full-mesh
      • 用 nvidia-smi topo 查看拓扑
    • 1.2 GPU 训练集群组网:IDC GPU fabirc
      • 计算网络
      • 存储网络
      • RoCE vs. InfiniBand
    • 1.3 数据链路带宽瓶颈分析
  • 3 典型 8*H100/8*H800 主机
    • 3.1 H100 芯片 layout
    • 3.2 主机内硬件拓扑
    • 3.3 组网
  • 4 典型 4*L40S/8*L40S 主机
    • 4.1 L40S vs A100 配置及特点对比
    • 4.2 L40S 与 A100 性能对比
    • 4.3 L40S 攒机
      • 推荐架构:2-2-4
      • 不推荐架构:2-2-8
赞(0)
未经允许不得转载:网硕互联帮助中心 » GPU 进阶笔记(一):高性能 GPU 服务器硬件拓扑与集群组网
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!