📚 核心文章
🎯 核心技术点
NVLink & NVSwitch
GPU 间高速互联,单机 8 卡全互联架构,多机扩展方案。
InfiniBand
低延迟 RDMA 网络,Fat-Tree 拓扑设计,拥塞控制策略。
RoCE v2
以太网上的 RDMA,成本优化方案,与 IB 的对比选型。
NCCL
NVIDIA 集合通信库,Ring、Tree、CollNet 算法,调优参数。
GPUDirect
GPU 间直接通信,绕过 CPU,降低延迟与 CPU 开销。
集群监控
GPU 利用率、显存、温度、网络带宽、P2P 带宽监控。
🔧 实践工具
- nccl-tests - NCCL 性能基准测试工具
- ib_write_bw / ib_read_bw - InfiniBand 带宽测试
- nvidia-smi - GPU 状态监控
- dcgmi - 数据中心 GPU 管理工具
📖 推荐资源
- NVIDIA NCCL 官方文档
- InfiniBand 架构规范
- 各大云厂商 GPU 集群最佳实践