How Do Computation Power Scale?
- Scale-up: 通过增加单节点的算力或者资源提升整体性能
- Scale-out: 增加更多节点.但是需要搭配高速网络支撑
- Scale-across: 通过跨越多个数据中心或者地理位置来拓展整个计算系统.但是需要解决网络时延与抖动、数据一致性、异构设备以及跨域管理与运维等问题.
超节点
高度集成的高性能计算单元,主要解决通信瓶颈和算力协同效率问题.使用高速互联技术形成 HBD (High Bandwidth Domain),此外也会统一内存编址,支持内存语义能力,GPU 之间可以直接读取对方的内存.
网络拓扑
传统数据中心主要是南北流量,指数据中心外部向内部请求数据.一般采用三层树状结构.
3-Tier 三层树状结构
- 接入层:ToR 交换机,负责连接服务器,提供端口密度
- 汇聚层:聚合接入层的流量,执行策略
- 核心层:告诉转发,连接汇聚层并通向外部网络
但是随着云计算应用增加,东西流量开始增多(指内部服务器之间的访问).所以我们去掉三层架构,进行扁平化,演变为 Spine-Leaf 结构.特点是 Leaf 与所有 Spine 节点相连,通过冗余链路消除带宽瓶颈.
如果需要支持更大规模的 HPC 集群就需要专用架构了.例如 Dragonfly, Fat-Tree, Torus 等等