实时播报 当前加载 1 条内容。
#50
过去两年,行业内也有很多关于大模型训练集群的研究。以往客户购买H公司的卡后,使用传统交换机组网,结果遇到各种问题,因此H公司后续推出了384张卡的集群方案。现在Atlas 950解决方案可以支持8192张卡,也就是8000张卡的集群。当前主流的训练规模在3000卡到1万卡之间,参数规模达到几千亿到万亿。

Atlas 960则可以支持到16K,即15488张卡。达到这种规模后,超节点下的大模型训练效率和网络连接效率都会有显著提升。Atlas 950和960主要面向超大规模训练和超大模型推理,尤其以训练为主,是基础的算力底座。市场对此有很大需求。
浏览时间线
没有更早的内容 已在最新位置
返回顶部