中国移动段晓东:面向超万卡集群的先进计算技术创新与展望

2024/09/03 责任编辑:零落 访问:1239

近日,由工业和信息化部指导,中国信息通信研究院主办的2024第二届全国先进计算技术创新大赛智能计算专题赛在泉城济南召开,中国科学院院士王小云、中国信息通信研究院副院长王志勤等产学研各界领导嘉宾出席本次大赛,中国移动研究院副院长段晓东受邀参加并发表了题为《面向超万卡集群的先进计算技术创新与展望》的主旨演讲。

1725332486466329.png

段晓东表示,大模型技术正在快速向更大规模、更强能力发展,驱动智算中心从千卡集群向万卡甚至超十万卡集群演进。但超万卡集群的建设仍处于起步阶段,仍有很多科学与工程问题亟待解决,中国移动大力推进全调度以太网GSE、全向智感互联OISA、算力原生CAMA、算力路由CATS等原创核心技术成熟,为超万卡集群的创新突破做好技术储备。

段晓东在演讲中提到,当前大算力和高性能网络已经成为大模型创新落地的关键,随着万亿模型的出现,包括Google、Meta等在内的国内外大型科技公司都在积极投建万卡或超万卡集群,中国移动也正在内蒙古等地建设一批超万卡集群。当前在超万卡集群的建设实践过程中存在一系列的科学问题,包括集群规模提升和集群算力提升不匹配的问题、异构算力统一抽象、跨架构编译及自适应运行问题、算网一体化高效感知和联合路由调度问题等。

为此,中国移动提出了全调度以太网GSE、全向智感互联OISA和“芯合”算力原生CAMA等原创技术,攻关智算中心Scale Out网络和Scale Up互联问题,解决跨架构迁移和混合分布式训练难题。同时,为满足单体智算中心间高效互联及时延敏感型业务需求,中国移动正在大力攻关算力路由CATS和广域高吞吐技术,并开展规模中试验证,目标实现算网因子联合调度优化和广域场景的高效数据传输。

最后段晓东表示,中国移动在构建超万卡集群过程中,积累了非常宝贵的实践经验,同时也遇到了不少难题,希望产业凝聚共识,一起应对超万卡集群建设和运营带来的前所未有的挑战,共创新型智算开放体系,共建AI+新质生产力,共同实现国产智算基础设施的又一次跨越式发展。

本文来源:中国移动研究院

扩展阅读

  • 扫码关注微信公众号