近日,上海人工智能实验室的DeepLink超大规模跨域混训技术结合中国联通的算力智联网AINet长距无损传输技术,在上海临港和山东济南鲍山数据中心间完成了超1500公里跨域的千亿参数AI大模型异构混训试验,经验证等效算力可达单芯片单集群等效算力的95%以上。此外,上海人工智能实验室与中国电信息壤算网合作,实现了北京、上海与贵州等多地智算中心的互联和大模型混训。这些试验的成功落地,标志着超大规模异构智算超远距离互联实现新突破,为全国智能算力互联互通、高效盘活分散算力资源探索出新路径,助力实现全国算力共建、共营、共享。
早在2024年,在上海市通信管理局大力推动下,由同济大学、上海人工智能实验室、上海新型互联网交换中心牵头,联合上海联通、有孚、沐曦、天数智芯、无问芯穹等多家单位,开展了跨域异构算力网络下的人工智能模型分布式训练实验验证工作,经过一年的试验,实现跨域异构混训效率达90%。这标志着在算力基础设施跨域协同调度、异构资源融合与高性能分布式训练等关键领域实现了阶段性技术突破,为超远距离异构混训等试验奠定了坚实基础。
未来,我局将一如既往推动算力基础设施高质量发展,支持DeepLink等跨域异构算力互联解决方案,扩大算力芯片异构类型,推进跨域异构算力网络试验成果在本市算力调度平台率先商用部署,持续优化底层异构芯片的通信传输、跨域调度能力以及大模型并行训练和推理策略,加快形成大模型应用无感知调度异构算力的能力。
本文来源:上海通信圈