阿里云王鹏:可插拔光模块是短期最优解,NPO相比CPO可能落地更快


C114讯 9月12日消息(九九)在昨日上午举行的“2025中国国际光电高峰论坛—超万卡智算集群新型光技术发展论坛”上,阿里云计算有限公司光网络架构师王鹏发表题为《超大规模智算集群光互联演进技术及思考》的主旨演讲。

随着大模型崛起,算力狂飙,超大规模集群涌现。王鹏指出,超大规模智算集群特征是算力密度极高、通信密集型负载、训练任务周期长、系统复杂度爆表、能耗与成本敏感、高带宽与低延迟互联。

超大智算集群的光互联需要在带宽密度、能效、时延、成本以及可靠性之间寻找平衡,“可插拔光模块是短期最优解,中长期NPO/CPO会成为部署关键,终极方案可能是光电芯片融合。”王鹏说。

王鹏认为,CPO相比可插拔光模块会带来产业链的关键环节转移,传统光模块制造商需要在CPO产业链中找到新的定位。系统组装/生产厂商需要承担更多CPO散热、光学耦合以及性能和可靠性测试等工作,此外,封装工艺复杂性、互操作生态、系统可靠性、可量产程度、现场维护性等均需要更多时间解决。

王鹏介绍,阿里云基于400G以太网的智算集群2023年开始规模上线,支持千卡~十万卡GPU灵活部署;基于800G以太网的智算集群将于2026年开始规模上线,支持千卡~十万卡GPU灵活部署。

在演讲中,王鹏还介绍了阿里云的光模块演进路径。从2014年设计40G光模块,到2017年批量交付100G光模块,2021年和2022年,阿里云实现传统数据中心和智算中心的200G光模块批量交付。2023年,400G光模块批量交付。预计2025年在智算中心导入800G光模块,2026年开始导入1.6T光模块。

在光模块技术方案上,Q112 400G及以下速率,采用单多模混布策略,VCSEL/SiPh/EML为主,LPO小批量部署;OSFP 800G (单波100G),采用单多模混布策略,VCSEL/SiPh/EML为主,LPO/LRO技术储备;OSFP 1.6T(单波200G),预计单模技术为主流应用,SiPh和EML方案为主,LPO/LRO技术储备;3.2T光模块暂未启动预研,预计单模技术为主流应用,SiPh和EML方案为主,LPO/LRO/NPO/CPO技术储备。

王鹏最后总结说,近3年内,阿里云智算架构主要聚焦400G、800G、1.6T光模块的批量部署应用。可插拔光模块仍是短中期主力方案,NPO相比CPO可能落地更快,技术演进需循序渐进,避免“为了CPO而CPO”,在带宽、功耗、成本、可靠性之间找到最优解,才是业务发展的主流选择。只有产业协同,才能让光互联真正从“连接”走向“赋能”,支撑AI时代的算力革命。

]article_adlist–>

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » 阿里云王鹏:可插拔光模块是短期最优解,NPO相比CPO可能落地更快

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的