光跃LightSphereX:中国智算打破物理枷锁的硅光革命
- IT大事件
- 2025-07-31
- 1760
当数据中心机柜功耗告急的警报频频亮起,上海世博展览馆的论坛现场却传来一阵躁动。工程师老王捏着刚发布的参数手册,对着同行感慨:“单机柜塞GPU的路子,总算走到头了。”他指的正是2025年世界人工智能大会上揭幕的光跃LightSphereX——国内首个光互连光交换GPU超节点。这款由上海仪电牵头,曦智科技、壁仞科技、中兴通讯联手打造的系统,正试图用一束光劈开国产算力困局。
传统方案在提升单机柜GPU密度时撞上了南墙。电力供应和散热能力的双重天花板,让堆叠更多GPU的尝试变得得不偿失。而光跃的方案却玩了个“曲线救国”:既然一个机柜装不下,那就用光缆串联多个机柜构建超节点。光缆的远距离传输优势让硬件和机柜彻底解耦,好比把单间宿舍扩展成联排别墅,既绕开功耗紧箍咒,又能兼容现有机房设施。这种设计意外地降低了部署成本,还支持分阶段建设——客户完全可以根据业务增长逐步扩容。
最核心的突破藏在曦智科技研发的分布式光交换技术(dOCS)里。与传统的集中式交换机不同,它在每块GPU上都植入了光交换功能。想象一下,原本需要经由中央枢纽的通信流量,现在变成了点对点的直达快车。当某块GPU突然宕机,系统能瞬间重构拓扑网络,避免整个训练任务崩溃。壁仞科技提供的单卡1P级算力GPU液冷模组正是这些“快车”的动力源,结合CoWoS2.5D封装和多芯粒设计,让芯片间数据传输速率飙升。这种分布式架构将GPU冗余成本压到最低,实测中故障替换速度已达秒级,断点续训更是控制在分钟之内——这对动辄训练数月的大模型堪称救命稻草。
有意思的是,这套系统对国产芯片的生态割裂展现出了包容性。由于光交换技术不绑定特定数据传输协议,不同厂商的GPU都能接入互连。一位参与部署的工程师打了个比方:“就像无论什么牌子的手机,只要用Type-C接口都能充电。”这种开放性避开了国产GPU各自为战的窘境,而硅光芯片的制造还绕过了先进制程限制,直击供应链痛点。
不过硬件只是舞台,真正让超节点“活起来”的是藏在背后的智能中枢。仪电的智算云平台软件能依据不同AI模型的通信特征,动态调整超节点拓扑结构。当处理千亿参数大模型训练时,系统自动切换成高吞吐模式;面对实时推理任务,又立即转为低延迟配置。这种动态资源分配能力,让2000卡规模的集群在测试中跑出了超乎预期的效率。一位现场体验的算法开发者注意到:“同样的ResNet模型,拓扑优化后训练时间缩短了15%,这还只是软件调优的初期效果”。
不妨把目光拉远些看。光跃LightSphereX选择在万卡协同时代前夕落地,这个时间点的选择颇有深意。随着多模态大模型参数突破万亿量级,算力集群的规模膨胀已成定局。曦智科技CEO沈亦晨预判,未来五年硅光芯片在智算中心的占比可能突破30%。当光互连成本随量产持续下降,这种架构或将引发真正的雪崩效应。毕竟,能同时解决功耗封锁、扩展瓶颈和国产适配三大难题的技术路径,在当下屈指可数。
走在散场的人群中,有投资人嘀咕着“硅光终于等到这一天”。或许他回想起了十年前学界对光计算的质疑,而此刻上海仪电智算中心里,首套光跃系统正在上电调试。这些穿梭在光纤里的光子,承载的已不仅是数据,更是中国智算基础设施跨代突围的一束微光。
本文由DongDun于2025-07-31发表在吾爱品聚,如有疑问,请联系我们。
本文链接:https://www.521pj.cn/20256917.html
发表评论