当前位置：首页 > IT大事件 > 正文

光跃LightSphereX：中国智算打破物理枷锁的硅光革命

DongDun
IT大事件
2025-07-31
2361

光跃LightSphereX：中国智算打破物理枷锁的硅光革命光互连光交换 GPU超节点曦智壁仞中兴分布式光交换技术硅光芯片智算集群万卡协同国产算力第1张

当数据中心机柜功耗告急的警报频频亮起，上海世博展览馆的论坛现场却传来一阵躁动。工程师老王捏着刚发布的参数手册，对着同行感慨：“单机柜塞GPU的路子，总算走到头了。”他指的正是2025年世界人工智能大会上揭幕的光跃LightSphereX——国内首个光互连光交换GPU超节点。这款由上海仪电牵头，曦智科技、壁仞科技、中兴通讯联手打造的系统，正试图用一束光劈开国产算力困局。

传统方案在提升单机柜GPU密度时撞上了南墙。电力供应和散热能力的双重天花板，让堆叠更多GPU的尝试变得得不偿失。而光跃的方案却玩了个“曲线救国”：既然一个机柜装不下，那就用光缆串联多个机柜构建超节点。光缆的远距离传输优势让硬件和机柜彻底解耦，好比把单间宿舍扩展成联排别墅，既绕开功耗紧箍咒，又能兼容现有机房设施。这种设计意外地降低了部署成本，还支持分阶段建设——客户完全可以根据业务增长逐步扩容。

最核心的突破藏在曦智科技研发的分布式光交换技术（dOCS）里。与传统的集中式交换机不同，它在每块GPU上都植入了光交换功能。想象一下，原本需要经由中央枢纽的通信流量，现在变成了点对点的直达快车。当某块GPU突然宕机，系统能瞬间重构拓扑网络，避免整个训练任务崩溃。壁仞科技提供的单卡1P级算力GPU液冷模组正是这些“快车”的动力源，结合CoWoS2.5D封装和多芯粒设计，让芯片间数据传输速率飙升。这种分布式架构将GPU冗余成本压到最低，实测中故障替换速度已达秒级，断点续训更是控制在分钟之内——这对动辄训练数月的大模型堪称救命稻草。

有意思的是，这套系统对国产芯片的生态割裂展现出了包容性。由于光交换技术不绑定特定数据传输协议，不同厂商的GPU都能接入互连。一位参与部署的工程师打了个比方：“就像无论什么牌子的手机，只要用Type-C接口都能充电。”这种开放性避开了国产GPU各自为战的窘境，而硅光芯片的制造还绕过了先进制程限制，直击供应链痛点。

不过硬件只是舞台，真正让超节点“活起来”的是藏在背后的智能中枢。仪电的智算云平台软件能依据不同AI模型的通信特征，动态调整超节点拓扑结构。当处理千亿参数大模型训练时，系统自动切换成高吞吐模式；面对实时推理任务，又立即转为低延迟配置。这种动态资源分配能力，让2000卡规模的集群在测试中跑出了超乎预期的效率。一位现场体验的算法开发者注意到：“同样的ResNet模型，拓扑优化后训练时间缩短了15%，这还只是软件调优的初期效果”。

不妨把目光拉远些看。光跃LightSphereX选择在万卡协同时代前夕落地，这个时间点的选择颇有深意。随着多模态大模型参数突破万亿量级，算力集群的规模膨胀已成定局。曦智科技CEO沈亦晨预判，未来五年硅光芯片在智算中心的占比可能突破30%。当光互连成本随量产持续下降，这种架构或将引发真正的雪崩效应。毕竟，能同时解决功耗封锁、扩展瓶颈和国产适配三大难题的技术路径，在当下屈指可数。

走在散场的人群中，有投资人嘀咕着“硅光终于等到这一天”。或许他回想起了十年前学界对光计算的质疑，而此刻上海仪电智算中心里，首套光跃系统正在上电调试。这些穿梭在光纤里的光子，承载的已不仅是数据，更是中国智算基础设施跨代突围的一束微光。