商汤科技林达华断言：AI突破语言牢笼，世界交互才是下一站

商汤科技林达华断言：AI突破语言牢笼，世界交互才是下一站多模态AGI 世界交互商汤林达华日日新大模型具身智能图文交错思维原生多模态通用人工智能第1张

2025年8月，上海世博中心人工智能大会的余温未散，商汤科技联合创始人林达华的一篇万字长文再度搅动AI界。他抛出一个颠覆性观点：现存文本语料终将被耗尽，人工智能的下一站必须超越语言符号，回归与真实世界的交互——这才是智能的本源。

语言曾被视为智能的圣杯。从ChatGPT到文言一心，大语言模型以流畅对话迷惑了世界。但林达华直指要害：语言只是人类智能演进中的副产品，是描述世界的工具而非世界本身。当全球科技公司还在文本的围城里厮杀时，他警示“单靠语言模型无法构建真正意义上的通用人工智能（AGI）”。这一论断背后是冰冷的数据现实——人类数千年积累的文本语料，正在被全球AI系统以指数级速度吞噬。

破局之路何在？商汤押注“原生多模态”。2024年5月，商汤投入数千P算力进行对比实验，结果颠覆行业共识：将视觉与语言在预训练中段融合的单一模型，性能全面碾压割裂的专用模型。当国内厂商普遍采用“视觉嫁接语言”的捷径时，商汤彻底转向统一架构，从“日日新6.0”起只发布多模态模型。

技术进化的脉络在林达华笔下具象化为“四次破壁”：从Transformer突破序列建模，到语言与视觉会师；而真正的质变发生在第三次破壁——日日新6.5实现的“图文交错思维”。想象一个解几何题的AI：当传统模型将图像转为文本描述后便与视觉切断联系，商汤的模型却能随时调用工具在原图绘制辅助线，将新示意图插入推理链条。这种图文交织的思考模式，在测试中让综合推理能力飙升22分。

数据战场同样硝烟弥漫。互联网天然图文对稀缺得像沙漠中的水洼，商汤构建的自动化管线却能从文本合成图像，再反向生成问答对。如今其训练库中70%的高质量图文对由机器合成，并通过独创的“续训验证”机制筛选——新数据必须经小规模训练验证性能增益，才能进入主战场。

模型架构也在重构。轻量化视觉编码器搭配更深更窄的多模态主干网络，使日日新6.5的效率跃升3倍。这恰与林达华在WAIC圆桌上激辩的议题呼应：当英伟达主张用物理仿真生成边缘案例数据，智谱华章王绍兰疾呼行业数据共享，商汤选择用架构创新直面算力瓶颈。

物理世界才是终极考场。第四次破壁指向“具身智能”，让AI在虚拟与现实交融中学习推门、避障甚至急救。商汤的自动驾驶数据成为关键养料，而林达华预言：“当大模型吸收完最后一个文本字符时，推开窗户感知微风，才是AGI真正的破晓。”