当前位置:首页 > IT大事件 > 正文

商汤科技林达华断言:AI突破语言牢笼,世界交互才是下一站

商汤科技林达华断言:AI突破语言牢笼,世界交互才是下一站 多模态AGI 世界交互 商汤林达华 日日新大模型 具身智能 图文交错思维 原生多模态 通用人工智能 第1张

   2025年8月,上海世博中心人工智能大会的余温未散,商汤科技联合创始人林达华的一篇万字长文再度搅动AI界。他抛出一个颠覆性观点:现存文本语料终将被耗尽,人工智能的下一站必须超越语言符号,回归与真实世界的交互——这才是智能的本源。

   语言曾被视为智能的圣杯。从ChatGPT到文言一心,大语言模型以流畅对话迷惑了世界。但林达华直指要害:语言只是人类智能演进中的副产品,是描述世界的工具而非世界本身。当全球科技公司还在文本的围城里厮杀时,他警示“单靠语言模型无法构建真正意义上的通用人工智能(AGI)”。这一论断背后是冰冷的数据现实——人类数千年积累的文本语料,正在被全球AI系统以指数级速度吞噬。

   破局之路何在?商汤押注“原生多模态”。2024年5月,商汤投入数千P算力进行对比实验,结果颠覆行业共识:将视觉与语言在预训练中段融合的单一模型,性能全面碾压割裂的专用模型。当国内厂商普遍采用“视觉嫁接语言”的捷径时,商汤彻底转向统一架构,从“日日新6.0”起只发布多模态模型。

   技术进化的脉络在林达华笔下具象化为“四次破壁”:从Transformer突破序列建模,到语言与视觉会师;而真正的质变发生在第三次破壁——日日新6.5实现的“图文交错思维”。想象一个解几何题的AI:当传统模型将图像转为文本描述后便与视觉切断联系,商汤的模型却能随时调用工具在原图绘制辅助线,将新示意图插入推理链条。这种图文交织的思考模式,在测试中让综合推理能力飙升22分。

   数据战场同样硝烟弥漫。互联网天然图文对稀缺得像沙漠中的水洼,商汤构建的自动化管线却能从文本合成图像,再反向生成问答对。如今其训练库中70%的高质量图文对由机器合成,并通过独创的“续训验证”机制筛选——新数据必须经小规模训练验证性能增益,才能进入主战场。

   模型架构也在重构。轻量化视觉编码器搭配更深更窄的多模态主干网络,使日日新6.5的效率跃升3倍。这恰与林达华在WAIC圆桌上激辩的议题呼应:当英伟达主张用物理仿真生成边缘案例数据,智谱华章王绍兰疾呼行业数据共享,商汤选择用架构创新直面算力瓶颈。

   物理世界才是终极考场。第四次破壁指向“具身智能”,让AI在虚拟与现实交融中学习推门、避障甚至急救。商汤的自动驾驶数据成为关键养料,而林达华预言:“当大模型吸收完最后一个文本字符时,推开窗户感知微风,才是AGI真正的破晓。”

发表评论