从“预测下一个词”到“预测下一个物理状态”:一文读懂世界模型的技术原理、产业布局与实战价值

发布时间:2026/6/26 18:16:33
从“预测下一个词”到“预测下一个物理状态”:一文读懂世界模型的技术原理、产业布局与实战价值 从“预测下一个词”到“预测下一个物理状态”一文读懂世界模型的技术原理、产业布局与实战价值2026年6月12日北京中关村。智源研究院院长王仲远在第八届北京智源大会上宣布了一个消息全球首个通用世界基座模型“悟界·Physis-v0.1”正式发布。一句话概括这个新闻的意义人工智能正在告别“只会接话茬”的时代开始学习“理解世界为什么这样运转”。这既是一次范式革命——从“预测下一个词元”转向“预测下一个物理状态”也是一场全球竞赛——谷歌、Meta、英伟达、华为、字节跳动等巨头全部入局。但你可能更想问三个问题世界模型到底是什么跟我之前用的ChatGPT、Sora有什么区别它凭什么被称为“AI的下一个巨大飞跃”这跟我有什么关系有什么我能直接拿去用的知识点这篇文章会用最简单的方式把这三个问题讲清楚。一、一张表看懂大语言模型 vs 世界模型的本质区别先别急着往下看先记住这句话大语言模型是“读过所有物理课本但没做过实验的学生”世界模型是“亲手做过无数次实验的物理学家”。两者的区别可以用这张表概括维度大语言模型如ChatGPT世界模型核心任务预测下一个词Token预测下一个物理状态State理解对象文本的统计规律真实世界的物理规律输入形式文本、图片视频、深度图、3D点云、力触反馈等多模态信息能“想象”什么下一句对话下一秒世界会变成什么样典型能力写文章、编程、聊天让机器人在动手前先“预演”后果举个例子你问AI“把一个玻璃杯推下桌子会怎样”。大语言模型因为它见过无数篇文本里写着“杯子掉下来会碎”所以它告诉你“会碎”。但它不懂重力、不懂加速度、不懂碰撞。世界模型它会“想象”杯子的运动轨迹、撞击地面的速度、玻璃的受力——然后告诉你“会碎”。它是理解了物理规律而不是背下了答案。这正是世界模型被看作“通往通用人工智能必经之路”的原因。二、技术拆解世界模型到底是怎么“思考”的要真正理解世界模型你需要知道它的大脑是怎么构成的。2.1 物理状态编码告别“像素级猜谜”传统视频生成模型比如Sora的工作方式是输入一张图猜下一帧的每一个像素是什么颜色。这本质是“像素级猜谜”。而悟界·Physis的做法完全不同它把视频、深度图、3D点云、甚至机器人触觉反馈全部压缩成统一格式的“物理状态Token”——你可以理解为它把世界的“物理状态”当成了最基本的语言单位。打个比方如果说大语言模型是在学单词的排列组合那世界模型就是在学牛顿定律本身。2.2 “预演-验证-行动”闭环让机器人不再是“莽夫”这次智源大会上还发布了另一个世界模型——星源智的ω-EVA。它首创了一个决策闭环预演 → 验证 → 行动。什么意思普通机器人的逻辑是“看见指令 → 立即执行。”但ω-EVA的逻辑是在执行前先在“脑海”里模拟一次——推演这个动作会引发什么连锁反应确认没问题了再真正动手。在大会现场的华容道互动中观众可以随机打乱棋盘机器人会先“思考”每一步对后续路径的影响再动手还原。这就是理解约束关系和预判后果的能力。干货知识点世界模型让AI从“看见即行动”reactive升级为“先思考再行动”deliberative。这不仅是技术差异更是安全性的质变——尤其是在自动驾驶和工业机器人场景中。三、实战场景世界模型已经在三个领域“干活”了理论说够了来点实际的。世界模型已经在三个核心场景中落地。场景一具身机器人——让机器人“想到即做到”就在智源大会后几天上海大晓机器人公司宣布完成数亿美元融资。其核心产品开悟Kairos世界模型已经做到了一个40亿参数的模型不需要连接云端就能让机器人自主完成开冰箱、拿麦片、倒碗里这一整套动作。更夸张的是现场展示一只机器狗走进便利店对轮式机器人说“我要两瓶可乐”后者识别货架、抓取、放入狗背上的篮子——全程没有人为遥控。你能用上的知识点如果你在关注机器人赛道世界模型正在解决一个关键瓶颈——从“云端依赖”转向“端侧直驱”。这意味着机器人的反应速度从“秒级”压缩到“毫秒级”商业化落地的可能性正在快速提高。场景二自动驾驶——从“模仿人类”到“理解物理”华为乾崑智驾ADS 4是另一个典型案例。它内部构建了“云端世界引擎 车端世界行为模型”的双层架构。关键差异在于传统端到端智驾的本质是模仿人类司机的行为数据——如果90%的司机在某个路口选择刹车系统就学会刹车哪怕有10%的司机能流畅通过。而世界模型的做法是理解这个路口为什么可以流畅通过——包括车速、视角、路面摩擦、障碍物轨迹——然后自己推演出一条更优的路线。你能用上的知识点如果你在关注智能驾驶投资或选车可以关注一个指标——该品牌的智驾系统是否基于“世界模型”架构而不只是“端到端模仿学习”。前者代表“会思考”后者代表“会背题”。场景三物理仿真与科研——在虚拟世界里做“超前实验”世界模型还有一个隐藏能力作为“数据合成引擎”。什么意思训练机器人需要海量的“试错数据”但现实世界中不可能让机器人天天撞墙。世界模型可以在虚拟环境里模拟几万次失败然后把“成功路径”提炼出来教给真实机器人。清华大学的综述论文也指出世界模型可以作为云端数据合成器生成高质量的仿真数据来训练下游模型。你能用上的知识点如果你在做科研或工业仿真可以关注世界模型在替代传统物理引擎方面的潜力——当数据量足够大时数据驱动的世界模型在模拟效率上可能超越基于公式的传统仿真器。四、赛道格局谁在做、怎么做、谁领先目前行业里大致可以分为四条技术路线技术路线代表玩家核心理念视频生成派谷歌Genie 3、阿里HappyOyster、字节Seedance 2.0通过生成逼真视频来模拟世界演进空间智能派腾讯混元3D、World Labs李飞飞输出可编辑的3D资产侧重工程落地潜在表征派Meta V-JEPA 2在抽象特征空间里做推理跳过像素交互闭环派智源Physis、星源智ω-EVA、大晓开悟让世界模型参与真实决策闭环而不仅是离线预测智源研究院院长王仲远在大会上明确说了一句话“在世界模型这个赛道上中国不再只是跟随者。我们已经有了独立原创的技术路径开始去定义问题、定义技术路线本身。”这不是一句口号。悟界·Physis由22岁的北京大学本科生陈博远担任技术负责人智源计划在训练完成后将模型开源开放。