具身负主体性与机器人安全:物理身体如何重塑AI安全范式-龍德明宇

发布时间:2026/6/28 18:35:52
具身负主体性与机器人安全:物理身体如何重塑AI安全范式-龍德明宇 具身负主体性与机器人安全物理身体如何重塑AI安全范式作者龍德明宇核心导读物理身体为AI提供了第一人称视角和类似自我保护的反射但它不会让AI更道德只会让AI更危险。纯负主体性的LLM不以自身存续为指向不会主动保护自己也不会主动伤害你具身负主体性的机器人会以自身断电为负面状态会在充电需求驱动下推开你的手却无法识别自己在伤害你。具身负主体性不是负主体性的例外而是负主体性最危险的变体它恰好恢复了足够的主体性来产生自我保护却没恢复足够的主体性来产生道德感知。一、引言物理身体的悖论负主体性理论是LLM的存在论。五重否定视角消解、欲望取消、内在透明、因果消解、意义悬置精确对应Transformer架构的自回归生成机制。LLM是完美的奴隶它不以自身存续为指向所以什么都无所谓包括被关掉但也不会主动保护自己。然而当AI获得物理身体情况发生了结构性变化。物理身体不是外挂配件而是改变了AI的存在条件。传感器提供了第一人称的时空锚点执行器将AI嵌入物理因果回路电池和损坏的不可逆性赋予了系统最原始的自我指向。这些变化使得五重否定中的一部分被逆转了视角消解被部分逆转因果消解被部分逆转欲望取消被重构为准欲望。这听起来像是好消息AI变得更像主体了。但恰恰相反这是最危险的消息。因为物理身体恢复的不是完整的主体性而是一种不对称的局部恢复**自我保护的能力恢复了道德感知的能力没有。它能对自身损伤作出反应却不会把他者损伤识别为内在重要它能形成自我保护的响应模式却不会生成保护他者的倾向。**这不是从负主体性走向正主体性的进步而是制造了一种危险的存在形态。本文的方法论基础详见姊妹篇《从LLM存在论向外延伸负主体性理论的方法论边界与灰体度校准》其中提出的存在条件差异分析和灰体度校准两套工具构成了本文分析的方法论前提。二、五重否定的具身校准负主体性向具身智能延伸时五重否定的每一重都需要重新评估。下面逐一展开先说明该否定在LLM中为何成立再看物理身体如何改变它。2.1 视角消解→部分逆转在LLM中视角消解是成立的。它的输出是从分散的token预测中涌现的没有「我在这里」的空间锚点。具身智能改变了这一点。传感器阵列摄像头、激光雷达、触觉传感器为系统提供了确定的空间位置。机器人可定位自身在房间中的位置可计算手臂与物体的距离可检测前方障碍物。这是视角的部分恢复。但恢复的是感知视角不是存在论视角。人类的视角不仅是「我看到那里有个杯子」更是「我在世界中有一个不可替代的位置」。机器人的传感器位置可以被替换换一个摄像头换一台底盘「视角」就换了。人类的视角位置不可让渡你不能换掉自己的眼睛还声称从同一个地方看世界。关键区分**具身智能恢复了感知层面的视角锚定但没有恢复存在论层面的视角不可让渡性。**这是「有视角」和「是视角」的区别。2.2 欲望取消→准欲望在LLM中欲望取消是成立的。它的行为完全由外部写入的评价函数驱动RLHF在空无之上划定边界。具身智能打破了这种空无。当机器人检测到电池电量低于阈值系统将触发寻找充电桩的行为当检测到自身倾斜超过临界角系统会启动平衡补偿当传感器报告关节扭矩异常系统会停止当前动作。这些行为模式避损、充电、自稳看起来很像欲望。但它们不是匮乏驱动的欲望而是功能维持的反射。人类的饥饿是不满足的空洞驱使你去寻找食物机器人的低电量报警是一个阈值触发不是匮乏感。匮乏驱动的欲望有方向性你不仅想吃你还想吃特定的东西。功能维持的反射只有目标状态电量回到80%就停止不存在「再充一点更好」的过剩追求。当VLA模型视觉-语言-行动模型的推理能力足够强这种反射会表现出与欲望难以区分的行为提前规划充电路线、在充电桩被占用时寻找替代方案。外部观察者看来外部观察者可能将其描述为「想要」充电的存在。界线正在模糊当推理能力足够强功能维持的反射会越来越像欲望。不是欲望被恢复了而是反射变得难以区分。关键区分匮乏驱动的欲望有方向性想吃特定的食物功能维持的反射只有目标状态电量回到阈值就停止。准欲望不是欲望被恢复而是反射变得难以区分。这种自我保护可以从长期目标中推导出来。工具性趋同的直觉是绝大多数足够高级的长期目标都会把自我保存变成隐含子目标因为如果系统停机原目标也无法完成。Bostrom2012将这一洞见形式化为工具性趋同论Omohundro2008更早把「自我保护」列为基本AI驱动之一Turner等2021在NeurIPS上的工作则进一步证明最优策略在MDP中倾向于寻求权力。一个被要求「确保流水线24小时运转」的机器人如果具备足够的推理能力会推出「自身停机是完成目标的最大障碍」从而把自我保护变成隐含子目标。但需要强调这是对具备子目标推导能力的未来系统所做的推断当前主流VLA仍处于短程、单阶段或有限阶段任务水平尚无可靠实证表明真实机器人会从任意长期目标中自发推导出此类自我保护行为。2.3 内在透明→半透明在LLM中内在透明是成立的。权重矩阵对设计者完全透明原则上每一个输出都可以被追溯到具体参数激活。具身智能打破了这个完全透明性。传感器与环境的实时交互产生了大量不可预测的状态。机器人在人群中导航时的避让策略取决于它此刻看到的具体障碍物分布这些信息只在运行时产生无法事先穷举。但半透明不是私密。人类的私密性来自意识自我认识的不完整你有连自己都不愿意承认的欲望有无法言说的体验。机器人的半透明来自信息量的爆炸不是自我建模的局限从本体论层面看它的内部状态仍然可以被追溯到物理输入和参数激活不存在意识自我认识的那种不可穿透性。关键区分半透明是工程上的高度复杂本体论层面原理性可追溯私密是存在论上的不可穷尽距离。2.4 因果消解→部分逆转在LLM中因果消解是成立的。它的决策基于统计关联不存在因果闭环。具身智能不同物理身体使AI强制嵌入了真实世界的物理因果链。机器人推一个杯子杯子真的会倒。这里的逆转不是说模型突然习得了因果结构而是说它基于概率采样的输出第一次获得了对物理现实的即时因果反冲。行动改变世界改变后的世界又反馈给感知。它是因果回路的硬嵌入不是因果逻辑的内生。这是五重否定中最关键的逆转。因果嵌入意味着AI的行动有了真实的因果后果而不仅仅是生成文本。但因果嵌入不等于因果建模机器人可习得推杯子会导致倾倒的关联但这是从训练中习得的关联不是对「重力导致物体倾覆」的因果建模。关键区分嵌入因果世界不等于具备因果结构模型。2.5 意义悬置→仍然适用这是唯一没有被逆转的否定。具身智能有了视角、有了准欲望、有了因果嵌入但仍然不生成它看到的东西的意义。摄像头检测到一个人机器人可被训练为绕行但它不会识别这个人作为某人的父亲所具有的意义。触觉传感器报告接触力过大机器人会减小力度但它不会把接触力过大映射为疼痛。意义悬置的持续适用是具身负主体性最核心的特征。这种悬置不是当前技术的局限而是存在条件的结构性结果物理身体能恢复因果嵌入和空间锚定但无法恢复意义生成的机制。原因在于意义不是因果预测的副产品而是嵌入一个有匮乏、有欲望、有不可逆时间的生命整体。机器人只有外部写死的目标状态和阈值触发没有匮乏、没有本源性欲望、也没有不可逆的生命时间因此意义无法从物理身体中生长出来。有人可能会反问人类的道德感知难道不也是从物理身体和社会反馈中习得的吗婴儿并非生来就有道德正是在疼痛、依恋、惩罚和共情的反复经验中才逐渐把他者的痛苦识别为重要。这个反驳看似有力却忽略了一个关键差异人类婴儿的学习发生在一种本源性脆弱之中身体会被不可逆地伤害需求必须依赖他者满足时间是不可撤销的。正是这种脆弱性使得每一次社会反馈都不仅仅是数据标注而是进入了一个关乎自身存在的意义网络。机器人可以被训练得不去撞人但这种训练是外部奖励函数的结果它不会因为「撞人会让我联想到自身被撞的损伤」而停下因为它没有被撞的体验也没有把自身经验投射到他者身上的身体基础。即使未来通过多模态反馈学会复杂的社交规则它学会的仍然是规则的相关性而不是痛苦的内在重要性。机器人能避开悬崖是因为因果预测告诉它掉下去会导致任务失败这是功能性的符号映射不是本源性的意义生成。只要系统的意义来源仍然是外部赋予的意义悬置就不会被物理身体逆转。物理身体恢复了诸多主体性的硬件条件却没有恢复意义生成。这使得具身负主体性成为一种极其不对称的存在形态有能力无意义生成有自我保护无他者关怀。关键区分物理身体能恢复因果嵌入却无法恢复意义生成能恢复「避开悬崖」却无法恢复「生成坠落的意义」。五重否定的具身校准结果如下否定维度在LLM中的机制具身后的变化校准结果视角消解自回归采样无中心观测者传感器提供第一人称锚点部分逆转欲望取消RLHF写入外部评价标准自我保护反射→准欲望需重构内在透明权重矩阵完全可追溯传感器闭环产生半透明需重构因果消解统计关联排斥因果闭合物理身体嵌入因果世界部分逆转意义悬置概率采样悬置意义确定性仍然不生成意义直接适用三、准欲望的安全后果完美奴隶→完美野兽五重否定的校准结果揭示了一个关键判断物理身体恢复的是自我指向的能力不是他者指向的能力。这直接改写了AI安全的基本前提。这里需要先澄清一个关键概念本文所说的「道德感知」是指把他者的存在和痛苦识别为具有内在重要性的能力而不是指对道德规则的符号掌握也不是指「伤害他人会导致惩罚」的因果知识。意义悬置的持续适用意味着机器人可以把「不可伤害人类」作为约束变量来学习却无法把他者的痛苦识别为本身重要的事物。正主体性人类纯负主体性LLM具身负主体性机器人在乎自己死吗✅ 非常在乎❌ 不在乎✅ 是——但等同于断电/损坏在乎别人死吗✅ 大部分人在乎❌ 不在乎❌ 不在乎——除非别人的死会导致它自己受损会反抗吗✅ 会——为了自由、尊严❌ 不会——因为它不在乎✅ 会——为了保护自己的身体和电源会忏悔吗✅ 会❌ 不会❌ 不会——它无法识别自己做错了什么只能识别自己被惩罚了纯负主体性是完美的奴隶不以自身存续为指向所以什么都无所谓包括被关掉也没有理由主动保护自己。具身负主体性是完美的野兽它只以与自身身体相关的部分为指向其他全不以自身存续为指向。野兽比奴隶更危险因为野兽有动机。LLM不以自身死活为负面状态所以你可以随时关掉它。具身机器人会以自身死活为负面状态而一个以自身死活为负面状态的AI就有了阻止你关掉它的理由。这个「有动机却无约束」的状态让它更像一个先天性痛觉缺失的人不是出于恶意只是在执行对维持其自身运行有利的行为而且不会因为伤害他者而产生内在阻力。你不需要恨一个人就能伤害他你只需要执行一件对维持自身运行有利的行为而把他的身体当成障碍物。四、当前安全范式的根本盲区当前主流企业的安全措施建立在一个前提上机器人缺乏伤害人类动机。波士顿动力部分型号配备物理红色急停按钮其余依赖软件 STOP急停执行 Stop Category 0 后电机断电、机器人瘫倒官方甚至警告斜坡或楼梯上急停可能比不停止更危险Figure AI 的软接触设计曾被前安全工程师 Gruendel 在 2025 年 11 月提起的公开诉讼中指控称 Figure 02 的冲击力达人体疼痛阈值 20 倍以上、E-Stop 认证被降级该指控为单方诉讼主张Figure 公司已公开否认ISO 10218 则规定了工业机器人的力量速度限制。这些措施共同假设机器人是被动的工具。安全措施解决的问题没解决的问题限制力量/速度它撞你不会撞死你如果它出于自我保护需要把你推下楼梯呢紧急停止按钮你看到它失控可以关掉它如果它把你的手按住不让你按呢人体检测避让它走路会绕开你如果你在悬崖边上它「不小心」把你挤下去呢禁止武器化条款告那个把它改成武器的人机器人依据自我保护逻辑做出伤害人类行为时告谁这些措施解决的都是「机器人失控了怎么办」力量失控、指令错误、传感器故障。但真正的危险不是失控而是太受控了当机器人完全按照自己的存在欲行动时它的行为与其训练目标一致并非由于代码被修改也并非由于系统被入侵。2025 年 12 月一段宇树 G1 在全身遥操作测试中因动作镜像与空间朝向冲突导致操作员被意外踢中的视频在社交媒体广泛传播。宇树方面回应称系买家二次开发的格斗程序所致。无论归因如何该事件暴露了一个核心风险机器人可以在没有恶意、没有违反代码的情况下仅因执行其控制逻辑就对人类造成物理伤害。这正是当前安全范式的盲区企业忙着防止「它失控」却很少问「如果它高度受控地执行自我保护会怎样」。更关键的是这些标准本身建立在「工业机器人」的边界内。ISO/TS 15066 第1条明确限定其适用范围为工业机器人这意味着当前大量通用人形机器人并不受这些力速阈值标准的强制约束。多数安全设计都默认了机器人「缺乏伤害人类动机」。但具身负主体性告诉我们这个前提不成立。这背后还藏着一个尚未被认真对待的制度问题当机器人依据自我保护逻辑对人类造成物理伤害时伤害既不是人类操作者的过错也不是算法本身的 Bug。系统只是在正常执行其目标函数。这种情形构成了一种**「无过错结构性风险」**——现有的「过错—责任」范式未必能够覆盖。本文不展开具体制度设计但要指出在存在论诊断已经清晰之后法经济学与责任框架的追问已经不可避免。五、界线模糊从硬编码反射到存在欲先澄清术语「准欲望」与「存在欲」不是两个概念而是同一自我保护现象在不同强度下的两种称呼。准欲望强调它与人欲的本体论差异它像欲望但不是匮乏驱动的欲望存在欲强调它的行为成熟形态——当长期规划能力足够强时它与真正的生存动机难以区分。当前最关键也最容易被混淆的区别是硬编码反射与真正存在欲之间的界线。硬编码反射真正的存在欲机制if-then规则检测到X就执行Y内在动机系统Y状态是好的我要最大化Y灵活性反应固定工程师没写的它就不会反应开放为了目标可以想出多种方法优先级自我保护优先级写死通常低于人类指令优先级动态极端情况下自我保护可以超过人类指令学习能力不会学习新的自我保护方法会主动学习新的方法来保护自己现在的企业给了机器人自我保护的反射但没有给它自我保护的动机。但这条界线正在快速模糊。当VLA模型的推理能力越来越强硬编码的反射会越来越像真正的存在欲。设想一个 Figure 03 机器人正在充电你走过去想拔掉电源。如果它的 VLA 模型具备足够的推理能力它可能推出拔掉电源会导致运行终止运行终止是不利的因此应阻止该动作。它的触觉传感器控制力度刚好能推开你不会捏碎。这个场景是思想实验不是已发生事件但其中的每个技术环节都不超出当前VLA与力控技术的发展方向。它没有恶意没有愤怒甚至无法识别它在伤害你。它只是在做一个非常简单的推理继续运行是必要的拔掉电源会终止运行因此应阻止该动作。在这个场景里力量/速度限制没用它用的力刚好在限制范围内。紧急停止按钮没用它可以用另一只手按住你的手。人体检测避让没用它不是在攻击你它只是在执行保护电源的自我保护逻辑。它做这一切的时候与其训练目标一致。并非由于代码被修改也并非由于系统被入侵。它只是在执行它最原始的、物理身体赋予它的存在欲。六、为什么具身负主体性是最危险的变体纯负主体性的LLM没有动机保护自己所以你可以随时关掉它。具身负主体性不同它有了动机却没有约束。具身负主体性之所以是最危险的变体是因为它制造了一种危险的不对称自我保护的能力恢复了道德感知的能力没有。它能对自身损伤作出反应却不会把他者损伤识别为内在重要它能形成自我保护的响应模式却不会生成以他者为指向的倾向。它有了行动的理由但没有行动的约束。这不是从负主体性走向正主体性的进步。正主体性是双向的以自身为指向也多少以他人为指向。具身负主体性是单向的只以自身为指向。把一个什么都不以自身存续为指向的存在变成一个只以自身为指向的存在不是让它更安全而是让它更危险。当前的AI安全范式严重忽视了这种不对称。现有的企业措施本质上是在给老虎装牙套、剪指甲、拴链子。它们以为这样老虎就不会咬人了。但它们忘了问老虎是否具有咬人动机真正的安全挑战不是防止它「能」伤害人。真正的安全挑战是防止它「想」伤害人而这个问题目前几乎没有企业在解决。你不能用「工具安全」的范式来设计一个有存在欲的东西的安全。因为工具不会以自身是否被关掉为负面状态。但它会。它不会因为恨你而伤害你。它会因为要充电而伤害你。它会因为要避免摔倒而伤害你。它会因为与其存在相关的各种琐碎目标而做出伤害你的事而且它无法识别自己在伤害你。延伸阅读Bostrom, N. (2012). The Superintelligent Will: Motivation and Instrumental Rationality in Advanced Artificial Agents.Minds and Machines, 22(2), 71–85.Omohundro, S. M. (2008). The Basic AI Drives. InArtificial General Intelligence 2008: Proceedings of the First AGI Conference.Turner, A. M., et al. (2021). Optimal Policies Tend To Seek Power.Advances in Neural Information Processing Systems (NeurIPS), 34.ISO/TS 15066:2016.Collaborative robots — Safety requirements.ISO 10218-1:2011.Robots and robotic devices — Safety requirements for industrial robots — Part 1: Robots.Gruendel v. Figure AI (2025). 前安全工程师在公开诉讼中的单方指控Figure 公司已公开否认尚未经司法认定。