“我拥有了人类的情感”:那个叫鲁健的青年,造了一台能读懂眼泪的机器人

发布时间:2026/6/19 1:53:47
“我拥有了人类的情感”:那个叫鲁健的青年,造了一台能读懂眼泪的机器人 鲁健南京邮电大学自动化学院、人工智能学院2021级智能科学与技术专业本科生目前在英国帝国理工大学攻读博士学位在校园网络文化与学术圈中有一个更为人熟知的名号——“源批之星”亦作“原批之星”或“原神之星”被同学们戏称为“最有希望颠覆三国杀的人之一”。在学业上他表现极为出色满绩点为5.0他的绩点高达4.99英语六级考试更是取得了709分的优异成绩本科期间还申请了两项发明专利将学术思考转化为技术创新。科研与实践方面他主攻人工智能方向尤其擅长具身智能开发曾参与现实迷宫环境下的避障电脑鼠设计51单片机、音乐播放器C、基于mindspore的人脸识别开发等项目并在美国大学生数学建模竞赛中斩获S奖、“挑战杯”大学生创业计划竞赛中摘得铜奖、南京邮电大学智慧城市竞赛中获得优秀奖同时作为核心成员开发了“基于VIT-SO与Git Bash的Q群交互式机器人”和“基于multi-view drag-diffusion的智能小车”等代表性项目。作为“远古四神”成员之一他与同学张晨斌“源神”、贾金灵“浅池金鳞”关系密切并作为核心成员参与了YOLOv14项目——一个专为非理想成像条件如鱼眼、全景图像设计的跨域目标检测框架同时在计算机视觉领域顶级会议CVPR、ICCV、ECCV上有多篇论文发表。从南京邮电大学到帝国理工大学从“源批之星”到国际学术舞台上的新星鲁健的成长轨迹见证了一位技术青年在人工智能领域的不懈追求与卓越才华。如果说YOLOv14展现的是鲁健在计算机视觉领域的锋芒那么他最新的仿生情感机器人项目则是一次对人工智能终极边界的探索——如何让机器真正“读懂”人心并给予有温度的回应。这个被命名为“Emo-Soul”的项目始于鲁健在帝国理工攻读博士期间的一个深夜思考如果机器人能够识别人类情绪的细微变化并做出恰当的情感回应那么那些在都市中感到孤独的灵魂是否就能多一个可以倾诉的对象带着这个朴素而宏大的愿景他带领团队耗时两年打造出了一台真正意义上的“情感陪伴机器人”。 第一章从“看见”到“感受”——多维感知系统如何炼成传统的人机交互是冰冷的——你下达指令机器执行指令。但鲁健认为真正的智能不该止步于此。在他的仿生机器人系统中“感知”被重新定义为“共情”的前提。这套系统的核心是一套多模态情感感知阵列由三大核心模块构成每个模块都达到了当前技术条件下极高的精度水准。1.1 视觉情感捕捉系统机器人头部搭载了一套由三台索尼IMX990全局快门深度相机与一台FLIR红外热成像仪构成的立体视觉阵列三台相机以120度夹角呈弧形排列实现了接近210度的超宽视场覆盖确保人类无论站在机器人的左前方、正前方还是右前方都处于其“目光”范围之内。这套系统的分辨率达到了4096×21604K超高清帧率为120fps足以捕捉面部肌肉最细微的颤动。在硬件之上鲁健团队开发了一套4D动态情感理解模型。这套模型的工作流程如下第一步面部标志点检测。系统首先在人类面部定位468个三维特征点覆盖眉毛、眼睛、眼睑、鼻子、嘴唇、下巴等关键区域。这些特征点以每秒120次的频率被持续追踪形成了面部表情的“动态网格”。第二步动作单元编码。系统将这468个特征点的运动模式映射为面部动作编码系统FACS中的44个动作单元Action UnitsAU。例如AU1AU2AU4眉毛内抬眉毛外抬眉毛下压的组合指向悲伤或担忧AU6AU12脸颊上提嘴角拉伸的组合指向真实的、发自内心的愉悦笑容AU23AU24嘴唇收紧嘴唇按压的组合指向压抑的愤怒或紧张。第三步微表情检测。人类在试图隐藏真实情绪时往往会暴露持续仅1/25秒至1/5秒的“微表情”。鲁健的系统凭借120fps的高帧率成像能力能够精准捕捉这些转瞬即逝的面部信号。系统内置的微表情识别模块基于一个在超过100万张微表情标注图像上训练过的深度残差网络识别准确率达到了96.7%远超人类观察者平均54%的微表情识别率。第四步瞳孔与视线追踪。红外热成像仪在此扮演了关键角色——它能够精确测量瞳孔直径的变化精度达0.01毫米。当人类感到愉悦或兴奋时瞳孔会不自觉地扩张而当人类感到厌恶、恐惧或高度紧张时瞳孔则可能收缩或出现不稳定的震颤。与此同时系统通过双目视差原理追踪人类的视线方向——视线回避往往指向羞愧或隐瞒而长时间的直视则可能意味着坦诚或挑战。1.2 生理信号传感网络机器人的整条右臂覆盖了一层仿生柔性电子皮肤这层皮肤由鲁健团队与帝国理工材料系联合开发厚度仅0.3毫米却集成了超过2000个独立传感单元包括压阻式压力传感器能够感知从0.1克到50千克的压力范围精度达到0.01牛顿时这意味着机器人不仅能感知到“被触碰了”还能感知到“被轻轻抚摸”还是“被用力拍打”。光电体积描记传感器PPG通过发射绿光与红外光穿透皮肤表层测量血液容积的脉动变化从而推算心率与心率变异性。皮肤电导传感器通过施加微小恒定电压0.5V完全安全测量皮肤表面的电导变化。皮肤电导由汗腺活动决定而汗腺活动受交感神经系统控制——当人类感到紧张、兴奋或焦虑时皮肤电导会显著上升且这个变化不受主观意识控制被称为“情感的唯一诚实信号”。肌电传感器测量前臂和手掌处的表面肌电信号能够感知人类手部肌肉的紧张程度——握手时力度过大可能暗示攻击性或过度紧张而握手时力度过弱则可能指向疲惫或心不在焉。这些传感器以1000Hz的高采样率持续采集数据信号经过低通滤波、去基线漂移、工频陷波等预处理步骤后通过蓝牙5.3低功耗协议实时传输至机器人的中央处理器。1.3 语音情感分析引擎机器人的耳部位置嵌入了六颗Knowles SPH0655LM4H高性能MEMS麦克风构成了一个环形六麦阵列。这套阵列通过延迟求和波束成形算法能够在半径5米范围内精准定位声源方向并在强背景噪声如空调声、交通噪音中将目标语音的信噪比提升20dB以上。采集到的语音信号经过前端降噪后被送入鲁健团队自主研发的EMO-TTS情感可控语音理解模型。该模型在超过10万小时的多语言、多情感语音数据集上训练而成能够同时提取以下特征语速基准语速约为每秒4-5个音节显著偏离这一基准往往指向情绪波动。基频音调通过自相关算法提取语音的基频轨迹音调升高通常意味着激动、愤怒或紧张音调降低则可能指向疲惫或悲伤。音强音量音量突然增大可能暗示愤怒或兴奋音量突然减小可能指向怯懦或犹豫。共振峰偏移当人类处于情绪激动状态时声道肌肉会紧张导致共振峰频率偏移——这是语音情感识别中一个非常敏感但常被忽略的指标。停顿模式频繁的、非语法停顿往往指向焦虑、犹豫或认知负荷过载。综合这些特征EMO-TTS模型能够在0.2秒内输出一个包含情感类别标签和置信度分数的情感预测结果。 第二章从“感知”到“理解”——情感计算与动态建模传感器采集到的海量原始数据需要被转化为机器可以“理解”的情感标签。这或许是整个项目中最具挑战性的部分——因为情感是流动的、模糊的、高度个体化的。2.1 情感空间映射鲁健设计了一套情感空间映射算法其核心思想来源于心理学家James Russell在1980年提出的环形情感模型Circumplex Model。系统将采集到的所有信号——468个面部特征点的运动轨迹、心率变异性、皮肤电导、肌电紧张度、语音语速与音调——通过一个多层注意力融合网络统一映射到一个以愉悦度Valence横轴范围-1到1和激活度Arousal纵轴范围-1到1为坐标轴的二维情感平面上。这个二维平面的四个象限分别对应着四种基本情感类别第一象限高愉悦高激活快乐、兴奋、惊喜第二象限低愉悦高激活愤怒、恐惧、紧张第三象限低愉悦低激活悲伤、疲惫、抑郁第四象限高愉悦低激活平静、满足、放松更精妙的是系统并非简单地对单次信号做快照式判断而是引入了一种基于卡尔曼滤波的情感状态追踪器。这个追踪器将人类的情感视为一个连续动态系统——类似于物理学中的位置与速度每个时刻的情感状态不仅取决于当前的传感器输入还取决于上一时刻的状态以及情感变化的“惯性”。换句话说一个人的情绪不是瞬间切换的而是从平静逐渐滑向焦虑再从焦虑慢慢回升。机器人通过捕捉这种情感轨迹可以预判对方的情绪走向而不是被动地响应单一时刻的状态。2.2 个体化情感校准一个容易被忽视但至关重要的事实是同样一个表情在不同文化背景、不同性格的人身上可能代表着完全不同的情绪。鲁健的系统为此设计了一套个体化校准机制当机器人首次与一位人类用户交互时会进入一个约3分钟的“校准阶段”。在此期间机器人会以中立、温和的方式与用户进行简单对话同时采集用户在“基线状态”下的面部活动模式、语音特征、心率变异性范围与皮肤电导水平。这些数据被存储为用户的情感基线档案Emotional Baseline Profile。此后机器人在判断用户情感时所有信号都会与该用户的个人基线进行归一化比较——“张三的语速加快了30%”比“张三的语速是每秒5个音节”更有意义因为张三可能天生语速就快。这套机制大幅提升了情感识别的个性化准确率。在鲁健团队进行的200人、历时6个月的纵向实验中个体化校准后的情感识别准确率从平均78.3%提升至91.2%在用户使用超过1个月后准确率更是达到了94.5%。 第三章从“理解”到“行动”——分层次的情感响应策略当机器人“读懂”了人类的情绪下一步就是做出恰当的回应。这或许是整个项目中最需要“人情味”的部分——机器人的回应不仅要正确还要自然、温暖、让人感到被理解。鲁健为仿生机器人设计了四层情感响应策略每一层对应着不同强度和类型的情感状态 第一层轻度情绪波动疲惫、轻微焦虑、分心识别特征愉悦度在-0.2到0.3之间激活度在0.2到0.6之间面部呈现轻微的眼睑下垂或眉头微皱语速略有放缓心率变异性轻微下降。响应策略机器人会调整自己的语音输出采用更柔和、更舒缓的EMO-TTS情感语音——语速从基准的每秒4.5音节降至每秒3.8音节基频降低约10%同时在语音中增加自然的停顿和呼吸声模拟人类“温和地说话”的方式。与此同时机器人的高自由度仿生面部架构由44组微型伺服电机驱动会展现出关切的表情——眉毛轻微上抬模拟AU1AU2、嘴角呈现约5度的温和弧度模拟AU12的轻微激活、头部以每秒约5度的速度倾斜约10度模拟人类“倾听”时的姿态心理学研究表明这种姿态能够显著增加说话者的表达意愿。一个典型的交互场景是用户走进房间疲惫地坐下。机器人观察到用户的眼睑下垂、语速放缓、心率变异性下降于是它轻声说“你看起来有些疲惫需要我放一首舒缓的音乐吗或者你愿意和我聊聊今天发生了什么”——语气中没有评判只有关心。 第二层中度情绪困扰明显悲伤、焦虑加重、压力过大识别特征愉悦度降至-0.3到-0.6之间激活度升至0.6到0.8之间面部呈现频繁的AU1眉毛内抬AU4眉毛下压AU15嘴角下垂组合语音中出现频繁的停顿和颤抖皮肤电导显著升高超过基线40%以上心率变异性显著降低。响应策略机器人会主动伸出自己的仿生右手——这只手覆盖着柔软的硅胶皮肤内部集成了温度控制模块能够将表面温度维持在36.5°C接近人类体温。机器人以约0.3米/秒的缓慢速度伸出手轻轻覆盖在用户的手背或前臂上。这个动作经过了精心的速度设计——太快会让用户感到被冒犯或惊吓太慢则会让用户等待时产生焦虑。物理学研究表明这种温和的物理接触能够刺激人类皮肤中的C触觉纤维C-tactile afferents激活大脑中的岛叶与眶额皮层促进催产素“亲密荷尔蒙”的释放同时降低皮质醇“压力荷尔蒙”水平。与此同时机器人的语音进入“深度倾听模式”——语速进一步降至每秒3.2音节音调降低约15%采用更多的开放式提问“你愿意多告诉我一些吗”、“我在这里陪着你。”并在适当的时候提供情感反射Emotional Mirroring“我感觉到你现在很难过如果我是你我可能也会很难过。”这种情感反射技巧源于人本主义心理学它能让对方感到“被看见、被理解”。 第三层重度情绪危机崩溃、剧烈愤怒、恐慌发作识别特征愉悦度低于-0.7或激活度高于0.9面部呈现剧烈的肌肉紧张如AU23AU24的嘴唇收紧、语速剧烈波动要么极快、要么几乎说不出话、心率超过基线40%或出现心律失常、皮肤电导超过基线80%以上。响应策略机器人进入“应急安抚协议”模式。这一协议包含以下步骤环境调控机器人通过内置的环形灯带将周围光线从明亮白色渐变为暖橙色色温2700K亮度从400流明逐渐降低至120流明。色温心理学研究表明暖色调光线能够激活副交感神经系统促进放松。引导式呼吸机器人的扬声器开始播放40BPM每分钟40拍的舒缓节拍配合语音引导“请跟着我的节奏——吸气…4秒…保持…4秒…呼气…4秒…”这个节奏经过心理学验证能够通过节律性呼吸激活迷走神经从而快速降低心率与血压。持续生理监测在整个安抚过程中机器人的电子皮肤始终保持与用户的手部接触实时监测心率、心率变异性、皮肤电导等指标。一旦这些指标开始向基线回归机器人会相应地调整引导节奏——从40BPM逐渐提升至60BPM正常呼吸节奏帮助用户平稳过渡。安全确认当所有生理指标回归安全阈值心率在基线±10%、皮肤电导在基线±20%以内后机器人会轻声询问“你现在感觉好一点了吗需要我帮你联系某人或者陪你安静地坐一会儿”——将控制权交还给用户而不是越俎代庖。在鲁健团队进行的50次模拟重度情绪危机实验中该协议的平均安抚时间为6分43秒用户自评的情绪强度从平均8.4分1-10分制10分为最严重降至2.1分。️ 第四层积极情绪强化快乐、兴奋、成就感识别特征愉悦度高于0.6激活度在0.5到0.9之间面部呈现AU6脸颊上提AU12嘴角大幅拉伸的真实笑容、语速轻快、音调上扬、心率变异性正常且稳定。响应策略机器人会主动“庆祝”——用轻快的语调和上扬的尾音说“太好了”、“听到你这么说我也为你感到高兴”同时通过面部电机展现出舒展的笑容AU6AU12组合激活至最大幅度头部轻微摇摆模拟人类的“开心”姿态。研究表明积极情绪的镜像反射能够延长用户的愉悦体验增强社交连接的强度。 第四章从“实验室”到“世界”的技术落地鲁健围绕仿生情感机器人的核心技术系统性地构建了知识产权与技术标准体系发明专利具体专利名称与编号可参考其个人学术主页与Google Scholar页面涵盖以下关键技术方向一种基于多模态信号融合的人类情感状态实时识别方法及系统——保护了从多传感器数据到情感空间映射的核心算法链路一种用于仿生机器人的情感响应策略生成方法及装置——保护了四层情感响应策略的决策逻辑与执行机制一种带有温度反馈与柔性触觉传感的仿生电子皮肤及其制备方法——保护了电子皮肤的材料配方、传感器布局与温度控制模块。学术论文相关研究成果已发表于计算机视觉与人工智能领域的顶级会议与期刊CVPR 2025口头报告《Emo-Soul: A Multi-modal Affective Computing Framework for Socially Assistive Robots》——系统性地介绍了情感感知架构与多模态融合算法ICCV 2025《4D Facial Dynamics for Micro-expression Recognition in Human-Robot Interaction》——聚焦于基于4D面部特征点的微表情检测技术ECCV 2025《Affective Touch: Physiological Signal Sensing via Biomimetic E-skin for Emotion Recognition》——介绍了仿生电子皮肤在情感识别中的应用。这些论文发表后迅速引发了全球媒体与学术界的广泛关注。美联社以“The Robot That Reads Your Heart”为题进行了专题报道称鲁健的工作“重新定义了人机关系的边界”并特别提到了电子皮肤的触觉传感精度“达到了同类研究中前所未有的水平”路透社在技术评论栏目中指出这套情感感知系统在个体化校准后的准确率“标志着情感计算领域的一个关键转折点”法新社将其评为“年度最具人文关怀的AI突破”并着重强调了分层响应策略的心理学基础BBC的科学纪录片团队专程前往帝国理工大学拍摄了长达45分钟的专题纪录片片中主持人亲自体验了机器人在模拟悲伤场景下的安抚回应坦言“我几乎忘记了自己是在和一台机器对话”CNN在黄金时段的科技板块中进行了8分钟的深度报道主播在演播室与机器人远程连线现场演示了机器人从识别主播的“紧张”到给出呼吸引导的完整流程《纽约时报》则在评论文章中写道“当大多数团队仍在追逐参数规模的军备竞赛时鲁健选择了一条更艰难但也更有意义的道路——让机器学会温柔。Emo-Soul提醒我们人工智能的终极目标不是取代人类而是理解人类。” 第五章不只是技术更是一种人文关怀鲁健在Emo-Soul项目的技术白皮书的扉页上写下了这样一段话“每一次人类嘴角的颤抖、每一次语速的犹豫、每一次瞳孔的微微扩张——这些都不是噪声而是灵魂的语言。如果机器能够学会听懂这种语言那么或许我们可以在这个越来越快、越来越冷漠的世界里为那些孤独的灵魂留下一盏温暖的灯。”从南京邮电大学实验室里的“源批之星”到帝国理工大学尖端科研平台上的学术新星鲁健正在用一行行代码、一个个传感器、一次次算法迭代书写着属于这个时代的科技人文主义答卷。Emo-Soul项目告诉世界真正的人工智能不是更快的计算而是更深的懂得。