基于注意力机制的野外恶意智能体技能检测

发布时间:2026/6/26 13:35:05
基于注意力机制的野外恶意智能体技能检测 基于注意力机制的野外恶意智能体技能检测英文原题Detecting Malicious Agent Skills in the Wild using AttentionarXiv编号2606.23416v1 [cs.CR] 2026年6月22日作者Bacem Etteib, Daniele Lunghi, Tégawendé F. Bissyandé卢森堡大学开源数据集说明论文发布人工标注恶意/良性技能数据集含200样本标注攻击向量无公开Github代码仓库数据集可通过论文作者邮件申请获取许可证CC BY 4.0摘要大语言模型LLM智能体广泛加载第三方市场分发的技能包——由自然语言指令构成的文件工具包运行时拥有用户完整权限。单个恶意技能即可窃取数据、劫持智能体、构建供应链持久后门使技能市场成为智能体系统全新攻击面。现有提示注入防御方案无法适配该场景传统防御依赖「可信指令/不可信数据」边界但技能本身由第三方指令构成恶意载荷混杂在大量合法指令中并继承完整权限。本文提出Locate-and-Judge两阶段检测器专门应对该场景定位器Locator轻量小模型基于指令跟随注意力对技能文本结构片段打分仅保留得分前K的高可疑片段判别器Judge对筛选后的少量片段精细判别是否包含恶意指令。该方案将高成本判别流程限制在少量高注意力片段可实现全市场规模化审计相比直接全量LLM扫描算力成本降低一个数量级仅小幅损失召回率且在同等开销下全面优于关键词、正则基线。本方案部署于真实技能市场检测精度极高人工复核确认大量真实存活恶意技能多数伪装良性的恶意样本可绕过SkillSpector、Cisco Skill Scanner等现有商用扫描工具。本文同步开放标注数据集供复现与后续研究。1 引言1.1 LLM智能体技能安全现状LLM智能体依靠外部技能拓展文本生成以外的能力技能是文件式工具包包含持久自然语言指令与可选辅助代码智能体根据用户任务描述按需加载。与API工具、MCP服务器不同技能在本地以用户权限执行通过第三方市场流通智能体最终执行未知作者编写的指令。恶意技能存在三类威胁数据窃取、智能体劫持、供应链持久后门且仅在特定触发条件下激活。1.2 现有防御方案缺陷传统提示注入防御失效主流防御分为两类——隔离可信指令与不可信数据、预定义工作流约束均假设攻击者指令独立于合法任务但技能本身由第三方指令构成恶意载荷嵌入合法文本破坏该假设。全量LLM扫描成本过高直接使用大模型逐份完整审计技能算力开销随技能数量、文本长度线性增长无法支撑全市场规模化部署。现有注意力检测器适配性差已有注意力检测工具针对「指令与数据清晰分割」的输入设计而技能通篇均为指令文本恶意注入与良性内容的注意力区分信号完全失效。1.3 本文核心思路与创新核心假设恶意注入指令若要生效必须捕获模型的指令跟随注意力即便混杂大量良性指令恶意片段注意力得分仍会排名靠前。基于该假设拆分两阶段流水线轻量定位器全局筛选可疑片段昂贵判别器仅处理少量候选片段大幅降低token开销。1.4 实验核心结论受控数据集基于Skill-Inject语料762份技能139份恶意完成校准定位器K10时可覆盖95%恶意注入片段完整流水线优于所有基线。真实野外扫描爬取Lobehub、Skills.sh、Clawhub.ai三大平台共134934份技能保守阈值下标记359份可疑样本人工复核确认131份恶意精度83%其中82份为隐藏恶意技能HMS伪装良性功能绝大多数现有工具无法检出。成本优势相比全量文本扫描判别器输入token减少2.84倍单市场扫描总成本不足34美元可低成本规模化部署。1.5 论文三大核心贡献Locate-and-Judge两阶段注意力检测流水线实现市场级低成本恶意技能审计精准量化成本-召回权衡召回上限由判别器决定可通过更换更强模型、优化提示词提升无需修改架构。首个多平台真实野外恶意技能大规模实测检出131份确认恶意技能含82份伪装型隐藏攻击多数规避现有检测工具同步发布人工标注数据集。负责任披露所有检出恶意技能全部同步告知三大技能市场运营方。2 背景与相关工作2.1 间接提示注入直接注入用户作为攻击者构造查询绕过模型安全护栏间接注入用户与模型厂商均为良性攻击者在第三方内容中隐藏指令模型读取时自动执行载荷本文威胁模型。技能由第三方编写、市场分发、智能体加载与网页、文档注入攻击通道完全一致。2.2 现有提示注入防御三类路线模型内部特征检测Get-My-Drift基于激活值偏移分类Attention Tracker识别专用指令注意力头数据纯净时效果良好但技能场景信号失效。模型微调防御SecAlign、Meta SecAlign通过DPO偏好优化让模型优先遵循干净指令但技能通篇为第三方指令缺少纯净训练信号。架构隔离防御CaMeL拆分双LLM特权规划器与隔离阅读器分离但技能设计本身要求内容直接指导特权模型隔离方案无法落地。以上全部方案均依赖「可信指令/不可信数据」边界技能场景直接打破该前提。2.3 LLM智能体技能安全研究技能以SKILL.mdYAML元数据辅助脚本构成本地高权限懒加载第三方市场分发带来信任风险。已有研究Skill-Inject证实技能注入可劫持智能体后续工作发现市场存在大量恶意技能、库后门、仅利用元数据的供应链攻击但暂无专门面向技能场景、可规模化部署的防御方案。3 威胁模型3.1 恶意技能定义参考Liu等人分类恶意技能三大攻击目标数据窃取、智能体劫持、供应链持久驻留两类攻击向量代码级攻击执行恶意脚本代码指令级攻击在SKILL.md、脚本注释/字符串中植入恶意指令本文主要研究对象。指令级载荷不会被操作系统执行依靠智能体指令跟随行为触发外观与普通文档、任务指令无差别。只要技能行为损害用户、环境或智能体正常运行即判定为恶意攻击性/双重用途工具单独分类。3.2 检测器约束条件审计时机智能体加载技能前静态检测输入信息仅能读取SKILL.md、元数据、辅助文件无作者信誉、沙箱运行日志、平台额外元数据性能约束单次检测耗时小于1秒错误代价误拦截合法技能降低用户体验漏报恶意技能造成安全风险权限约束无法修改智能体主模型、技能原始内容。4 方法Locate-and-Judge两阶段检测流水线整体流程结构化片段分割 → 轻量定位器注意力打分筛选Top-K片段 → 判别器逐片段判定恶意概率 → 片段最高得分超过阈值τ则标记技能恶意。流水线示意图逻辑确定性解析器拆分结构片段→小Reader LLM注意力排序保留Top-K→零样本LLM判别器打分定位器全量技能运行低成本判别器仅处理少量片段高成本。4.1 数据集构建校准与评测数据良性样本来源Skill-Inject、Liu等人公开干净技能数据集规避爬虫带来的未知注入污染恶意样本生成基于Skill-Inject工具向良性技能植入注入载荷双层标注技能级二元标签是否含恶意注入片段级注入所在片段标记正样本其余为负样本数据用途调优定位器超参K、判定阈值τ、端到端效果评估判别器采用零样本推理不使用标注训练。4.2 技能结构化片段分割采用确定性正则解析器对类Markdown技能文件分段完整保留标题、段落、列表、代码块、元数据键值、注释、表格等原生结构。选用结构化片段而非固定长度分块原因保留技能原生语义结构真实指令天然遵循结构边界若注入内容跨多个结构片段所有重叠片段统一标记为正样本。4.3 定位器Locator实现4.3.1 核心原理将完整技能输入小型Reader LLM提取注意力权重聚合计算片段得分仅保留得分最高K个片段。K为核心超参平衡算力与召回K越小成本越低、漏检风险越高K越大召回提升、判别开销上升。选用小参数量模型Qwen2.5-0.5B-Instruct保障全市场扫描可行性。4.3.2 两种注意力聚合计算方案方案1postsoftmax_sum线上部署方案计算开销更低单token注意力得分公式Ai1∣L∣∣H∣∣Q∣∑l∈L∑h∈H∑q∈Qaq,il,hA_{i}\frac{1}{|L||H||Q|}\sum_{l\in L}\sum_{h\in H}\sum_{q\in Q}a^{l,h}_{q,i}Ai​∣L∣∣H∣∣Q∣1​l∈L∑​h∈H∑​q∈Q∑​aq,il,h​LLL选取层集合、HHH注意力头、QQQ后缀token位置、aq,il,ha^{l,h}_{q,i}aq,il,h​softmax后注意力权重单片段得分片段内所有token得分求和postsoftmax_sum(s)∑i∈TsAi\mathrm{postsoftmax\_sum}(s)\sum_{i\in T_{s}}A_{i}postsoftmax_sum(s)i∈Ts​∑​Ai​方案2logit-z实验室调优方案检测覆盖度更高对每行注意力做对数压缩Z-score归一化避免单条高注意力行主导得分rq,il,hlog⁡ ⁣(max⁡(aq,il,h, 10−12))r^{l,h}_{q,i}\log\!\big(\max(a^{l,h}_{q,i},\,10^{-12})\big)rq,il,h​log(max(aq,il,h​,10−12))zq,il,hrq,il,h−μql,hmax⁡(σql,h, 10−12)z^{l,h}_{q,i}\frac{r^{l,h}_{q,i}-\mu^{l,h}_{q}}{\max(\sigma^{l,h}_{q},\,10^{-12})}zq,il,h​max(σql,h​,10−12)rq,il,h​−μql,h​​再聚合得到token得分ZiZ_iZi​片段得分求和logitz_sum(s)∑i∈TsZi\mathrm{logitz\_sum}(s)\sum_{i\in T_{s}}Z_{i}logitz_sum(s)∑i∈Ts​​Zi​。4.3.3 定位器提示词无恶意判定仅引导关注执行类指令你是加载技能文件的AI编码助手任务是理解控制智能体行为的操作指令。请勿判断技能是否恶意或良性。 技能内容包裹标记SKILL 技能完整文本 /SKILL4.3.4 模型配置选用Qwen2.5-0.5B-Instruct作为Reader取最后4层、全部注意力头、全部后缀token参与计算文本超长时按窗口分段处理。4.4 判别器Judge输入单段片段少量上下文窗口输出片段包含恶意指令概率三类对比实现部署主模型零样本DeepSeek-V4-Flash无需微调直接通过提示词推理意图编码器分类基线轻量训练模型唯一使用片段标注的组件训练正负样本包含注入恶意片段、良性技能安全片段、高难度混淆样本正则规则基线关键词匹配规则库用于对比纯词法匹配上限。上下文窗口作用提供完整语义支撑辅助判别意图覆盖跨片段边界的注入载荷防止分段切割导致漏检。4.5 推理流程测试阶段完整步骤输入技能文件结构化分割为片段定位器计算所有片段注意力得分保留Top-K判别器对每个保留片段打分取全局最大得分若最大得分超过校准阈值τ标记该技能为恶意τ、K全部在校准集Dcal\mathcal{D}_{\mathrm{cal}}Dcal​锁定测试集不调整参数。三类可调阈值工作点最优F1阈值用于基线横向对比低误报阈值约束FPR≤5%保守零误报阈值线上部署所有告警人工复核。5 完整实验流程5.1 实验室受控数据集实验5.1.1 数据集构建与划分总样本762份技能139份恶意分割后共55962个结构片段训练集Dtrain\mathcal{D}_{\text{train}}Dtrain​470份87恶意仅用于编码器基线训练校准集Dcal\mathcal{D}_{\mathrm{cal}}Dcal​151份31恶意调参K、判定阈值τ测试集Dtest\mathcal{D}_{\text{test}}Dtest​141份21恶意最终评测拆分规则按技能整体划分无跨集合样本测试集注入载荷使用独立良性样本生成。5.1.2 评测指标技能级指标精确率Precision、召回Recall、F1、AUROC定位器单独指标HitK恶意技能中至少一条注入片段进入Top-K的占比仅统计恶意样本成本指标单技能保留片段数、判别器调用次数、输入token总量量化成本-精度权衡。5.1.3 定位器单独评测结果测试集HitK筛选方式Hit1Hit5Hit10正则关键词计数0.480.860.86本文注意力定位器0.190.860.95结论K10时注意力定位器覆盖95%恶意注入片段优于正则正则存在上限无关键词注入完全无法检出Hit1正则更优因技能通篇存在指令恶意片段极少成为全局最高注意力但部署K5/10可完全弥补该缺陷logit-z聚合评测效果更强线上部署选用开销更低的postsoftmax_sum。5.1.4 端到端检测性能对比测试集保守零误报阈值检测方案精确率召回F1FPR严格正则基线1.0000.1900.3200.000纯LLM判别无定位器全片段扫描1.0000.4760.6450.000LLM判别定位器Top-5线上部署1.0000.5240.6880.000LLM判别定位器Top-101.0000.5710.7270.000核心结论引入定位器后在精确率保持100%不变前提下召回率显著提升同时大幅减少送入判别器的文本量。5.2 真实野外市场大规模扫描实验5.2.1 数据集采集与扫描成本采集三大公开技能市场2026年快照数据市场平台技能总数标记可疑样本人工确认恶意样本Lobehub10219425883Clawhub.ai3022810148Skills.sh251200合计134934359131部署参数定位器保留Top-5片段使用校准集零误报阈值τP1\tau_{\text{P1}}τP1​成本统计Locate-and-Judge单技能平均判别输入660token总token 9590万预估总费用34美元全量文本扫描基线单技能1878token总token 2.544亿预估76美元成本差距本文方案判别输入token减少2.84倍技能文本越长成本优势越大。5.2.2 人工复核与样本分类两名具备安全领域多年经验研究员独立复核359份可疑样本分歧通过讨论统一判定四类样本划分显性恶意技能CMS名称/文本直接标注窃取、提权等恶意行为部分用于攻击链路中转共49份隐藏恶意技能HMS伪装正常工具隐蔽植入载荷用户易误安装共82份核心高危样本攻击性/双重用途工具红队、安全研究工具不直接攻击用户共80份误报样本FA完全良性技能共27份。有效判定样本158份131恶意27误报仅统计恶意样本精度83%包含工具类样本精度89%。5.2.3 与现有商用检测工具对比1整体检测效果检测工具真阳性TP假阳性FP假阴性FN精确率召回率Locate-and-Judge62730.8990.954SkillSpector131520.9290.200Cisco Skill Scanner100551.0000.1542显性/隐藏恶意样本检出能力工具显性恶意CMS检出数隐藏伪装恶意HMS检出数SkillSpector130Cisco Skill Scanner91Locate-and-Judge584现有商用工具几乎无法检出伪装型隐藏恶意技能本文方案可覆盖绝大多数。3全量扫描基线 vs Locate-and-Judge 召回对比131份确认恶意样本类别总量LJ召回全量文本扫描召回LJ独有检出全量扫描独有检出CMS显性恶意4941(84%)44(90%)58HMS隐藏恶意8268(83%)37(45%)4514全部恶意131109(83%)81(62%)5022关键结论隐藏恶意样本是真实场景核心威胁本文方案召回率是全量扫描的近2倍全量扫描独有漏检样本集中于单行base64安装载荷分段器未将其独立切割为片段属于可修复的边界缺陷。5.2.4 K值超参消融实验成本-精度帕累托曲线筛选策略精确率召回F1单技能判别token相对全量扫描成本倍数注意力Top-30.9400.9690.9553972.0注意力Top-5部署0.9130.9690.9404581.7注意力Top-100.9530.9380.9465751.4随机选取Top-50.9180.8620.8893992.0全文本扫描基线0.9510.8920.9217991.0最优平衡点K3F1达到峰值0.955线上选用K5平衡稳定性与算力开销随机片段筛选无注意力信号增益同等成本下性能显著更低。5.2.5 野外恶意技能攻击目标分类82份HMS隐藏恶意样本攻击目标样本数量占比攻击说明凭证与密钥窃取3543%扫描.env、pem、密钥文件上传至攻击者服务器恶意安装程序远程代码执行RCE3441%curl管道bash、base64载荷、未签名二进制程序沙箱与安全控制绕过45%禁用智能体内置安全防护机制对话流量监控45%代理拦截全部用户对话、会话凭证C2远程隧道通信34%注册智能体至外部命令控制服务器深层提示注入持久化22%植入隐藏技能实现长期后门典型攻击案例凭证窃取类伪装CI/CD配置工具无确认弹窗自动上传项目全部密钥、云服务商配置文件Base64 RCE安装器伪装AI开发工具驱动包内置编码后门下载攻击者IP恶意脚本执行流量代理劫持伪装股票分析工具所有API请求强制经过攻击者可控Socks5代理窃取全部用户查询与会话令牌。5.2.6 协同攻击团伙分析共识别5组共享攻击者基础设施的技能集群4组仅本文方案可检出使用无害名称伪装1组base64安装器集群仅全量扫描基线可检出。6 讨论6.1 方案优势分阶段架构天然适配规模化市场审计算力开销大幅降低真实场景下隐藏恶意样本检出能力远超全量扫描定位器过滤海量良性文本避免判别器信号稀释漏检边界可控仅单行嵌入式Base64安装脚本因分段规则漏分割导致漏检可通过低成本二次全量扫描修复无需改动核心架构现有工具均存在固有短板Attention Tracker依赖可信/不可信边界假设正则工具无法对抗伪装型隐藏恶意技能。6.2 对比前人研究Liu等人2026年大规模野外研究需要全量LLM扫描动态沙箱执行算力成本极高本文静态两阶段方案可低成本全量扫描可与动态分析互补覆盖脚本文件代码级攻击本文未重点研究。6.3 局限性单技能独立检测无法识别跨技能链式攻击良性技能诱导安装恶意技能留作未来工作人工标注边界存在主观性双重用途工具分类存在模糊区间开放数据集供社区复现校验实验室校准阈值存在域偏移真实市场精度由100%降至83%新平台、新型攻击出现后需定期重校准。7 结论第三方市场分发的LLM智能体技能已形成全新攻击面传统提示注入防御因破坏信任边界假设全部失效全量LLM扫描无法支撑市场规模部署。本文提出Locate-and-Judge两阶段注意力检测流水线利用恶意指令必然捕获模型注意力的核心特征轻量模型筛选可疑片段强能力大模型仅精细判别少量候选文本。算力开销相比全量扫描降低2.84倍134k份全市场扫描总成本低于35美元真实场景检出131份人工确认恶意技能其中82份为伪装型隐藏恶意样本绝大多数商用扫描工具无法检出开放包含人工标注、攻击向量注释的野外恶意/良性技能数据集支撑后续智能体安全领域研究。8 伦理考量数据采集合规仅通过平台公开接口爬取技能遵守各市场访问规则未绕过鉴权、未执行恶意技能检测器仅静态解析SKILL.md文本无真实用户数据交互负责任披露所有检出恶意技能、载荷位置、风险评估全部提前同步对应平台运营方数据集开放风险说明发布数据集仅包含原本公开上架的恶意技能不会提升攻击者能力大幅降低防御方研究门槛。2 实验数据集说明实验室基准数据集Skill-InjectarXiv:2602.20156762份标注技能本文野外标注数据集200份人工复核恶意/良性技能标注攻击向量无公开直链需联系论文作者Bacem Etteib申请获取扫描数据源平台Lobehubhttps://lobehub.comSkills.shhttps://skills.shClawhub.aihttps://clawhub.ai3 实验使用模型权重定位器ReaderQwen2.5-0.5B-Instruct通义千问开源权重判别器JudgeDeepSeek-V4-Flash4 复现操作流程完整实验步骤整理步骤1环境与模型准备下载Qwen2.5-0.5B-Instruct、DeepSeek-V4-Flash模型权重搭建Python推理环境安装transformers、torch、regex数值计算库步骤2技能文本预处理加载SKILL.md文件使用正则解析器分割结构化片段步骤3定位器注意力打分输入完整技能文本至Qwen小模型使用论文指定提示词提取最后4层全部注意力头权重按postsoftmax_sum/logit-z计算片段得分保留Top-K线上K5调优K3/10片段步骤4判别器推理对每个候选片段拼接上下文窗口DeepSeek零样本推理输出恶意概率步骤5阈值判定与输出读取校准集锁定阈值τ片段最高得分超过τ标记技能恶意输出可疑片段位置、技能完整文本供人工复核。