FlagOS技术工作坊:当AI开始“自己部署自己”,大模型基础设施进入“无人驾驶”时代

发布时间:2026/6/27 10:24:02
FlagOS技术工作坊:当AI开始“自己部署自己”,大模型基础设施进入“无人驾驶”时代 让 AI 自己去写算子、自己去部署模型、自己去迁移适配甚至自己去处理那些最琐碎的环境报错这一切在第八届北京智源大会的“FlagOS 技术开发工作坊”真实上演。这场持续一整天的活动不仅完整呈现了 FlagOS 在编译器优化、端侧使能、中间表示层、量子计算、LLM Agent 自动部署、算子自动生成等多个维度的最新进展更为为现场开发者全面部署了真机实操环境。从基于 Triton-TLE 手写高性能算子到使用 KernelGen “一句话”生成算子开发者可以现场实操并有智源技术专家进行指导真正实现学完能用、听完能落地。01筑牢 FlagOS 底层根基 编译器、算子库与端侧全链路优化北京智源人工智能研究院 AI 系统研究团队负责人门春雷在开场演讲中指出大模型爆发带动底层编译器、算子开发人才需求激增但系统软件门槛高、从业者稀缺。看似枯燥的底层软件直接决定 Token 成本高低——高效统一的系统软件栈能大幅提升硬件利用率降低算力开销。本场工作坊实现技术深度下沉覆盖从芯片层到上层模型的完整链路期望开发者能达成三层收获看懂底层软件价值、掌握实践落地路径、进阶优化现有开发流程。Triton-TLE不烧脑也能写出高性能 SparseMLA北京智源人工智能研究院编译器研究员郭晖分享了如何用 Triton-TLE 轻松写出高性能的稀疏注意力算子 SparseMLA。随着大模型上下文长度飞速增长从几K到百万甚至千万Attention 的 O(N²)计算复杂度成为瓶颈。DeepSeek Sparse Attention 让每个 Query 只从完整 KVCache 中取出少量 TopK Token 参与运算但这些 Token 位置不连续导致实现高性能算子面临三大挑战缓存不友好无法大块连续 load、计算维度宽Value 维度 512 加尾部共 576寄存器压力大、调度困难load 与计算单元串行利用率低。郭晖介绍了 TLETriton Language Extensions的三个层级Lite轻量级扩展一次编写到处运行、Struct架构感知扩展可显式控制存储层级和Raw。他重点展示了 TLE Lite 新增的核心抽象——Tle.pipe。通过生产者-消费者的编程范式开发者只需声明 Pipe、调用 acquire/commit/wait/release 等 API编译器便自动完成 mbarrier 分配与同步管理“心智负担大大降低出错的概率会大大减小”。代码对比显示手工 Pipeline 方案夹杂大量 barrier wait/arrive 和 phase bit 逻辑而 TLE 版本只需声明三个 PipeQpipe、KVpipe、Scorepipe对应三条数据传输链。实测在 NVIDIA H800上TLE Pipeline 版本相比原生Triton Baseline 获得 1.9 倍到 2.1 倍加速达到 DeepSeek 官方 Flash MLA 90% 以上的性能同时代码量减少 60% 以上。这套代码无需修改即可跑在 AMD 及国产 GPU 上。在现场实操环节郭晖邀请开发者基于 TLE 的Tle.pipe抽象现场编写 SparseMLA 的核心流水线逻辑。技术专家巡回指导帮助参与者理解生产者-消费者编程范式如何替代繁琐的手动 barrier 管理并解答 Pipe API 使用、同步机制等具体问题。FlagOS on Arm64端侧AI的使能与性能优化北京智源人工智能研究院性能优化工程师赵帅分享了 FlagOS 在 Arm64 CPU 上的使能与性能优化实践。这是一场带有“真机实操”的演讲他在台前摆了 4 台接有开发板的显示器每个开发板都已预装好 FlagOS 端侧环境邀请观众亲身上手体验。赵帅指出端侧 NPU 算力正快速提升今年预计达 100TOPS但以往 NPU 软件栈多以闭源为主模型转换受限、模型大小受限制。随着越来越多厂商推出基于开源编译器的实现FlagOS 推向端侧的时机已到。他们重点关注此芯的 Arm v9 平台支持SVE2 以及 RISC-V 平台和高通机器人平台。在 FlagTree CPU 的实践中他们基于 Triton CPU v3.3 版本后续将演进到 3.6进行了扩展。赵帅指出直接复用 Triton CPU 的线程模型模仿 GPU 的 CMP 模式在 CPU 上性能下降明显每次调用只处理一小段数据8个 core 不停调度每次 Token产生约 3500 次调用。他们的解法是通过 TLE 扩展将计算和线程管理“下沉”到 Kernel 内部让 CPU 处理连续的大块数据避免 Python 到 C 的频繁调用并尽量进行算子融合。在优化手段上绑大核、设置线程数与大小核一致、让线程忙等不休眠、钉在物理核上等线程管理优化带来 40% 以上收益。在算子层面INT8 GEMM 加速达 519 GOPSRMSNorm 提升 1.5 倍SwiGLU 提升 40%GEMV 相比 ARM ACL 再提升 30%FlashAttention 相比 ATen 提升 9 倍。最终在 INT8 量化下MiniCPM 和千问 1.7B 模型的推理性能达到 Llama CPP 同水平的 70%-80%。FlagTree 编译器实现大模型 Day0 多芯片适配北京智源人工智能研究院编译器研究员肖航以《从算子全覆盖到性能突破FlagOS 如何打通大模型推理优化最后一公里》为主题完整拆解了 FlagOS “编译器-算子库-模型”协同优化体系Day0 极速适配能力DeepSeek V4 发布当日FlagOS 即完成 10 款芯片全覆盖依托 FlagGems 600 跨芯片算子库和 FlagTree 统一编译器快速完成 FP8 Matmul、Sparse Attention 核心算子的深度调优。多层算子优化路径从算法层算子重构Fused MoE 分组计算、混合精度访存压缩、FlagOSTune 自动调优到编译器三层协同提效Fused MoE 最高提速 1.87 倍FP8 量化算子性能翻倍。FlagTree 编译器核心优化新增自动 Layout 消除、循环展开指令重排、 Warp Specialization 流水线等 Pass大幅削减张量转换开销多款主流量化算子实现最高 2.2 倍加速。路线规划FlagGems 算子规模将拓展至 2000 个完善 MegaKernel 算子融合、全链路混合精度支持持续扩充国产芯片适配矩阵。FlagIR 统一中间表示打通 GPGPU 与 DSA 编译通路北京智源人工智能研究院 AI 编译器研究员郑杨详细阐述了统一编译器 Flagtree 在多后端接入上的核心基建。为了避免 Triton 生态在各个厂商间发散Flagtree 采用单仓库多后端策略。对于 GPGPU 类芯片如英伟达、摩尔、海光等可直接复用 Triton GPU IR路线但对于 DSA、NPU 类芯片如昇腾、清微等与英伟达架构差异大原有开源基建不足。为此团队发展出以线性代数表示为基础的 FlagIR 中间表示层。FlagIR 负责从 TTIR 到中间层的转换支持结构化/非结构化访存和张量计算打通了 DSA/NPU 接入 Triton 生态的桥梁并完美支撑了 TLE 语言扩展的编译降级。02前沿创新与工程自动化 量智、AI 生成、智能体全链路落地FlagQuantum量智融合加速AI训练与推理北京智源人工智能研究院量子与 AI 融合系统研究员柳伟首先介绍了量智融合。量子计算具备指数级加速潜力但当下量子算力稀缺需用经典 AI 芯片模拟带来指数爆炸与跨节点通信难题。FlagQuantum 的解法是“量智融合”异构协同框架——不试图让量子计算机取代经典计算机而是让其作为协处理器QPU嵌入神经网络。其两大核心技术一是动态二维切分。 在多 GPU 分布式模拟中跟随量子线路实时数据流变化调整切分策略将跨节点的昂贵通信开销降至最低。在 32 卡规模下性能提升曲线依然陡峭而静态切分方案如 cuQuantum早已陷入“规模墙”。二是可逆梯度方法。 利用量子门的酉矩阵可逆性在反向传播时重计算中间态避免缓存每层结果稳定带来 2 到 4 个可训练量子比特的收益打破“层数墙”。对于含噪声环境还支持参数移位两次前向传播计算梯度。柳伟强调FlagQuantum 是目前首个能够统一调度国产 AI 芯片海光、摩尔线程等以及国产量子芯片的 AI 框架基于 PyTorch 生态构建支持 OpenQASM 2.0/3.0 跨平台导出到真实量子计算机IBM、本源等。他还展示了对国内不同量子云平台的测评——通过增加量子线路深度真实反映各平台在噪声环境下的表现差异并澄清了“真机推理精度高于模拟器”的偶然现象小数据集下的统计波动。LLM Agent 实现 AI 推理系统的自动分层构建与迁移部署北京智源人工智能研究院 AI 系统软件研发工程师石浤澔提出AI 推理软件栈的难点在于组合部署时的集成摩擦。借鉴 OS 与 TCP 分层隔离思路FlagOS 将适配复杂度从M × N压缩为M N。基于此团队构建了 FlagRelease 系统用状态机驱动而非让 Agent 自决状态切换定义了 13 步全自动流水线。针对 Agent 的不确定性系统借鉴 OSD 的 OOM 做降级容错引入独立外部验证杜绝造假并以多层沙箱和 32 条约束规则管控权限。最终单模型迁移仅需 100 元 Token 费、92 分钟相比资深工程师人工的 2-3 天大幅降本。KernelGen从像素级调优到一句话生成的算子革命北京智源人工智能研究院系统智能研究组研究员韩冬煦分享了 FlagScale Agent 在训推迁移领域的系统级创新。他指出算子开发需要软硬件、数学、编译器四门学科交叉且需适配多款芯片时间消耗爆炸。而 KernelGen 2.0 内置了十余年算子专家经验沉淀的知识库让 AI 像老师傅带徒弟一样按既定目标生成算子。在 LayerNorm 算子的真实对决中KernelGen 用 14 分钟、1 万 Token 完成性能达专家手写的 1.14 倍而主流 AI 助手用 35 分钟、2 万余 Token性能仅为 0.6 倍。他介绍KernelGen 已适配昇腾、海光等多款芯片支持自然语言描述需求自动完成正确性与加速比测试。为了让开发者直观体验这一生产力变革韩冬煦现场演示了在 KernelGen 平台用自然语言生成 ReLU 算子并跑出 1.18 倍加速比的过程。随后现场开发者纷纷登录 kernelgen.Flagos.io 平台进行实操尝试用“一句话”生成适配不同芯片的算子智源技术团队则在现场随时解答参数配置与性能调优的疑问。结合智源大会期间举办的“48 小时算子赏金挑战赛北京站”现场实操氛围推向高潮。FlagScale Agent大模型训推迁移进入无人驾驶时代北京智源人工智能研究院 AI 框架研究员曹州针对训推迁移的长链路痛点分享了 FlagScale Agent 在训推迁移领域的系统级创新。曹州指出三大产业痛点算法研究员手搓模型后需专业 Infra 人员迁移到高效引擎Megatron、vLLM等算力芯片碎片化插件适配仍需人工完成模型适配、算子替换、性能调优上游框架频繁更新版本回归测试和适配修复持续消耗人力。而 FlagScale Agent 带来了两大创新一是约束编译执行。 与通用 Skill 不同FlagScale 的 Skill 不是“建议”而是“约束”。通过 YAML 格式定义触发条件、检查逻辑和纠正措施在运行时形成 Guard 门控系统。Guard 分三级注入提醒连续错三次时提示、拦截 action连续错五次时阻止执行、等待人类指令问题无法解决时交接。Guard 触发分两阶段先用正则快速拦截无 LLM 开销再用 LLM 精确判断。二是渐进上下文压缩。 实时监控 Context 使用量35% 时触发压缩75% 预警85% 强制压缩。通过“内容价值感知”——实验错误永不压缩安装日志只保留 200 字组——保证长任务中 Agent 保持“记忆在线”。压缩比从 60% 逐步降至 35%。对比测试中FlagScale Agent 在英伟达与沐曦两平台间做精度对齐全程无人工介入跑完 100 步实现收敛diff 0.12%而 Claude Code 中途跑偏需人工拉回仅跑 10 步diff 9.14%。未来 FlagScale Agent 将上线 Skill 自进化路线——Skill 不再由人写而由 Agent 自主产生。在实操环节开发者们也现场体验了配置 LLM API 并启动 FlagScale-Agent观察其如何自主拆解任务、进行跨芯自动迁移。vLLM-Plugin-FL Skills把老手经验变成可执行代码资产北京智源人工智能研究院大模型推理优化工程师朱瑞迪以 vLLM-Plugin-FL 为例介绍了如何用 Skill 化解环境安装、版本升级、模型迁移三大繁琐环节环境安装 Skill自动解析多硬件依赖新人十余分钟从零搭建完整推理环境版本升级 Skill解决 vLLM 高低版本代码冲突自动完成补丁适配与回归测试模型迁移 Skill自动移植模型代码、校验 Token 级推理精度规避人工漏改、精度失效问题。 区别于固定脚本Skill 具备自主推理、异常泛化能力把团队口头经验转化为可执行代码资产大幅降低对资深工程师依赖实现模型迁移轻量化、一键化落地。现场开发者跟随指导实操调用了这些开源的 Skill切身体会了“解放双手”的工程快感。03结语从组件正确到系统协同的范式跃迁纵观全天的 FlagOS 技术开发工作坊一条清晰的脉络浮现出来FlagOS 正在从提供若干正确的单体组件转向用AI让这些组件在真实场景中协同运转。全天高密度的理论拆解与手把手的真机实操交织让这场工作坊不再是纸上谈兵。一方面Triton-TLE、FlagTree CPU 扩展与 FlagIR 编译器基建展示了打通多芯片孤岛、榨干硬件性能的硬核底力另一方面FlagQuantum、FlagRelease、KernelGen、FlagScale Agent 与 Skills 库则用 AI Agent 接管了繁杂的迁移、适配与算子生成工作。当底层编译器、量子协处理器、Agent 编排器与 Skill 库共同构成一张可持续演进的软件栈图谱AI 系统软件的无人驾驶时代正从这一场工作坊走向更广阔的产业现场。