
钩子如果有一个模型训练 60M 参数只用了3.9 小时生成速度跑到625 tok/s128K 上下文外推不崩显存还恒定 276 MB——你信吗这不是标题党。这是 ModelScope 上刚更新的FRSMASH-v3.6。先抛一个问题为什么纯 SSM 记不住“套路”如果你玩过 Mamba 或 RWKV可能遇到过这种情况前面明明出现过一模一样的模式模型就是“想不起来”后面该接什么。这叫associative recall 问题——给模型一串a1 a2 a3 ... aK [marker] a1 a2 a3 ...它应该在看到a_i时准确输出下一个。纯 SSM 在这类任务上几乎全军覆没。FRSMASH-v3.6 的解法很直接既然一个脑子不够用那就装三个。三路分工SSM 做主、GLA 做精、SlowMemory 做“背景板”架构图里写得清楚模型把输入同时喂进三条并行路径第一条路SSM Backbone——长程“定海神针”12 层 MultiSlotFLayer基于 fla HGRN 实现。递推公式是h A·h B, A ∈ (0,1]这个A 恒小于 1的设计是神来之笔——意味着不管序列多长状态都有数学上界不会爆炸也不会消失。训练只看了 512/768 的序列长度外推到 128K 时 PPL 几乎不漂移。170 倍的外推稳得不像话。第二条路GLA Recall——专门抓“模式匹配”这是 v3.6 相比纯 SSM 最大的升级S_t exp(g)·S_{t-1} k⊗v, o q·S本质上是一个累积式的键值记忆系统。当模型看到一个 token它会用当前的 query 去记忆库 S 里检索最相关的内容。这就是它能通过 induction 测试的根本原因——它不是“猜”下一个而是“查”到了上一个。实测结果v3.6 在 induction 任务上acc1.000 PASS而纯 SSM 是 0.000。差距就是有和无。第三条路SlowMemory——慢尺度的“长期背景”线性化的慢记忆模块公式是h_t A(x)·h B(x), y α(x)·h x它不追求精确召回而是提供一种缓慢变化的全局背景信号。就像写文章时你不会时刻想着开头第一句但它始终在影响你的语气和方向。三条路怎么融合Gated Fusion三个分支各自输出x_ashSSM、x_mem慢记忆、x_recallGLA然后通过门控机制融合再加上原始 embedding最后进 Head 出 logits。不是简单的相加而是让模型自己学会“什么时候该信谁”。数据说话这些数字不讲武德训练效率3.9 小时搞定 60M 模型阶段步数loss 变化耗时Pretrain 2ep79,3886.37 → 2.212.4hSFT 1ep28,3032.63 → 1.971.5h训练吞吐125,000 tok/s单张 RTX 4090。什么概念你泡杯咖啡的时间它已经看了几百万 token。推理速度CUDA Graph 加持625 tok/sEager 模式102 tok/sCUDA Graph 模式625 tok/s6.5 倍提升更关键的是生成速度不随上下文长度变化——因为每一步只传递固定大小的 state不重算历史。显存276 MB管你 100 还是 16000 上下文ContextFRSMASH-v3.6Transformer KV Cache100276 MB1.3 MB1,000276 MB13.2 MB4,000276 MB52.7 MB16,000276 MB210.9 MB恒定vs线性增长。而且 prefill 阶段也是分块chunk512处理峰值显存同样恒定在 375 MB。这意味着你可以往模型里塞 100K 的 prompt它照样不 OOM。版本演进从 v3.2 到 v3.6踩过的坑一个没白踩看版本迭代史就知道这模型为什么 work版本问题状态v3.2手写 scan慢induction FAILv3.3backward 有障碍FAILv3.4全 fla 快起来了但 recall 还是 FAILv3.5recall 解决了但手写循环太慢v3.6fla GLA又快又准PASSv3.6 的本质是v3.4 的速度 v3.5 的 recall 能力而让这一切成为可能的是 flash-linear-attention 提供的 Triton kernel——不用手写 backward不用绕 nvccWindows 和 Linux 都能跑。总结它 work因为它在正确的地方做了正确的取舍FRSMASH-v3.6 没有试图用单一机制解决所有问题而是SSM 负责长程稳定——数学有界外推不崩GLA 负责精确召回——补上 SSM 最弱的环节SlowMemory 负责慢背景——提供全局信息全 fla 实现——训练快、推理快、显存恒定它不追求“一个架构打天下”而是让三个专家各司其职再让模型自己学会怎么融合。最后补一句这模型 60M 参数MIT 协议开源。你甚至可以在自己的 8GB 显卡上跑起来。试试看反正不亏。