ICLR 2026| ST-SimDiff:用“相似性压缩冗余”,用“差异性捕捉事件”

发布时间:2026/7/3 6:37:13
ICLR 2026| ST-SimDiff:用“相似性压缩冗余”,用“差异性捕捉事件” 论文ST-SimDiff: Balancing Spatiotemporal Similarity and Difference for Efficient Video Understanding with MLLMs1 动机作者要解决的是MLLM/LVLM 在长视频理解中视觉 token 过多导致推理成本高的问题视频输入不同于单图像。一个视频通常被采样为多帧每帧又会被视觉编码器编码成大量 visual tokens如果输入 64 帧、128 帧甚至更长视频token 数量会随帧数线性增长而LLM 内部self-attention的计算复杂度是 token 数量的平方级因此长视频理解会出现显存占用高、推理速度慢、难以实时交互的问题现有方法大多从“减少冗余”出发要么删掉不重要 token要么合并相似 token作者认为这还不够因为视频不是静态图像序列的简单堆叠视频真正重要的信息往往来自“变化”动作开始、物体出现、场景转折、状态切换这些变化可能只持续很短时间如果单纯追求相似性压缩很容易被当作非主流信息丢掉作者提出 ST-SimDiff 的核心动机是视频压缩不能只看“哪些 token 相似”还必须看“哪些 token 发生了变化”2 现有方法的不足重要性剪枝方法只看 attention score或类似指标容易保留“看起来重要但重复”的 token例如背景、主体在多帧中反复出现attention 可能并不低但它们在语义上高度冗余相似性合并方法主要关注 commonality共性也就是哪些 token 相似、哪些 token 可以合并但视频中的关键事件往往不是由相似性定义的而是由 difference差异定义的动作的开始、转折、结束本质上都是相邻时刻之间视觉特征突然变化现有方法对时空关系建模不充分很多方法只建模同一帧内的空间关系或者只比较相邻帧相同位置的时间关系缺少统一的 时空图视角因此它们难以同时处理空间冗余、时间冗余和动态事件极高压缩率下容易丢失关键事件比如保留 30% token 时如果方法只追求相似性代表就可能把稀有但重要的转折帧 token 丢掉3 论文的核心直觉论文的核心直觉可以概括为相似性负责找冗余差异性负责找事件。更具体地说视频中稳定、持续、重复出现的内容可以通过少数代表性 token 表示而视频中突然变化的内容虽然不一定占多数但往往决定事件理解和问答正确性必须额外保留4 主要novelty4.1 相似性与差异性平衡的 token 选择视角【创新点解决的问题是什么】现有视频 token 压缩方法主要关注相似性或重要性容易忽略突发动作、状态变化、场景切换等关键事件视频理解不仅需要知道“画面中有什么”还需要知道“发生了什么”而“发生了什么”通常由 temporal difference体现——作者提出 similarity-difference balancing的 token 选择视角用 similarity-based selection 压缩稳定内容用 difference-based selection 保留事件变化点4.2 时空图【创新点解决的问题是什么】现有方法通常割裂地处理空间相似性或时间相似性缺乏对 visual tokens 之间复杂时空关系的统一建模视频 token 的冗余不是单纯发生在同一帧内也不是只发生在相邻帧同位置之间而是同时具有空间和时间结构——将所有 visual tokens 建模为时空图中的节点用空间边和时间边连接局部空间邻居和相邻帧同位置 token以统一描述视频中的空间连续性和时间连续性4.3 基于相似性的代表 token 选择【创新点解决的问题是什么】如何在不训练新模型的情况下从大量视频 token 中选择少量但信息充分的 token相似 token 会在图中形成紧密连接的簇簇中的中心 token 可以代表稳定内容——提出 Similarity-based Representative Token SelectionSRTS基于相似性的代表 token 选择先用相似度阈值筛边再做 community detection社区检测然后根据 community 内平均相似度中心性选择代表 token4.4 基于差异性的事件 token 选择【创新点解决的问题是什么】相似性压缩可能平滑掉动作转折导致事件 token 缺失相邻帧同一空间位置的 token 相似度如果突然下降往往说明该位置发生了视觉变化——提出 Difference-based Event Token SelectionDETS基于差异性的事件 token 选择扫描 temporal edges当相邻帧对应 token 的相似度低于阈值 τdiff 时保留后一个 token 作为 event token5 实验