
扩散模型的前向加噪过程z_t √ᾱ_t · z_0 √(1-ᾱ_t) · ε其中z_0是干净的语音潜向量ε是高斯噪声ᾱ_t随时间步 t 单调递减。在早期时间步t 接近 Tᾱ_t ≈ 0z_t ≈ ε 基本是纯噪声几乎不含语音结构在晚期时间步t 接近 0ᾱ_t ≈ 1z_t ≈ z_0 逐渐恢复语音结构1.2 交叉注意力的失效如果用交叉注意力实现文本-语音对齐音频帧作为 Query文本音素作为 Key 和 ValueAttention(Q, K, V) softmax(QK^T / √d) · V在早期时间步Q 来自接近纯噪声的z_t没有任何语音语义信息。此时Q 是随机噪声向量与 K音素嵌入的点积分布混乱Attention weight 趋向均匀分布无法形成有意义的单调对齐模型在早期时间步实际上无法知道当前音频帧应该对应哪个音素这是扩散模型 交叉注意力对齐方案的核心矛盾对齐依赖有意义的 Query但扩散早期的 Query 是噪声。1.3 为什么这个问题被长期忽视自回归 TTS如 VALL-E不存在这个问题因为每一步生成都有明确的上下文。FastSpeech 系列用显式时长预测完全绕开了这个问题。只有在非自回归扩散模型 交叉注意力这个特定组合下这个矛盾才会显现。二、三种解法的对比2.1 F5-TTSConcat 方案——绕开交叉注意力核心思路不用交叉注意力彻底绕开这个问题。F5-TTS 的对齐方式将音素序列用填充 tokenfiller token填充到与音频序列等长将填充后的文本序列与噪声音频序列直接Concat拼接送入 DiTDiffusion Transformer的自注意力模块处理Step 1: 将音素序列用 filler token 填充到与音频等长 [ph_1, ph_2, ph_3, filler, filler, ...] shape: [T_audio, d_text] Step 2: 在特征维度通道上与噪声音频 Concat [ph_1, ph_2, ph_3, filler, ...] shape: [T_audio, d_text] ↕ concat on feature dim [z_t_1, z_t_2, z_t_3, ...] shape: [T_audio, d_audio] ↓ 输出序列长度仍为 T_audio特征维度扩展为 d_text d_audio Step 3: 送入 DiT Block 的自注意力Self-Attention RoPE为什么这样能工作Concat 之后文本和音频在同一个序列内自注意力中的位置编码RoPE直接编码了两者的相对位置关系。音素 token 和对应音频帧在序列中的位置已经预先对齐自注意力不需要学习哪个音频帧对应哪个音素——位置关系已经由 Concat 的构造方式隐式决定。代价Concat 在特征维度而非序列维度上进行序列长度等于音频长度不翻倍但每个位置的特征维度增加计算量有所上升模型需要学习忽略 filler token对齐的隐式性意味着需要更大的模型容量和更多训练数据。RoPE 的角色在自注意力中编码相对位置帮助模型利用位置信息区分文本和音频 token以及两者之间的相对距离。不是专门为文本-语音对齐设计的是 DiT 的标准组件。2.2 SupertonicTTSLARoPE——正面解决交叉注意力对齐问题核心思路承认交叉注意力在早期时间步的对齐困难用专门设计的位置编码在语义信号缺失时提供位置锚点。SupertonicTTS 后续版本引用并采用了LARoPELength-Aware Rotary Position EmbeddingKim et al., 2025arXiv:2509.11084。2.2.1 标准 RoPE 的问题标准 RoPE 将位置编码为绝对整数索引文本序列位置0, 1, 2, ..., T_text 音频序列位置0, 1, 2, ..., T_audio文本和音频序列长度不同位置索引的尺度不一致。位置 5 在文本序列里可能对应句子中间在音频序列里可能只是开头附近。两个序列的位置没有可比性交叉注意力无法利用位置信息推断对齐关系。2.2.2 LARoPE 的解法LARoPE 将两个序列的位置归一化到同一尺度文本序列位置 i → 归一化位置 i / T_text ∈ [0, 1] 音频序列位置 j → 归一化位置 j / T_audio ∈ [0, 1]归一化后两个序列的位置处于相同的尺度空间。位置 0.3 的音频帧通过 RoPE 的旋转操作会在注意力计算中与位置 0.3 附近的文本音素产生更高的相似度。早期时间步的行为早期时间步Q ≈ 噪声 Attention weight ≈ f(位置相似度) ← 语义信号近零位置主导 → 对齐由 LARoPE 的位置校准兜底形成近似单调对齐 晚期时间步Q 逐渐恢复语音结构 Attention weight ≈ f(语义相似度 位置相似度) ← 两者共同驱动 → 语义信号逐渐主导对齐精度提高这是一个优雅的渐进机制位置编码在早期时间步充当对齐锚点在晚期时间步退为辅助信号两个阶段平滑过渡不需要额外的对齐模块。2.2.3 与 Context-sharing Batch Expansion 的协同SupertonicTTS 同时使用了 Context-sharing Batch Expansion 训练策略通过在 batch 内共享上下文加速和稳定对齐学习。LARoPE 提供位置先验Context-sharing 加速收敛两者共同解决交叉注意力对齐难题。2.3 VoxFlash-TTS预计算显式对齐——把问题移出扩散模型核心思路在扩散模型之外用第三方工具预先确定每个音素的时长对齐在扩散开始之前就已经完成。对齐流程训练 / 推理前 文本 → 音素序列 ↓ 第三方时长预测工具外部工具如 MFA 等 ↓ 每个音素的时长帧数← 粗粒度显式对齐 ↓ 按时长展开音素序列与音频潜向量对齐 扩散模型 在已对齐的条件序列上直接做去噪不涉及对齐学习为什么这样能彻底绕开问题对齐在扩散模型的输入阶段就已经确定扩散模型接收的是已经对齐好的条件序列不需要在去噪过程中学习或执行任何对齐操作。早期时间步 Query 是噪声这件事对这个设计完全没有影响。代价依赖外部对齐工具增加了系统依赖和推理流程的复杂度时长预测的粒度是粗粒度——可能丢失精细的节奏变化对齐质量受外部工具的准确性限制如果时长预测有误扩散模型无法自动纠正三、三种方案的本质差异从对齐学习的角度看三种方案代表了三种不同的设计哲学维度F5-TTSConcatSupertonicTTSLARoPEVoxFlash-TTS显式对齐对齐方式隐式自注意力位置关系隐式交叉注意力 位置校准显式外部工具预计算早期时间步对齐位置由 Concat 构造决定LARoPE 位置编码兜底对齐已预先完成无关时间步对扩散时间步的依赖低位置关系固定中早期依赖位置晚期依赖语义无额外组件无架构更简洁LARoPE轻量外部时长预测工具对齐灵活性高模型自由学习高Cross-Attention 灵活性低粗粒度预先固定系统依赖低低高依赖外部工具四、一个更深层的问题上述分析引出一个值得思考的问题扩散模型的时间步和对齐质量之间存在内在矛盾不同系统的解法本质上都是在用某种先验来弥补早期时间步语义信号的缺失F5-TTS 用构造性位置先验Concat 决定了位置关系SupertonicTTS 用归一化位置先验LARoPE 将两个序列映射到同一尺度VoxFlash-TTS 用外部知识先验第三方工具预测的时长三种先验的强度依次递增Concat 是最弱的隐式约束LARoPE 是中等强度的位置约束显式对齐是最强的硬约束。强约束带来稳定性代价是灵活性的损失。五、小结音素对齐是 TTS 扩散模型中被低估的难点之一。交叉注意力在扩散早期时间步的失效问题促使不同系统走向了不同的解决路径F5-TTS用 Concat 自注意力彻底绕开交叉注意力让位置关系由序列构造决定SupertonicTTS用 LARoPE 将文本和音频序列的位置归一化到同一尺度让位置编码在早期时间步充当对齐锚点弥补语义信号的缺失VoxFlash-TTS用外部工具预计算音素时长把对齐问题完全移到扩散模型之外LARoPE 的设计思路尤其值得关注——它没有绕开问题而是直接在问题所在的地方交叉注意力 早期时间步提供了