:从基础模型到稀疏鲁棒架构)
摘要销量预测是零售供应链优化的核心任务近年来经历了从统计模型到深度学习、再到基础模型Foundation Models的范式转移。本文系统梳理2025—2026年销量预测领域的前沿技术进展聚焦四个关键方向1时序基础模型在零售场景中的实证突破与集成策略2面向长尾商品的稀疏鲁棒预测架构3以Mamba为代表的高效状态空间模型及其在长周期预测中的应用4因果推断驱动的可解释预测框架。通过对各方向核心方法、实证结果与适用边界的分析本文旨在为零售预测系统的技术选型与迭代提供参考框架。关键词销量预测、时序基础模型、稀疏预测、Mamba、因果推断一、引言准确的销量预测是零售企业优化库存、降低运营成本、提升客户满意度的关键能力。然而真实零售场景中的销量数据面临多重挑战需求波动剧烈、促销与节假日等外部因素交织、长尾商品数据稀疏、层级结构复杂。传统统计模型如SARIMA、Holt-Winters在稳定季节性场景中仍有竞争力但在动态零售环境中的局限性日益明显。近年来深度学习模型LSTM、Transformer、N-BEATS显著提升了预测精度。而2024—2026年间时序基础模型Time Series Foundation Models, TSFMs的崛起正在重塑这一领域的技术格局。与此同时面向稀疏数据的专用架构、高效状态空间模型以及因果推断框架也在快速演进。本文系统梳理这些前沿方向为研究者与从业者提供技术全景图。二、时序基础模型从概念验证到全面超越2.1 实证突破基础模型 vs 经典方法2025年的一项系统对比研究在三个零售品类摄像机、平板电脑、玩具上评估了SARIMA、Holt-Winters、Prophet与TimeGPT-1、Moirai两个基础模型的预测性能。研究发现基础模型在绝对精度上全面超越经典方法尤其在波动性需求环境下优势更为显著。TimeGPT-1在所有品类上都展现出稳定可靠的预测能力Moirai在中等波动环境中表现突出。经典模型在稳定季节性场景中仍具竞争力但Prophet添加外部回归变量后并未系统性提升性能。这一结论的重要意义在于基础模型已不再是学术概念而是可以开箱即用的实用工具。2.2 基础模型的局限性架构僵化与分布漂移尽管基础模型表现优异但它们并非万能。研究发现现有时序基础模型存在架构僵化和分布变化下鲁棒性不足的问题。具体表现为在供应链层级结构中单一基础模型难以同时适配不同粒度的预测需求当市场环境发生漂移时模型性能可能显著衰减。2.3 双策略集成释放基础模型潜力的关键Yang等人提出了双策略集成框架Dual-Strategy Ensembling· 层级集成Hierarchical Ensemble, HE 按门店、品类、部门等语义层级分别进行训练与推理捕捉局部模式。· 架构集成Architectural Ensemble, AE 融合多种模型架构的预测结果减少偏差、提升稳定性。在M5基准与三个外部销售数据集上的实验表明该框架一致性地超越了强基线。核心启示如果单一基础模型效果不理想集成可能是解锁潜力的关键而非模型本身的问题。2.4 2026年新进展轻量化与协变量支持2026年涌现的新基础模型进一步拓展了能力边界· CITRAS-FM轻量级时序基础模型原生支持协变量covariates的零样本预测。· Falcon-X面向异构多变量建模的时序基础模型。· ProbFM支持不确定性分解的概率时序基础模型。· AME-TS通过锚定专家混合Anchored Mixture-of-Experts实现结构引导的稀疏时序基础模型可根据可预测性、季节性、趋势和稀疏性等序列描述符进行专家路由。· TS-ICL通过上下文学习实现灵活的时间索引基础模型。三、稀疏与长尾预测SPADE-S与间歇性需求3.1 被忽视的行业顽疾在零售数据中长尾分布是常态头部20%的商品贡献了80%的销量尾部80%的商品——日销量经常为零——构成了预测的“盲区”。现有模型在低量级和稀疏时间序列上系统性表现不佳。研究发现这一系统性偏差源于三个因素损失函数的隐式偏倚倾向于优化高销量序列训练时的采样方法高销量样本被过度呈现时间序列编码方式的局限无法有效处理稀疏模式间歇性需求intermittent demand——长串零值中偶发正值——广泛存在于备件、长尾零售和医疗物资等领域。传统方法如Croston、SBA和TSB提供了简单启发式规则但缺乏原则性的生成基础。3.2 SPADE-S专为稀疏数据设计的架构SPADE-SSparsity-Robust Foundational Forecaster通过重新设计上述三个环节显著减少了基于量级和稀疏性的系统性偏差。在一家大型在线零售商的300万到7亿条时间序列上的实证结果· P90预测精度提升2.21%、6.58%、4.28%三个数据集· P50预测精度提升0.92%、0.77%、1.95%关键洞察P90高分位数的提升远大于P50——SPADE-S在极端情况高波动、高不确定性下的优势更为明显而这恰恰是库存决策最需要关注的场景。3.3 间歇性需求预测的新方法2026年的研究进一步拓展了间歇性需求预测的方法论· TSB-HB分层贝叶斯TSB模型将经典TSB方法扩展为分层贝叶斯框架处理异构间歇性需求。· MoE编码器AR Hurdle解码器通过专家混合编码器与自回归Hurdle解码器专门处理长序列零值偶发正值的模式。· AHSIV自适应混合选择器面向预测视野退化的自适应模型选择框架根据间歇性和变异性进行结构自适应模型选择。四、Mamba与新架构线性复杂度的长程依赖建模4.1 Mamba的原理优势标准Transformer的注意力机制复杂度为O(n²)处理长序列时计算成本高昂。Mamba通过选择性状态空间模型Selective State Space Model实现了线性时间复杂度下的长程依赖建模。Mamba的输入依赖门控机制和硬件感知设计在电力需求预测等任务中已展现出超越Transformer的性能。4.2 MambaDiffTS融合频率感知扩散MambaDiffTS将Mamba的状态空间模型与频率感知的扩散过程相结合· Mamba处理长程依赖· 频率感知谱分解通过傅里叶正则化分离趋势和季节性· 谱能量引导的噪声调度保持时间保真度在股票预测任务上MambaDiffTS相比最优基线将MSE降低了约18.6%同时保持了线性计算复杂度。4.3 2026年Mamba架构的演进2026年涌现了多个Mamba的增强版本· MODE将Mamba的选择性扫描与低秩神经常微分方程Neural ODE相结合在保持表达能力的同时降低计算开销。· AdaMamba提出自适应频率门控状态空间模块生成输入依赖的频率基将传统时间遗忘门泛化为统一的时间-频率遗忘门。· ms-Mamba多尺度Mamba架构对比标准Mamba的单尺度处理方式。· DMamba分解增强的Mamba专门应对非平稳模式的数据集。· DeMa双路径延迟感知Mamba解决显式跨变量建模缺失、时序动态与变量间交互纠缠等局限。五、因果推断从预测“是什么”到理解“为什么”5.1 超越相关性的需求传统销量预测回答的是“销量会是多少”但业务决策者更想知道“如果我做了某个动作如促销、调价销量会变化多少”这一问题超越了相关性分析进入因果推断的范畴。5.2 因果时序预测的前沿进展2025—2026年因果时序预测领域涌现了多个重要框架· DoFlow基于流的生成模型定义在因果有向无环图DAG之上可同时提供观测预测、干预预测和反事实预测。· DAGDual Causal Network沿时间和通道两个维度进行双因果网络建模支持含外生变量的时序预测。· Augur利用LLM的因果推理能力发现协变量间的有向因果关联采用两阶段师生架构。· Mask2Cause在前向传播过程中直接恢复底层因果图推断出的因果结构可将预测模型参数减少70%以上。· Causal Semantic Alignment用非因果注意力机制替代标准LLM中的因果注意力捕捉变量间交互。· CASTCausal Anchored Simplex Transport针对分布值时间序列的因果在线预测。5.3 因果推断的业务价值因果推断驱动的预测框架已在实际业务中产生可量化价值。Cloudbeds的因果AI技术每小时处理40亿数据点实现高达95%的预测准确率通过识别需求缺口、确定最优预订时机一年内带来100万英镑增量收入。DeepCausalMMM框架将深度学习、因果推断与营销科学相结合用于评估营销活动对销售的影响。六、讨论与展望6.1 技术选型决策框架综合以上分析不同技术方向的适用场景可归纳如下技术方向 核心优势 适用场景 成熟度时序基础模型 零样本/少样本预测 快速启动、缺乏标注数据 ⭐⭐⭐⭐⭐双策略集成 提升基础模型鲁棒性 已有基础模型但效果不佳 ⭐⭐⭐⭐SPADE-S 长尾稀疏序列预测 SKU数量大、长尾严重 ⭐⭐⭐⭐Mamba架构 线性复杂度长程建模 超长序列、大规模数据 ⭐⭐⭐因果推断 可解释性与决策支持 促销评估、定价优化 ⭐⭐⭐6.2 开放问题与未来方向基础模型的领域适配如何高效地将通用基础模型适配到特定零售场景仍是开放问题。稀疏与长尾的统一框架SPADE-S等方法的思路值得进一步拓展形成覆盖头部与长尾的统一预测架构。因果与预测的深度融合将因果发现与预测模型端到端集成实现“可解释的预测”是重要发展方向。计算效率与精度的平衡Mamba等新架构提供了新思路但如何在精度与效率间取得最优平衡仍需探索。七、结论销量预测的技术栈正在从“手工特征树模型”向“基础模型专用架构”加速演进。时序基础模型已通过大规模实证证明其对经典方法的全面超越SPADE-S为长期被忽视的长尾预测问题提供了系统性解决方案Mamba等新架构在计算效率与长程建模能力上开辟了新路径因果推断则为预测注入了可解释性与决策价值。对从业者而言不必追求最前沿的技术而应追求最适合自身业务场景的技术。基础模型的零样本能力降低了入门门槛稀疏鲁棒架构解决了长尾痛点因果推断提升了决策价值——这些方向各有侧重共同构成了下一代销量预测系统的技术基石。参考文献[1] Nascimento, M. M. M. B. do. Comparative Analysis of Classical Models and Foundation Models for Retail Sales Forecasting. Master’s thesis, Universidade Nova de Lisboa, 2025.[2] Yang, W., Cao, D., Liu, Y. Foundation Models for Demand Forecasting via Dual-Strategy Ensembling. In Proceedings of the 1st Workshop on AI for Supply Chain KDD 2025, 2025.[3] LaplaceSalesNet: A Neural Laplace-Transformer Framework for Continuous-Time Sales Forecasting. IEEE Transactions, 2025.[4] SPADE-S: A Sparsity-Robust Foundational Forecaster. arXiv:2507.21155, 2025.[5] Wang, W., Li, Q., Jiang, Z., Fu, D., Camacho, D. An efficient framework for general long-horizon time series forecasting with Mamba and Diffusion Probabilistic Models. Engineering Applications of Artificial Intelligence, 162, 2025.[6] Chen, X., et al. MODE: Efficient Time Series Prediction with Mamba Enhanced by Low-Rank Neural ODEs. arXiv:2601.00920, 2026.[7] Jiang, X., et al. AdaMamba: Adaptive Frequency-Gated Mamba for Long-Term Time Series Forecasting. arXiv:2604.23239, 2026.[8] DoFlow: Flow-based Generative Models for Interventional and Counterfactual Forecasting on Time Series. arXiv, 2026.[9] Mask2Cause: Causal Discovery via Adjacency Constrained Causal Attention. arXiv, 2026.[10] CITRAS-FM: Tiny Time Series Foundation Model for Covariate-Informed Zero-Shot Forecasting. arXiv, 2026.[11] ProbFM: Probabilistic Time Series Foundation Model with Uncertainty Decomposition. arXiv, 2026.[12] AME-TS: Anchored Mixture-of-Experts for Time Series Forecasting. arXiv, 2026.