Evaluating Multimodal Large Language Models on Core Music Perception Tasks

发布时间:2026/7/5 15:12:51
Evaluating Multimodal Large Language Models on Core Music Perception Tasks 一、文章主要内容总结本文聚焦多模态大型语言模型LLM的音乐感知能力评估核心围绕“模型是真正理解音乐结构还是依赖表面特征”展开研究。通过设计三个核心音乐感知任务切分音评分、移调检测、和弦质量识别对Gemini 2.5 Pro、Gemini 2.5 Flash和Qwen2.5-Omni三款主流模型进行基准测试重点探究了三种变量的影响输入模态音频vs MIDI符号、示例暴露量零样本vs少样本、推理策略独立推理、思维链CoT、LogicLM符号推理。研究结果显示模态差异显著模型在MIDI输入上表现接近满分展现出强大的符号推理能力但在音频输入上准确率大幅下降凸显“从波形中感知音乐结构”是核心瓶颈。推理策略与少样本提示增益有限LogicLM等结构化推理仅在MIDI模态下略有帮助少样本示例未带来显著且稳定的性能提升无法弥补音频感知的缺陷。模型性能分化Gemini系列模型整体表现最优Qwen2.5-Omni在多数任务中表现较弱尤其在LogicLM策略下缺陷更明显。现有模型虽能有效处理音乐符号数据但缺乏可靠的音频原生处理能力难以满足真实场景中“聆听音乐并理解结构”的需求。二、文章创新点任务设计聚焦核心音乐感知突破现有基准测试中“分类/描述”类任务的局限针对性设计切分音评分、移调检测、和弦质量识别三大任务精准探测模型对音乐节奏、旋律轮廓、和声结构的深层理解能力而非表面光谱特征匹配。分离感知与推理过程首次将LogicLM框架适配音乐领域通过“模型生成机器可验证的符号 schema 确定性求解器执行推理”的流程避免“正确答案掩盖错误感知分析”的问题明确区分模型在“感知解析音频/符号”和“推理处理结构关系”两个环节的表现。系统控制多变量影响通过因子设计交叉验证输入模态、推理策略、示例暴露量三大变量量化各因素对模型性能的独立作用清晰揭示音频感知是当前模型的主要短板。提供可复现的基准与工具公开实验所用刺激材料来自MUSE Benchmark、任务schema、确定性求解器代码solver.py为后续音乐感知模型的评估提供标准化框架和可对比的基准。三、核心部分翻译Markdown格式1. Abstract摘要多模态大型语言模型LLM声称具备“音乐理解能力”但相关评估往往混淆了“聆听音乐”与“读取乐谱”两种能力。本文在三项核心音乐技能切分音评分、移调检测、和弦质量识别上对三款最先进的LLMGemini 2.5 Pro、Gemini 2.5 Flash、Qwen2.5-Omni进行基准测试。此外我们还分离了三种变异来源i感知限制音频输入vs MIDI输入、ii示例暴露量零样本vs少样本操作、iii推理策略独立推理、思维链CoT、LogicLM。针对后者我们将LogicLM——一个结合LLM与符号求解器以执行结构化推理的框架——适配到音乐领域。结果揭示了明显的感知差距模型在MIDI输入上表现接近满分但在音频输入上准确率显著下降。推理策略与少样本提示仅带来有限增益这一结果在MIDI输入上符合预期性能已达饱和但在音频输入上令人意外——尽管LogicLM在MIDI输入上准确率近乎完美在音频输入上仍表现出明显的脆弱性。在所有模型中Gemini Pro在多数测试条件下实现了最佳性能。总体而言当前系统能有效对音乐符号MIDI进行推理但尚未能可靠地从音频中“聆听”并理解音乐。我们的方法和数据集明确了感知与推理的边界为构建稳健的、以音频为核心的音乐系统提供了可操作的指导。2. Introduction引言Qwen2.5-Omni[1]和Gemini 2.5[2]等多模态基础模型如今声称具备“音乐理解能力”但其音频处理能力仍缺乏充分表征。尽管AIR-Bench[3]、MMAR[4]、MMAU[5]、MMAU-Pro[6]、CMI-Bench[7]、RUListening[8]和FUTGA-MIR[9]等基准测试通过分类和描述任务评估音乐相关能力但这些测试无法区分模型是真正感知到音乐结构还是仅依赖表面的光谱模式。SALMONN[10]、Qwen-Audio[11]和Audio Flamingo 2[12]等音频-语言模型在语音和声音识别任务上表现出色但尚未在音乐中天然蕴含的“关系属性”如旋律 intervals、和声结构上得到测试。这些关系属性相关的能力对于开发下一代技术如播放列表推荐/生成[13-16]、音乐偏好建模[17]至关重要。为填补这一空白我们测试了三项需要结构理解而非表面识别的基础音乐能力切分音评分要求模型对节奏预期违背和节拍位移敏感[18,19]移调识别需要模型具备“不受绝对音高影响的旋律识别能力”[20-23]——这是人类在不同调式和音色下识别旋律的核心感知技能[24,25]和弦质量识别则要求模型识别音程模式而非进行绝对频率匹配。这些任务旨在探测人类音乐认知与感知所特有的结构理解能力而现有音频基准测试中恰恰缺乏此类评估。为分离感知与推理过程我们适配了LogicLM框架[26]模型作为“感知公式化器”生成机器可验证的符号 schema再由确定性求解器执行推理以此提升逻辑推理和问题解决的准确性。该方法可避免“不忠实推理”[26]——即正确答案掩盖有缺陷的感知分析的情况。我们通过对比音频与MIDI处理结果量化了现有评估中未被关注的“感知瓶颈”。我们的基准测试表明当前多模态LLM能有效对音乐符号进行推理但无法可靠地解析音频——这是真实世界音乐应用中的一项根本性局限。3. Conclusion结论注原文无单独Conclusion章节核心结论整合自Discussion部分我们的研究结果指向一个简单但重要的结论多模态LLM能有效对符号化音乐数据进行推理但仍未能可靠地“聆听”音乐。Gemini系列模型在MIDI输入上表现接近满分且当模型能遵守schema规范时LogicLM框架能按预期发挥作用。但将输入从MIDI替换为音频后模型准确率大幅下降——尤其在切分音评分和和弦质量识别任务中LogicLM策略下的性能下滑最为显著这表明“转录/起拍检测”和“音高显著性识别”是当前的主要瓶颈。少样本示例仅在“感知校准至关重要”的场景下如节奏计数有一定帮助但思维链CoT和LogicLM均无法弥补上游的“听觉识别错误”。这一差距具有重要意义人类通过音频体验音乐而非符号代理。声称“具备音乐理解能力”的模型必须能像处理文本或视频一样直接处理音频轨道。符号格式如MIDI剥离了使音乐产生意义的关键特征如微时序、演奏技法、表现力细节因此模型在MIDI上的满分表现不应被误认为是“音频原生能力”。进一步分析表明模型的表面成功可能源于浅层启发式而非真正的聆听能力。例如在移调检测任务中Gemini Pro常能保留旋律长度但未能捕捉音程结构和轮廓而LogicLM通过强制要求音乐一致性暴露了这种退化策略——相比之下独立推理Standalone和思维链CoT则可能掩盖此类根本性错误。类似现象也出现在音频输入的和弦质量识别任务中即使不考虑LogicLM的schema负担模型在相似和弦质量如大调vs属七和弦之间仍易混淆且受声部编排/转位 artifacts影响导致中等水平的准确率见表2示例。总之当前多模态LLM具备符号推理能力但缺乏完全准确的“音频原生能力”——即从音频文件中处理歌曲并回答结构化问题的能力。未来的进展将依赖于更强大的音频前端处理技术以及将不确定性传递到下游求解器的机制。在当前技术水平下符号推理层会因微小的感知错误而崩溃。若LLM能获得真正的音乐理解能力有望成为音乐教育[28]和用户中心型音乐分析工具[16,17]的核心构建能教授音乐结构、促进用户与个人音乐聆听深度互动的交互式系统。