模型评测人工复核：自动分数高，也要抽样看答案

发布时间：2026/7/5 18:25:21

模型评测人工复核自动分数高也要抽样看答案一、自动评测会漏掉细节大模型评测越来越依赖自动指标和 LLM Judge。它们能提高效率但自动分数高不代表答案真的可用。事实错误、语气不合适、引用错位、细节遗漏、过度自信都可能被分数掩盖。一个医疗咨询模型的自动评分达到 4.8/5人工抽查却发现有 10% 的回答在药物剂量上给出了过时建议。自动评分只看语义流畅度对事实准确性完全无感知。模型评测需要人工复核尤其是上线前。二、抽样要有策略flowchart TD A[评测结果] -- B[高分样本] A -- C[低分样本] A -- D[分歧样本] A -- E[关键业务样本]不要只看低分样本。高分样本也可能存在隐蔽问题分歧样本能暴露评测规则不稳定关键业务样本决定上线风险。human_review_sampling: high_score: 20 low_score: 20 judge_disagreement: 30 business_critical: all抽样策略决定你能看到什么问题。如果只看低分样本你会错过高分中的隐蔽问题如果只看高分样本你会低估系统能力缺陷。四类抽样并行才能把真假问题都暴露出来。三、复核表要结构化人工复核不能只写“感觉还行”。要按维度打标事实正确、指令遵循、完整性、安全性、可读性、引用可靠。review_form: factuality: pass_fail instruction_following: score_1_5 completeness: score_1_5 citation_correct: pass_fail结构化复核结果可以反向校准自动评测。四、复核要反馈给评测系统人工发现自动分数偏高就要分析原因Judge 提示词太宽、参考答案不完整、评分维度缺失还是样本本身有歧义。calibration_action: update_judge_prompt: optional update_rubric: optional relabel_case: optional人工复核不是为了替代自动评测而是让自动评测更可信。最后复核成本要可控。高风险任务多复核低风险任务少复核。不同任务设置不同抽样率比全量人工更现实。但要提前定好抽样比例的决策规则风险等级、上次复核发现的缺陷率、业务变更频率都应该影响抽样量。一成不变的抽样规则要么对低风险任务过度投入要么在高风险阶段漏检问题。人工复核还要控制一致性。两个复核者对同一答案的判断如果差异很大说明评分标准不清。可以抽取一部分样本做双人复核计算一致率。review_consistency: double_review_rate: 0.1 disagreement_review: required rubric_update_when_low_agreement: true复核者也需要看到必要上下文。只给模型答案不给用户问题、检索证据和评分标准很容易误判。复核界面要把这些信息放在一起。还要记录复核耗时。某类样本耗时很长可能说明任务定义复杂或评分标准模糊。评测体系也要被优化。最后人工复核结果不要只用于上线决策也要沉淀成新评测样本和 Judge 校准数据。复核样本要避免泄露到训练或提示词示例中。如果复核集后来被用来调 Prompt再继续用它评测就会高估效果。评测资产要有用途标签。review_case_usage: can_train: false can_prompt_example: false can_eval: true人工复核还应该保留争议记录。有争议的样本往往说明任务边界不清比简单对错样本更能推动评测标准成熟。最后复核结论要和上线门槛绑定。例如事实错误率超过 1% 阻断上线引用错误率超过 3% 进入修复队列。五、总结模型评测人工复核要按策略抽样使用结构化复核表并把结果反向校准自动评测。自动分数高也要抽样看答案。上线质量不能只信一个数字。

资讯详情

模型评测人工复核：自动分数高，也要抽样看答案

相关新闻

twitter-api-php与其他社交媒体API对比：为什么选择这个轻量级解决方案

Instatic集群部署：负载均衡与会话共享配置指南

CANN/ops-transformer局部旋转位置编码梯度算子

如何永久珍藏你的数字对话？一款让聊天记录重获新生的本地工具

FlexASIO终极指南：让普通声卡也能拥有专业ASIO音频性能

网盘直链下载助手完整教程：一键获取九大网盘真实链接的终极解决方案

Snipe-IT：3个关键步骤教你如何轻松管理企业IT资产

Citra模拟器终极使用指南：简单快速解决3DS游戏运行问题

如何快速实现RTL语言支持：tui.editor多语言编辑器完整配置指南

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

GXDE OS下Wayland兼容性实战：从deepin-mutter原理到VMware Tools修复

GPT-5.5与DeepSeek V4选型指南：Agentic Coding与1M上下文的工程落地

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

GXDE OS下Wayland兼容性实战：从deepin-mutter原理到VMware Tools修复

GPT-5.5与DeepSeek V4选型指南：Agentic Coding与1M上下文的工程落地

基于Dify与DeepSeek构建私有知识库问答系统实战指南

FAE放射组学分析工具：医学影像特征探索的完整解决方案

DesktopNaotu：你的终极离线思维导图解决方案，告别网络依赖！