模型评测人工复核:自动分数高,也要抽样看答案

发布时间:2026/7/5 18:25:21
模型评测人工复核:自动分数高,也要抽样看答案 模型评测人工复核自动分数高也要抽样看答案一、自动评测会漏掉细节大模型评测越来越依赖自动指标和 LLM Judge。它们能提高效率但自动分数高不代表答案真的可用。事实错误、语气不合适、引用错位、细节遗漏、过度自信都可能被分数掩盖。一个医疗咨询模型的自动评分达到 4.8/5人工抽查却发现有 10% 的回答在药物剂量上给出了过时建议。自动评分只看语义流畅度对事实准确性完全无感知。模型评测需要人工复核尤其是上线前。二、抽样要有策略flowchart TD A[评测结果] -- B[高分样本] A -- C[低分样本] A -- D[分歧样本] A -- E[关键业务样本]不要只看低分样本。高分样本也可能存在隐蔽问题分歧样本能暴露评测规则不稳定关键业务样本决定上线风险。human_review_sampling: high_score: 20 low_score: 20 judge_disagreement: 30 business_critical: all抽样策略决定你能看到什么问题。如果只看低分样本你会错过高分中的隐蔽问题如果只看高分样本你会低估系统能力缺陷。四类抽样并行才能把真假问题都暴露出来。三、复核表要结构化人工复核不能只写“感觉还行”。要按维度打标事实正确、指令遵循、完整性、安全性、可读性、引用可靠。review_form: factuality: pass_fail instruction_following: score_1_5 completeness: score_1_5 citation_correct: pass_fail结构化复核结果可以反向校准自动评测。四、复核要反馈给评测系统人工发现自动分数偏高就要分析原因Judge 提示词太宽、参考答案不完整、评分维度缺失还是样本本身有歧义。calibration_action: update_judge_prompt: optional update_rubric: optional relabel_case: optional人工复核不是为了替代自动评测而是让自动评测更可信。最后复核成本要可控。高风险任务多复核低风险任务少复核。不同任务设置不同抽样率比全量人工更现实。但要提前定好抽样比例的决策规则风险等级、上次复核发现的缺陷率、业务变更频率都应该影响抽样量。一成不变的抽样规则要么对低风险任务过度投入要么在高风险阶段漏检问题。人工复核还要控制一致性。两个复核者对同一答案的判断如果差异很大说明评分标准不清。可以抽取一部分样本做双人复核计算一致率。review_consistency: double_review_rate: 0.1 disagreement_review: required rubric_update_when_low_agreement: true复核者也需要看到必要上下文。只给模型答案不给用户问题、检索证据和评分标准很容易误判。复核界面要把这些信息放在一起。还要记录复核耗时。某类样本耗时很长可能说明任务定义复杂或评分标准模糊。评测体系也要被优化。最后人工复核结果不要只用于上线决策也要沉淀成新评测样本和 Judge 校准数据。复核样本要避免泄露到训练或提示词示例中。如果复核集后来被用来调 Prompt再继续用它评测就会高估效果。评测资产要有用途标签。review_case_usage: can_train: false can_prompt_example: false can_eval: true人工复核还应该保留争议记录。有争议的样本往往说明任务边界不清比简单对错样本更能推动评测标准成熟。最后复核结论要和上线门槛绑定。例如事实错误率超过 1% 阻断上线引用错误率超过 3% 进入修复队列。五、总结模型评测人工复核要按策略抽样使用结构化复核表并把结果反向校准自动评测。自动分数高也要抽样看答案。上线质量不能只信一个数字。