SkyJM-Gen 重磅开源:让文生图裁判模型“自己写打分细则“,效果登顶专用裁判模型

发布时间:2026/6/26 17:04:28
SkyJM-Gen 重磅开源:让文生图裁判模型“自己写打分细则“,效果登顶专用裁判模型 前言SkyJM-Gen (RubricRM-Gen)是一款面向文生图Text-to-Image的生成式裁判模型基于 Qwen3.5训练。模型在推理过程中会先针对每条 prompt 动态生成一份评分 Rubric评估维度 权重 分级标准再据此为两张候选图像逐维打分、加权聚合得出偏好。在两个公开基准 MMRB2 / GenAI-Bench 和私有基准 GenAI-Bench-Verified 上SkyJM-Gen-9B 全面领先所有同期开源专用奖励模型HPSv2、PickScore、HPSv3、UnifiedReward、UnifiedReward-Think、UnifiedReward-Flex与顶级闭源 MLLM 评审如 Gemini 3.1 Pro相当甚至持平。 关键结果速览与其他开源模型 baseline 相比SkyJM-Gen-9B 在三个 benchmark 上分别提升 2.8 / 0.7 / 0.3 分。模型MMRB2GenAI-BenchGenAI-Bench-VerifiedHPSv360.270.981.0UnifiedReward-Think-9B65.572.881.7UnifiedReward-Flex-8B69.273.484.2SkyJM-Gen-4BOurs70.573.283.1SkyJM-Gen-9BOurs72.074.184.5开源地址Githubhttps://github.com/SKYLENAGE-AI/SKYLENAGE-JUDGERmodelscopehttps://www.modelscope.cn/collections/SKYLENAGE/SkyJM晓天衡宇·评测社区https://skylenage.net/sla/home一、为什么要做“动态 Rubric”文生图奖励模型大致经历了三代CLIP 类指标如 CLIPScore高效但对复杂语义、组合关系、推理类 prompt 不敏感偏好打分模型HPSv2、PickScore、HPSv3、ImageReward、PickAPic 等在大规模人类偏好数据上训练但接口仍然是一个标量分数好就是好、差就是差缺乏为什么多模态判别 / 推理模型如 UnifiedReward、UnifiedReward-Think用 MLLM 输出一段评估推理但评估维度通常是预先固定的不同类型的 prompt 被强制按同一套维度打分。现存问题不同的指令本应有不同的评估重点一张写实人像傍晚光线 → 看人脸结构、光影质感、皮肤细节一张赛博朋克风格的霓虹街景 → 看风格统一性、构图、氛围Logo: 写一个反向的 R 字 → 看文字渲染、几何精度连人脸结构都不该出现在评分维度里。把所有 prompt 都塞进同一个固定打分模板本身就是一种评估失配。SkyJM-Gen 的核心思路让模型自己根据指令先写打分细则再打分。二、动态 Rubric 范式从标量分到可解释偏好模型的单次前向推理会依次产出Task Intent Analysis 对指令的意图分析评估维度 权重 N 个维度 与权重 满足 每个维度的分级标准 0–4 分对应什么样的图对两张候选图各维度的逐项打分 加权聚合得分 模型输出的最终偏好结果是通过比较S(I_A) 与 S(I_B) 的大小获得的。所有结果都是结构化的分数可以详细查看模型的打分逻辑。三、训练数据覆盖 6 大类 42 子类训练数据统计指标数值总样本对31,835SFT / RL 拆分16,835 / 15,000一级 / 二级类目数6 / 42平均标签数3.3多标签样本占比94.9%平均 Rubric 维度数3.9A / B 偏好比51.6 / 48.4数据来源及构建方式公开数据HPD v3、Open Image PreferencesOIP、EvalMuse-40K长尾数据合成分析数据后发现 Text Rendering6.5%、Logical Reasoning9.0%、World Knowledge15.8%等类目在公开数据中偏少。针对长尾数据我们首先使用 DeepSeek-V3.2 合成了一批 prompt 然后由人工筛选其中的高质量prompt最后再用 10 个图像生成模型包括 GPT-Image、Gemini-3.1-Pro、Seedream-5.0、Wan-2.6 等渲染候选图专家三人评审每张图按 10 分制独立打分仅保留分差 5 且三人一致的样本对确保偏好信号清晰。Rubric 轨迹合成用人类偏好锚定teacher模型为了既有结构化的 Rubric 轨迹又不被teacher模型自身的偏好偏置污染我们采用偏好标签条件下的轨迹合成teacher模型Gemini 3.1 Pro合成时把人类偏好标签 y_j 一并喂给teacher模型让它输出任务意图分析 维度 权重 分级标准 逐维打分五段式轨迹结构化校验维度齐全、分数在 [0,4]、权重和 100%方向一致性校验如果老师轨迹的加权总分与人类偏好方向矛盾整条样本丢弃。这样teacher模型不再是独立的偏好标注员而是把人类偏好翻译成结构化 Rubric的编排器。四、两阶段训练SFT 立范式GRPO 校刻度Stage 1Rubric Trajectory SFT — 学会先写细则再打分输入 (prompt, image_A, image_B)目标轨迹是teacher模型合成的完整结构化 Rubric。模型要同时掌握拆解指令意图选择合适的维度并给权重为每个维度写出 0–4 分的分级标准输出逐维打分与最终偏好。Stage 2维度级 GRPO — 让维度上的偏好也对齐只判断最终偏好的奖励信号过于稀疏两个 trajectory 哪怕维度打分一塌糊涂只要最后选对了 A/B最终奖励都是一样的。因此我们把奖励下沉到维度级。为了让 rollout 的维度能与参考 trajectory 一一对应我们在训练时固定 Rubric 部分推理阶段仍由模型端到端生成 Rubric上述公式这意味着不同的情况给予不同程度的惩罚这种方案优先考虑方向是否正确然后再奖励对分数差异的精确逼近。五、实验结果4B 已超越所有同级 baseline9B 全面登顶文生图benchmark上的结果模型MMRB2GenAI-BenchGenAI-Bench-Verified闭源 MLLM 裁判Claude Sonnet 4.670.865.875.3GPT-5.467.564.274.2Gemini 2.5 Pro70.567.877.4Gemini 3.1 Pro74.473.984.8开源 MLLM 裁判Qwen3-VL-8B61.263.372.5Qwen3-VL-235B-A22B66.661.569.7Qwen3.5-9B66.363.370.7Qwen3.5-397B-A17B72.766.277.0专用奖励模型HPSv255.068.878.1PickScore57.670.079.2HPSv360.270.981.0UnifiedReward-9B57.969.272.8UnifiedReward-Think-9B65.572.881.7UnifiedReward-Flex-8B69.273.484.2 SkyJM-Gen-4BOurs70.573.283.1 SkyJM-Gen-9BOurs72.074.184.5亮点9B 模型在三个 benchmark 上全部位列专用奖励模型第一相对最强 baseline UnifiedReward-Flex-8B 提升 2.8 / 0.7 / 0.3 分4B 模型也已在 MMRB2 上超过最强 baseline说明 Rubric 范式能让小模型把容量花在更有效的地方在 GenAI-Bench-Verified 上SkyJM-Gen-9B84.5几乎与 Gemini 3.1 Pro84.8持平但参数量小了一个数量级。两阶段消融SFT 立范式RL 稳定再上一台阶配置MMRB2GenAI-BenchGenAI-Bench-VerifiedQwen3.5-4Bbase63.361.969.7 SFT70.1 ↑6.872.0 ↑10.182.9 ↑13.2 RL70.5 ↑0.473.2 ↑1.283.1 ↑0.2Qwen3.5-9Bbase66.963.472.5 SFT70.3 ↑3.473.0 ↑9.683.2 ↑10.7 RL72.0 ↑1.774.1 ↑1.184.5 ↑1.3Rubric SFT 阶段贡献了绝大部分性能提升这进一步说明让模型学会先写细则再打分这件事本身比只用偏好标签做监督更关键。维度级 GRPO 在此基础上对刻度进行校准。Label-only vs Rubric-based SFT我们把 Rubric 轨迹换成只用偏好标签的标准 SFT结果显示在 4B/9B 两个 backbone 上去掉 Rubric 监督会让 MMRB2 / GenAI-Bench / GenAI-Bench-Verified 一致下降 1.9–5.1 分。收益不是来自看了更多数据而是来自学会了 Rubric 这套评估范式。六、可解释性 CaseRubric 把判断过程摊开来PromptA cranberry bog flooded for harvest with visible red berries, featuring geese flying in V-shaped flocks during autumn.Image AImage B模型对这条 prompt 自动生成的 Rubric 与逐维打分节选Prompt Adherence (30%)A 包含红色蔓越莓、V 字形雁阵、秋日氛围B 雁群非 V 字、flooded 渲染成奇怪的横向条纹 → A 4/4B 2/4Visual Realism Detail (30%)A 浆果质感、雁的剪影自然B 浆果像低分辨率重复贴图、雁的翅膀畸变 → A 4/4B 1/4Composition Aesthetics (20%)A 透视与秋色对比好B 构图扁平、横向条带突兀 → A 4/4B 1/4Logical Consistency (20%)A 浆果合理漂浮在水面B 出现水上散步的雁等违反物理的元素 → A 4/4B 0/4加权总分A 4.00B 1.10 → 偏好 A。这就是 Rubric 范式的价值你不再被动接受A 比 B 好 0.3 分而是看到模型究竟在哪些维度做了什么样的判断模型输出结果可被审查、可被反驳、可被复用为下游 RL 的 dense reward。七、本地部署环境安装git clone https://github.com/SKYLENAGE-AI/SKYLENAGE-JUDGER cd SKYLENAGE-JUDGER uv venv .venv --python 3.11 source .venv/bin/activate uv pip install -r requirements.txt # For vllm backend uv pip install vllm0.19.0模型下载modelscope download --model SKYLENAGE/SkyJM-Gen-4B --local_dir SKYLENAGE/SkyJM-Gen-4B文生图的评估4B模型# Text-to-image evaluation with 4B model python run_inference.py \ --judge SkyJM-Gen-4B \ --model-path SKYLENAGE/SkyJM-Gen-4B \ --backend vllm \ --input t2i_data.json \ --output result.jsonl \ --tensor-parallel-size 2图像编辑评估4B模型# Image editing evaluation with 4B model python run_inference.py \ --judge SkyJM-Edit-4B \ --model-path SKYLENAGE/SkyJM-Gen-4B \ --backend transformers \ --input edit_data.json \ --output result.jsonl