微调Qwen3-VL-2B实现高准确率视觉检测

发布时间：2026/6/30 3:54:33

数据样例文件夹face_zhedang下面有几百张类似这种的图片识别要求eye_focus(眼睛是否盯着镜头看是就返回1否则0),eye_close(眼睛是否闭上有一个闭上就是1,否则0),haireye(是否有头发遮挡眼睛或者眉毛有就返回1否则0)glass(是否佩戴墨镜有就返回1否则0)glassspot(佩戴的眼镜是否反光反光就返回1否则0)数据集准备aaa.jsonl{image: face_zhedang/wuzui_10268.jpg, conversations: [ {from: human, vale: 你是一位摄影师擅长拍摄证件照请仔细判断下面这个证件照判断这个照片是否符合以下要求eye_focus(眼睛是否盯着镜头看是就返回1否则0),eye_close(眼睛是否闭上有一个闭上就是1,否则0),haireye(是否有头发遮挡眼睛或者眉毛有就返回1否则0)glass(是否佩戴墨镜有就返回1否则0)glassspot(佩戴的眼镜是否反光反光就返回1否则0)。用json格式返回.只返回json格式不返回其他内容。}, {from: gpt, value: {\n eye_focus: 1,\n eye_close: 0,\n haireye: 0,\n glass: 0,\n glassspot: 0\n}} ] }训练脚本 git clone https://github.com/QwenLM/Qwen3-VL.git cd qwen-vl-finetune/scripts bash sft.sh具体代码如下修改数据文件路径指定到自己的jsonl文件文件格式见上面aaa.jsonl#!/bin/bash # Distributed training configuration MASTER_ADDR${MASTER_ADDR:-127.0.0.1} MASTER_PORT${MASTER_PORT:-$(shuf -i 20001-29999 -n 1)} NNODES${WORLD_SIZE:-1} # DeepSpeed configuration deepspeed./scripts/zero3.json # Model configuration llmQwen/Qwen3-VL-2B-Instruct # Using HuggingFace model ID # Training hyperparameters lr2e-7 batch_size4 grad_accum_steps4 # Training entry point entry_fileqwenvl/train/train_qwen.py # Dataset configuration (replace with public dataset names) datasetsaaa.jsonl # Output configuration run_nameqwen3vl-baseline output_dir./output # Training arguments args --deepspeed ${deepspeed} \ --model_name_or_path ${llm} \ --dataset_use ${datasets} \ --data_flatten True \ --tune_mm_vision False \ --tune_mm_mlp True \ --tune_mm_llm True \ --bf16 \ --output_dir ${output_dir} \ --num_train_epochs 0.5 \ --per_device_train_batch_size ${batch_size} \ --per_device_eval_batch_size $((batch_size*2)) \ --gradient_accumulation_steps ${grad_accum_steps} \ --max_pixels 50176 \ --min_pixels 784 \ --eval_strategy no \ --save_strategy steps \ --save_steps 1000 \ --save_total_limit 1 \ --learning_rate ${lr} \ --weight_decay 0 \ --warmup_ratio 0.03 \ --max_grad_norm 1 \ --lr_scheduler_type cosine \ --logging_steps 1 \ --model_max_length 8192 \ --gradient_checkpointing True \ --dataloader_num_workers 4 \ --run_name ${run_name} \ --report_to wandb # Launch training torchrun --nproc_per_node${NPROC_PER_NODE} \ --master_addr${MASTER_ADDR} \ --master_port${MASTER_PORT} \ ${entry_file} ${args}评测方式用qwen3-vl-8b进行校验。下面是教师模型的推理代码import os import dashscope from pathlib import Path import json def img2text(img_path,prompt1): messages [ { role: user, content: [ {image:img_path }, {text: prompt1} ] } ] response dashscope.MultiModalConversation.call( api_keyos.getenv(DASHSCOPE_API_KEY), modelmd_name, # 此处以qwen-vl-max为例可按需更换模型名称。模型列表https://help.aliyun.com/zh/model-studio/getting-started/models messagesmessages ) try: content_text response[output][choices][0][message][content][0][text] except: content_text {eye_focus: 0,eye_close:0,haireye: 0, glass: 0,glassspot: 0} return content_text if __name__ __main__: md_nameqwen3-vl-8b-instruct my_prompt2你是一位摄影师擅长拍摄证件照请仔细判断下面这个证件照判断这个照片是否符合以下要求eye_focus(眼睛是否盯着镜头看是就返回1否则0),eye_close(眼睛是否闭上有一个闭上就是1,否则0),haireye(是否有头发遮挡眼睛或者眉毛有就返回1否则0)glass(是否佩戴墨镜有就返回1否则0)glassspot(佩戴的眼镜是否反光反光就返回1否则0)。用json格式返回.只返回json格式不返回其他内容。 dir_path face_zhedang dlist[] for filename in os.listdir(dir_path): if filename.endswith(.jpg): img_pathos.path.join(dir_path, filename) print(img_path) content_text img2text(img_path,my_prompt2) print(content_text) dlist.append(content_text)效果在qwen3-vl-2b上准确率接近qwen3-vl-8b

资讯详情

微调Qwen3-VL-2B实现高准确率视觉检测

相关新闻

【ChatGPT微调实战权威指南】：20年NLP工程师亲授5大避坑法则、3类场景最佳实践与训练成本压降47%的秘钥

如何安全迁移艾尔登法环存档角色：专业工具使用指南

Minecraft区块管理终极指南：用MCA Selector免费版快速释放硬盘空间

数据安全审计实战：从加密算法到密钥管理的核心挑战与前沿密码学应用

MC6470与PIC18单片机在运动感知与导航中的应用实践

chinese 15 sentences

移动端安全加固方案

【学习笔记】垂直领域大模型：行业微调实战指南（9/35）

JMeter后置处理器全解析：从数据提取到脚本动态化的核心技巧

AScript异步执行与await关键字

AI时代真的风水轮流转，前段时间最火的还是Claude Code,转眼间Codex就火得一塌糊涂。Codex是由OpenAI 推出的AI智能体。

Ohook终极指南：3分钟实现Microsoft 365完整功能免费激活方案

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解