【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态(6月22日-6月30日)

发布时间:2026/7/6 2:55:05
【AIGC行业前沿】2026年6月AIGC行业前沿模型发布动态(6月22日-6月30日) 目录一、通用大模型与智能体技术OpenAI 推出 GPT-5.5 Instant 新版本Google Gemini 3.5 Flash 内置 Computer Use 功能正式开放阿里巴巴发布开源首个语言世界模型 Qwen-AgentWorldDeepReinforce 发布 Agentic 编程开源模型系列 Ornith-1.0Ai2 联合华盛顿大学发布 TMax 开源终端 Agent 训练方案二、多模态生成模型字节跳动集中发布三大生成模型Doubao-Seed-Audio 1.0 音频生成模型Seedance 2.0 视频模型升级原生4K 10-bit直出Seedream 5.0 Pro 图像创作模型即将上线其他厂商多模态新品即梦AI上线 SeedMusic 1.0 Preview 音乐生成模型Krea 开源 12B 参数图像生成模型 Krea 2 系列Catnip AI 发布 22B 实时音视频模型 MaineCoon京东开源实时视觉交互模型 JoyAI-VL-Interaction华中科技大学联合VIVO推出 Moebius 轻量级图像修复框架阿里巴巴发布视频生成模型 HappyHorse 1.1Unconventional AI 开源物理计算架构图像模型 Un-0三、文档识别与OCR技术Mistral AI 发布 Mistral OCR 4 结构化文档识别模型百度发布 Unlimited-OCR 长篇文档解析模型四、垂直领域专用模型百川智能发布新一代医疗增强大模型 Baichuan-M4一、通用大模型与智能体技术1. OpenAI 推出 GPT-5.5 Instant 新版本OpenAI正式发布GPT-5.5 Instant迭代版本官方定位为「更有趣、更易对话」的体验升级。新版本重点优化了意图理解能力与复杂约束处理能力能更精准地捕捉用户问题背后的真实诉求并动态调整回复风格同时对购物、本地生活推荐功能进行了连贯性与实用性优化。该版本当日率先向付费用户开放次日向免费用户全量推送。OpenAI联合创始人Greg Brockman转发该发布信息称其为一次重大体验改进。官方发布链接https://x.com/OpenAI/status/20698430837019157552. Google Gemini 3.5 Flash 内置 Computer Use 功能正式开放Google DeepMind宣布Computer Use计算机操作能力已作为内置工具正式集成到Gemini 3.5 Flash模型中并通过Gemini API、Gemini Enterprise Agent Platform面向开发者与企业开放。此前该功能仅以独立的Gemini 2.5计算机使用模型形式提供。集成后开发者可基于Gemini 3.5 Flash构建跨浏览器、移动端、桌面环境的智能体实现界面查看、逻辑推理、操作执行全链路能力适用于持续软件测试、企业自动化等长周期任务场景。官方发布链接https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/https://ai.google.dev/gemini-api/docs/computer-use3. 阿里巴巴发布开源首个语言世界模型 Qwen-AgentWorld阿里千问团队发布业内首个原生语言世界模型Qwen-AgentWorld专为AI智能体研发设计将环境建模能力贯穿于继续预训练、监督微调、强化学习全训练流程。模型提供35B-A3B与397B-A17B两种参数规模目前已开源35B-A3B版本权重及配套评测基准AgentWorldBench。单一模型即可同时覆盖文本类与GUI类共七大智能体交互环境官方定位为真实环境的互补技术路径用于增强通用智能体的决策泛化能力。官方发布链接https://qwen.ai/blog?idqwen-agentworld4. DeepReinforce 发布 Agentic 编程开源模型系列 Ornith-1.0DeepReinforce团队正式开源Ornith-1.0大模型系列参数规格覆盖从9B Dense到397B MoE的多个档位。该系列模型基于自改进训练框架打造官方表示其在多项编程与智能体基准测试中达到同级别开源模型的SOTA水平主打Agentic编程能力支持复杂长周期代码任务的自主规划与执行。官方发布链接https://deep-reinforce.com/ornith_1_0.htmlhttps://huggingface.co/deepreinforce-ai/Ornith-1.0-397B5. Ai2 联合华盛顿大学发布 TMax 开源终端 Agent 训练方案Allen Institute for AIAi2与华盛顿大学联合推出TMax一套完整的开源终端智能体强化学习训练方案核心包含两大资产TMax-15k数据集涵盖14600个RL终端环境是现有公开数据集中规模最大、难度与多样性均衡度最优的终端任务数据集DPPO训练配方基于纯结果导向的强化学习训练范式配套多项稳定性优化。基于该方案训练的TMax系列模型覆盖2B、4B、8B、9B、27B五种参数规模TMax-9B在Terminal Bench 2.0基准上得分27.2%是官方评测口径下10B参数以下最强开源终端智能体模型成绩超越此前32B规格的同类模型接近闭源模型Claude Haiku 4.529.8%TMax-27B得分达42.7%性能追平参数规模大10~40倍的Kimi K2.543.2%。全部数据、模型权重与训练代码已开源代码仓库基于Apache 2.0协议发布。相关链接技术博客https://wai-org.com/blog/tmaxGitHub仓库https://github.com/hamishivi/tmaxHugging Face模型合集https://huggingface.co/collections/allenai/tmaxHugging Face数据集https://huggingface.co/datasets/allenai/TMax-15K注部分境外Hugging Face页面当前可能无法直接访问可通过GitHub仓库获取核心技术信息。二、多模态生成模型字节跳动集中发布三大生成模型字节跳动近期密集更新Seed系列生成模型矩阵覆盖音频、视频、图像三大赛道全面升级生成质量与专业生产能力。1Doubao-Seed-Audio 1.0 音频生成模型字节跳动正式发布豆包音频生成模型Doubao-Seed-Audio 1.0支持零样本多模态输入可通过单条指令直接编排多角色对白、情绪语气、背景音乐与环境音效生成无需后期混音的成片级音频内容。模型实现了音色与风格的解耦长时生成中可稳定保持多角色音色一致性。目前火山方舟已开启API邀测个人用户可在体验中心领取30分钟免费体验额度后续该模型将陆续接入剪映、即梦、番茄等字节旗下产品。2Seedance 2.0 视频模型升级原生4K 10-bit直出字节跳动火山引擎正式开放豆包视频生成模型Seedance 2.0的原生4K版API为行业首个支持10-bit高位深原生直出的视频生成模型。该版本从生成源头保留更多画面局部细节在动态画面流畅度、色彩层次与暗部细节表现上实现全面提升主要面向专业影视制作等工业化生产场景可显著缩短内容后期制作周期。相关链接https://mp.weixin.qq.com/s/Vnv68cHAWfcX2CnszWR6Qghttps://x.com/xiaohu/status/20692327831392011613Seedream 5.0 Pro 图像创作模型即将上线字节跳动推出豆包图像创作模型Seedream 5.0 Pro围绕四大核心能力完成升级交互式精准编辑支持草图、线稿、框选式局部修改多图层分离可对画面元素进行任意粒度的独立分层编辑高密度信息表达可生成高信息密度的专业图表内容原生多语种文字生成原生支持十余种语言的文字生成。该模型已正式亮相预计将于近期全量上线。官方发布链接https://mp.weixin.qq.com/s/Vnv68cHAWfcX2CnszWR6Qg其他厂商多模态新品4. 即梦AI上线 SeedMusic 1.0 Preview 音乐生成模型即梦AI宣布旗下首个Seed音乐模型SeedMusic 1.0 Preview正式上线主打四大核心特性顶尖提示词遵循力可精准执行复杂创作指令生成层次丰富的音乐作品大师级编曲质感具备专业混音效果与真实乐器音色达到录音室级编曲表现深耕中文语境中文发音清晰适配中文文化底蕴与表达习惯多曲风无缝切换可精准匹配不同情感基调各类曲风切换自然流畅。目前该模型已在即梦AI网页端与App同步开放体验。官方发布链接https://weibo.com/7902366905/R5jNrhwjY?pagetypedetail5. Krea 开源 12B 参数图像生成模型 Krea 2 系列Krea官方正式开放Krea 2文本生成图像模型的权重包含Krea 2 Raw与Krea 2 Turbo两个版本均基于120亿参数的Diffusion Transformer架构从零训练。Krea 2 Raw未蒸馏的基础预训练 checkpoint多样性与可塑性强适用于微调、后训练与LoRA训练Krea 2 Turbo8步蒸馏版本专为快速高质量文生图设计可在消费级硬件上生成2K原生分辨率图像。官方提出「Raw上训练Turbo上推理」的最佳实践即基于Raw版本训练LoRA再迁移到Turbo版本执行推理。模型采用Krea 2社区许可协议支持个人与小型企业商业使用。相关链接技术报告https://www.krea.ai/blog/krea-2-technical-reportHugging FaceTurbohttps://huggingface.co/krea/Krea-2-TurboHugging FaceRawhttps://huggingface.co/krea/Krea-2-RawGitHub仓库https://github.com/krea-ai/krea-2注部分境外官方页面与Hugging Face页面当前可能无法直接访问可通过GitHub开源仓库获取推理代码与使用文档。6. Catnip AI 发布 22B 实时音视频模型 MaineCoonCatnip AI团队发布22B参数的实时自回归音视频基础模型MaineCoon定位为首款流原生文本生成音视频T2AV模型。模型核心特性超低延迟接收文本指令后1秒内即可生成首帧并持续输出同步音视频流长时稳定配套Agentic推理框架可维持超过10分钟的稳定连贯生成极致性能单张H100 GPU上端到端生成速度达47.5FPS约为此前同类系统的7倍效果领先在自研SocialVideo-Bench基准中取得综合最高分。目前项目代码、技术博客与在线体验平台均已公开。相关链接GitHub仓库https://github.com/catnip-ai-tech/MaineCoonHugging Face主页https://huggingface.co/catnip-ai-tech/MaineCoon注Hugging Face页面当前可能无法直接访问可通过GitHub仓库获取项目详情与演示信息。7. 京东开源实时视觉交互模型 JoyAI-VL-Interaction京东JoyAI-VL团队正式开源8B规模的视觉语言交互模型JoyAI-VL-Interaction及完整可部署系统主打「实时在场」的交互能力区别于传统回合制问答模型。模型核心能力实时感知可持续接入直播流/摄像头画面每秒自主决策响应延迟低于1秒主动交互可根据视觉内容自主判断是否发声适配监控告警、实时解说等场景任务委托可将复杂子任务委托给后台Agent处理自身持续保持视觉监控长时记忆支持分钟级视觉上下文记忆可回溯早前画面细节。官方评测显示在58个真实视觉交互场景的人工评审中该模型以77.6%、87.9%的胜率分别优于豆包与Gemini的视频通话助手。本次开源包含模型权重、400万条时间对齐训练数据、训练配方以及基于vLLM的五大可插拔系统服务基于Apache 2.0协议发布。相关链接GitHub仓库https://github.com/jd-opensource/JoyAI-VL-Interaction官方项目页https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/8. 华中科技大学联合VIVO推出 Moebius 轻量级图像修复框架华中科技大学与VIVO AI Lab联合发布轻量级图像修复框架Moebius主打极致参数效率与工业级修复效果。技术核心创新架构层面提出Local-λ Mix InteractionLλMI模块重构扩散主干网络将空间上下文与全局语义先验压缩为固定尺寸线性矩阵大幅降低参数量训练层面采用自适应多粒度蒸馏策略在潜在空间内从教师模型PixelHacker迁移表征能力缓解极致压缩带来的性能损失。核心性能数据仅0.22B参数不足10B级模型FLUX.1-Fill-Dev的2%单GPU推理速度达26.01ms/step整体推理耗时较10B级模型加速超15倍在6项自然与人像场景基准测试中修复质量达到或超越FLUX.1-Fill-Dev、SD3.5 Large-Inpainting等大模型可在消费级与边缘设备上部署高质量图像修复、物体消除能力。相关链接项目主页https://hustvl.github.io/Moebius/arXiv论文https://arxiv.org/abs/2606.191959. 阿里巴巴发布视频生成模型 HappyHorse 1.1阿里巴巴发布视频生成模型HappyHorse 1.1相较1.0版本完成全维度系统升级覆盖动态表现力、主体一致性、指令遵循度、视觉质感与音频生成能力五大核心维度。技术规格上模型单次生成时长支持3~15秒覆盖720p、1080p分辨率支持自由宽高比设置适配不同内容创作场景。10. Unconventional AI 开源物理计算架构图像模型 Un-0Unconventional AI正式发布并开源图像生成模型Un-0采用模拟耦合振荡器的物理计算架构驱动图像生成探索全新的低能耗AI计算路径。官方表示当前Un-0的生成效果仍落后于传统扩散模型但项目最终目标是探索基于物理计算基板的生成方案有望将现代AI的能耗降低约1000倍。相关链接官方博客https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/GitHub仓库https://github.com/unconv-ai/Un-0三、文档识别与OCR技术1. Mistral AI 发布 Mistral OCR 4 结构化文档识别模型Mistral AI正式发布Mistral OCR 4文档识别模型除基础文本提取外还支持输出内容块边界框、类型分类、内联置信度分数实现结构化文档解析覆盖170种语言。官方数据显示在覆盖12种以上语言的600余份真实文档盲测中标注员对OCR 4的平均偏好胜率达72%在公开基准OlmOCRBench上取得85.20的最高分。模型已通过API、Mistral Studio、Amazon SageMaker、Microsoft Foundry开放使用后续将登陆Snowflake Parse Document企业客户也可选择单容器自托管部署。相关链接发布公告https://mistral.ai/news/ocr-4/模型卡片https://docs.mistral.ai/models/model-cards/ocr-4-0注对应境外官方页面当前可能无法直接访问以上信息综合自公开披露内容整理。2. 百度发布 Unlimited-OCR 长篇文档解析模型百度正式发布Unlimited-OCR模型主打单次长视野文档解析能力开启「一次输入、全量解析」的长文档OCR时代。模型参数规模为3B支持单张图像、多页图片、PDF文档的长篇解析定位为Deepseek-OCR的进阶升级方案。目前模型代码与权重已在GitHub、Hugging Face开放支持基于Hugging Face Transformers、SGLang在NVIDIA GPU上部署推理同时适配vLLM推理框架。相关链接GitHub仓库https://github.com/baidu/Unlimited-OCRHugging Face主页https://huggingface.co/baidu/Unlimited-OCR注Hugging Face页面当前可能无法直接访问可通过GitHub仓库获取完整推理代码与部署文档。四、垂直领域专用模型1. 百川智能发布新一代医疗增强大模型 Baichuan-M4百川智能联合清华大学研究团队发布新一代医疗增强大模型Baichuan-M4聚焦「从会答题到会看病」的能力跃迁。核心性能与能力榜单成绩在HealthBench综合榜、Hard子集、Professional子集三个榜单同时位列世界第一综合得分68.6领先第二名GPT-5.5超10分事实性幻觉率降至3.3%为全行业最低水平。深度问诊模拟临床医生主动追问逻辑优先排查危急重症基于OSCE标准构建的SCAN-bench评测中初诊得分79.0、复诊得分74.7全面领先GPT-5.5等竞品。全病程记忆打通历史病历、多轮问诊、化验趋势与用药反馈支持跨年度的病程连续追踪长上下文临床记忆评测得分86.9较上一代提升21.1分。证据锚定医学结论精确对应权威指南/论文的具体段落循证引用精度达90.0远超通用大模型水平。Agent调度基于Baichuan-Harness架构实现问诊、记忆、循证能力的自主调度形成完整的医疗智能体闭环。官方发布链接https://mp.weixin.qq.com/s/WBWQFRH5d8z1MBvCMHSWDQ