
文章目录一、前言二、AI热点标记OpenAI Codex 2026年密集迭代新增Record Replay与Sites部署功能2026年6月Codex内部生产力验证OpenAI内部项目5个月合并1500个PR开发速度提升10倍2026年6月3D Gaussian Splatting突破物理交互瓶颈RAF框架实现双向物理仿真CVPR 2026 Findings前馈式3D重建新SOTAAnchorSplat大幅减少Gaussian数量并提升保真度CVPR 2026世界模型三条技术路线明确JEPA抽象预测、3D仿真驱动、视频生成驱动2026年3-4月【mark】物理AI后训练框架WorldEngine碰撞率下降45.5%真实道路测试零接管2026年6月不确定性感知的4D LiDAR世界模型U4DCVPR 2026 Highlight2026年6月【mark】纯自监督图像分割新SOTASelfment零标注超越全监督方法2026年2月自监督病理图像分类突破SSMamba超越11个SOTA基础模型2026年4月Hello-Agents是一个从零构建AI智能体系统的全栈开源课程EvoQuality是由字节跳动提出的自进化视觉语言模型Bernini-Diffusers是字节跳动推出的统一视频生成与编辑框架Bernini的完整管线发布版本高德发布DreamX-World交互式世界模拟框架强化学习提升动作跟随交互一致性视觉保真度蒸馏实现高效交互Fugu是一个以单一模型形式交付的多智能体系统。【mark】清华大学/腾讯混元/南洋理工联合发布Spatial-TTT流式视觉空间智能框架TTT机制实现无界视频流持续空间状态更新【mark】GoLongRL是一个完全开源、面向能力的后训练方案专注于使用可验证奖励的强化学习处理长上下文任务cognee是开源的AI智能体记忆平台旨在为AI Agent提供跨会话的持久化长期记忆。【mark】VibeThinker专注于具有清晰验证信号的挑战性推理任务Agent-Reach是一个开源命令行工具旨在为AI Agent如Claude Code、Cursor、OpenClaw提供一站式的互联网访问能力self-improvement-llm为一份针对大语言模型自我改进技术的系统性综述与未来展望claude-plugins-official是Anthropic官方维护的Claude Code高质量插件目录【mark】VLA-JEPA是一个用于提升视觉-语言-动作VLA模型性能的开源框架一、前言仅供参考未经实验验证。以后如果有时间的话我每隔一段时间会对网络上特别感兴趣的AI热点进行标记二、AI热点标记OpenAI Codex 2026年密集迭代新增Record Replay与Sites部署功能2026年6月OpenAI Codex在2026年保持高频更新6月发布的桌面版26.616新增Record Replay功能macOS可将用户演示的工作流转化为可复用的自动化技能同时推出Sites预览支持在应用内直接创建、部署和管理托管网站。此外Codex还扩展了插件市场90插件、支持Claude Code/Cowork迁移、优化浏览器使用速度最高2倍提升以及线程在本地与远程主机间的无缝切换。Codex内部生产力验证OpenAI内部项目5个月合并1500个PR开发速度提升10倍2026年6月据OpenAI Codex案例研究披露在一个超过100万行代码的生产级内部应用中3名工程师专注于Harness Engineering设计由Codex智能体执行100%核心逻辑代码在5个月内成功合并1500个Pull Request实现10倍开发速度提升人均每天产出3.5个PR。这标志着AI编程从代码补全进入系统级自主工程阶段。3D Gaussian Splatting突破物理交互瓶颈RAF框架实现双向物理仿真CVPR 2026 Findings香港大学等机构提出的Representation Abstraction FrameworkRAF被CVPR 2026 Findings收录。该框架首次解决了3D Gaussian Splatting3DGS只能看、不能碰的核心痛点——通过将3DGS、虚拟mesh、流体粒子、布料、刚体统一抽象到同一物理仿真上下文实现了真实捕获场景与标准CG资产的双向物理交互例如流体冲刷3DGS软体、布料披挂在捕获雕像上、机器人在真实场景中操作虚拟物体等。前馈式3D重建新SOTAAnchorSplat大幅减少Gaussian数量并提升保真度CVPR 2026CVPR 2026正式论文AnchorSplat提出了一种基于3D几何先验稀疏点云、体素或RGB-D点云的前馈式3DGS框架。与现有将2D像素映射到3D Gaussian的方法不同AnchorSplat直接在3D空间中表示场景并引入Gaussian Refiner进行少量前向优化。在ScanNet v2新视角合成基准上该方法达到SOTA性能同时显著减少了Gaussian基元数量提升了计算效率与视图一致性。世界模型三条技术路线明确JEPA抽象预测、3D仿真驱动、视频生成驱动2026年3-4月2026年被业界广泛认为是世界模型时代元年。当前形成三条主流路线JEPA抽象预测路径图灵奖得主LeCun的LeWorldModel在紧凑潜空间中学习因果结构与物理规律不追求像素级还原3D/仿真驱动路径李飞飞World Labs的Marble通过构建可控虚拟环境或3D重建让模型在可计算世界中学习物理视频驱动路径生数科技、Runway等从视频生成模型出发让模型理解物理规律并据此预测动作。腾讯、阿里、吉利、华为乾崑、Momenta等均在2026年密集发布世界模型相关产品。【mark】物理AI后训练框架WorldEngine碰撞率下降45.5%真实道路测试零接管2026年6月香港大学OpenDriveLab联合华为、NVIDIA Research等提出的WorldEngine是一套面向物理AI的后训练闭环框架。该框架从真实驾驶日志中发现长尾危险事件利用3D高斯溅射重建为高保真神经环境生成对抗性场景后通过强化学习进行后训练。在基于超过8万小时真实驾驶日志的工业级仿真中WorldEngine使碰撞率下降45.5%并在上海200公里真实道路测试中实现零接管。不确定性感知的4D LiDAR世界模型U4DCVPR 2026 Highlight2026年6月南京理工大学、南洋理工大学等提出的U4D被CVPR 2026评为Highlight论文。针对4D LiDAR序列带时间维度的3D点云生成中语义复杂区域易出现几何伪影的问题U4D提出**“由难到易”**的生成策略先利用分割模型估计空间不确定性地图定位高熵区域并优先重建再补全其余区域同时引入时空混合MoST块保证时间连贯性。实验表明其在几何保真度和时间一致性上均优于现有基线。【mark】纯自监督图像分割新SOTASelfment零标注超越全监督方法2026年2月arXiv论文Selfment提出完全自监督的分割框架无需任何人工标注、预训练分割模型或后处理。该方法通过构建patch级亲和图与迭代patch优化IPO逐步强化空间一致性与语义一致性。在多个基准上创造新SOTAECSSD提升4.0%、HKUIS 4.6%、PASCAL-S 5.7%在伪装目标检测的零样本泛化上CHAMELEON数据集达到0.910 S_m超越所有现有无监督方法甚至媲美全监督SOTA。自监督病理图像分类突破SSMamba超越11个SOTA基础模型2026年4月针对病理图像分析中跨倍率域偏移、局部-全局关系建模不足等问题SSMamba提出混合自监督框架结合Mamba Masked Image Modeling、定向多尺度模块与局部感知残差模块。在目标ROI数据集上进行自监督预训练后该模型在10个公开ROI数据集上超越11个SOTA病理基础模型在6个公开WSI数据集上超越8个SOTA方法验证了任务特定架构设计在医学影像中的价值。Hello-Agents是一个从零构建AI智能体系统的全栈开源课程Hello-Agents是一个从零构建AI智能体系统的全栈开源课程覆盖从基础理论到生产级多智能体应用的完整路径。项目采用第一性原理教学不仅教会使用现有框架更带领学习者用OpenAI原生API从底层实现完整的Agent框架。内容涵盖经典Agent范式ReAct、Plan-and-Solve、Reflection、低代码平台、框架开发、记忆与检索增强生成、上下文工程、智能体通信协议MCP、A2A、ANP、智能体强化学习SFT→GRPO等并配有旅行助手、深度研究、城镇模拟等真实案例与毕业设计。每章均提供可运行代码并附有大厂面试题集适合希望系统掌握智能体技术的开发者与研究者。EvoQuality是由字节跳动提出的自进化视觉语言模型EvoQuality是由字节跳动提出的自进化视觉语言模型专门用于无参考图像质量评估NR-IQA。其核心思想是在完全不依赖人类标注的质量分数或失真类型标签的情况下通过对图像对进行成对比较和多数投票生成伪排名标签再借助GRPO算法将其转化为可优化的奖励信号驱动模型在多个迭代轮次中自主提升质量感知能力。该项目支持单图质量评分和图像对质量对比两种任务为图像质量评估领域提供了高效的自动化解决方案。Bernini-Diffusers是字节跳动推出的统一视频生成与编辑框架Bernini的完整管线发布版本Bernini-Diffusers是字节跳动推出的统一视频生成与编辑框架Bernini的完整管线发布版本。它创新性地结合了基于多模态大语言模型的语义规划器和基于DiT的渲染器能够将复杂的用户指令分解为明确的潜在语义规划再进行高质量的视频生成或编辑。相较于仅含渲染器的版本Bernini-Diffusers封装了完整的语义规划流程具备更强的指令遵循能力、多步语义规划能力能更好地处理复杂的视频编辑需求。高德发布DreamX-World交互式世界模拟框架强化学习提升动作跟随交互一致性视觉保真度蒸馏实现高效交互DreamX-World是一个通用的交互式世界模拟世界模型。它能够生成多样化、高保真的世界用户可以通过事件提示进行探索、控制和转换。该模型使用可扩展的数据引擎进行训练数据来源于虚幻引擎、游戏视频和真实世界视频并结合相机估计与严格数据过滤以学习真实的动态和交互。项目遵循渐进式训练管线先学习细粒度动作控制再学习开放式事件响应并利用强化学习提升动作跟随、交互一致性和视觉保真度最终通过强迫与蒸馏实现高效的交互式生成。Fugu是一个以单一模型形式交付的多智能体系统。Fugu是一个以单一模型形式交付的多智能体系统。它能够动态协调多个前沿大语言模型LLM协同解决复杂的多步骤任务。用户通过Sakana API即可像调用普通LLM一样访问该多智能体系统该API同时支持Chat Completions和Responses端点。Fugu可一键安装至Codex CLI极大简化使用流程。其核心技术源于两篇ICLR 2026论文TRINITY采用进化策略优化紧凑的协调器模型为LLM池分配三种角色进行轮流协作Conductor则利用强化学习训练模型设计智能体间通信拓扑并为每位工作者LLM编写自然语言指令从而发现超越任何单一模型的协调策略。【mark】清华大学/腾讯混元/南洋理工联合发布Spatial-TTT流式视觉空间智能框架TTT机制实现无界视频流持续空间状态更新Spatial-TTT是一个面向流式视觉空间智能的框架由清华大学、腾讯混元与南洋理工大学联合研发已被ECCV 2026接收。该框架通过测试时训练TTT机制使模型能够从无界的视频流中持续更新和维护空间状态从而回答空间相关问题。其核心在于设计了一种混合架构将TTT层与自注意力锚层交错既保留了预训练的视觉语义知识又实现了高效的长序列空间上下文压缩。Spatial-TTT在多个视频空间理解基准上达到了最优性能为具身智能与增强现实等应用提供了强大的空间推理能力。【mark】GoLongRL是一个完全开源、面向能力的后训练方案专注于使用可验证奖励的强化学习处理长上下文任务GoLongRL是一个完全开源、面向能力的后训练方案专注于使用可验证奖励的强化学习处理长上下文任务。项目针对现有方法多将不同任务目标简化为单一奖励信号的问题提出了两项核心贡献一是构建了一个包含2.3万个样本、覆盖9种任务类型并配备异构奖励函数的能力导向数据集二是提出了TMN-Reweight多任务优化方法通过任务级均值归一化和难度自适应重加权提升优势估计的可靠性。基于此方案训练的GoLongRL-30B-A3B模型以远小的激活参数量在多项长上下文基准上达到或超越千亿级模型性能。cognee是开源的AI智能体记忆平台旨在为AI Agent提供跨会话的持久化长期记忆。cognee是开源的AI智能体记忆平台旨在为AI Agent提供跨会话的持久化长期记忆。它能够接收任意格式的数据持续构建一个自托管的知识图谱使文档既能按语义搜索又能通过不断演变的关系进行连接。平台整合了向量嵌入、图推理与基于认知科学的本体生成技术帮助Agent进行信息召回、关联与上下文完整的决策。此外它支持统一的数据接入、可靠的租户隔离与可观测性致力于成为Agent的“公司大脑”。【mark】VibeThinker专注于具有清晰验证信号的挑战性推理任务VibeThinker专注于具有清晰验证信号的挑战性推理任务如数学、编程和STEM领域。通过系统优化频谱到信号原则SSP的后训练流程该项目旨在探索小模型在特定能力维度上的真实边界而非仅仅作为降低部署成本的妥协方案。它在多个高难度基准测试上表现出色性能比肩甚至超越了一些顶级前沿大模型证明了在具有清晰反馈和验证机制的能力领域小模型是达到前沿性能的有前景的研究方向。Agent-Reach是一个开源命令行工具旨在为AI Agent如Claude Code、Cursor、OpenClaw提供一站式的互联网访问能力Agent-Reach是一个开源命令行工具旨在为AI Agent如Claude Code、Cursor、OpenClaw提供一站式的互联网访问能力。只需一条安装指令Agent即可自动完成环境配置获得阅读网页、搜索Twitter、Reddit、YouTube、B站、小红书等多平台内容的能力无需单独申请或付费购买各平台的API。项目采用“首选 备选”的多后端路由设计当某个接入方式失效时自动切换备用方案用户无需手动干预。所有工具免费Cookie等敏感信息仅保存在本地代码完全开源可审查保障隐私安全。self-improvement-llm为一份针对大语言模型自我改进技术的系统性综述与未来展望本项目为一份针对大语言模型自我改进技术的系统性综述与未来展望。随着模型能力逼近人类水平传统人工监督成本高昂且难以扩展模型自主生成数据、评估输出并迭代优化的“自我改进”范式日益受到关注。项目提出了一个覆盖自主模型开发生命周期的系统级框架将现有研究归纳为数据获取、数据选择、模型优化、推理优化及自动评估五大核心组件并进一步从挑战/限制、应用和未来方向三个维度进行分析。目标是为自我改进系统提供统一视角推动可扩展、自主的进化机制发展。claude-plugins-official是Anthropic官方维护的Claude Code高质量插件目录该项目是Anthropic官方维护的Claude Code高质量插件目录旨在为开发者提供安全、易用的插件发现与安装渠道。目录包含Anthropic内部开发的插件以及通过审核的第三方社区插件遵循统一的插件结构规范。用户可通过Claude Code内置插件系统一键浏览与安装快速扩展代码助手的能力如添加自定义命令、Agent、技能等。项目采用Apache-2.0协议开源提供标准化的插件清单与MCP服务器配置方式促进生态共建。【mark】VLA-JEPA是一个用于提升视觉-语言-动作VLA模型性能的开源框架VLA-JEPA是一个用于提升视觉-语言-动作VLA模型性能的开源框架通过引入基于联合嵌入预测架构JEPA的潜在世界模型来增强机器人操作策略的时空一致性与泛化能力。项目以starVLA为基础采用Qwen3-VL-2B作为多模态基座结合V-JEPA2视频编码器支持在多种机器人数据集LIBERO、Droid、BridgeV2、Fractal与人类演示视频上进行预训练和微调。其核心思路是让模型在潜在空间中学习环境动态从而输出更为连贯、鲁棒的动作序列。代码已开源并提供预训练权重与评估脚本方便研究者快速复现与扩展。部分参考资料公众号机器之心机器之心SOTA模型