
Native and Compact Structured Latents for 3D GenerationCVPR 2026清华大学 · 微软研究院 · 中科大 · 微软AI近年来3D生成建模领域取得了显著进展生成质量不断提升。然而现有表示方法在处理复杂拓扑结构、精细外观以及材质信息方面仍面临挑战。本文介绍一种从原生3D数据中学习结构化潜空间表示的新方法其核心是一种名为O-Voxel的稀疏体素结构能够同时编码几何与外观信息并支持任意拓扑的鲁棒建模。在此基础上构建的稀疏压缩VAE实现了16倍空间压缩率结合40亿参数的大规模流匹配模型可在保证极高生成质量的同时实现秒级的高效推理。图1. O-Voxel方法在3D资产重建与生成方面的效果展示。左高分辨率重建结果中开放域生成的高质量PBR纹理资产右潜在表示对比该方法在较少Token数量下实现了更高的保真度。013D生成建模的发展脉络与核心挑战三维内容生成作为计算机视觉与图形学的交叉前沿正受到学术界与产业界的广泛关注。从早期的隐式场表示如占用场、符号距离函数SDF到神经辐射场NeRF再到近年来的结构化潜空间表示3D生成建模在重建保真度与生成真实感方面均取得了长足进步。这些技术进展使得3D内容创作逐渐接近实际部署与工业应用的需求。然而现有方法在表示能力上仍存在若干亟待解决的关键问题。首先当前主流的大规模3D生成模型普遍采用等值面场如SDF、Flexicubes来表示几何这类方法在处理开放表面、非流形几何以及封闭内部结构时存在固有局限性。其次现有工作大多聚焦于3D形状生成忽视了3D资产中固有的外观与材质信息而这些信息与形状本身存在根本性关联。部分研究尝试通过多视角2D图像特征构建结构化潜空间以联合建模几何与外观但依赖纯渲染监督的方式在捕捉复杂结构时存在不足。针对上述挑战研究团队提出了一种全新的无场稀疏体素结构——O-VoxelOmni-Voxel全能体素。这一表示方法旨在建立网格资产与神经网络之间的桥梁其全能性不仅体现在对几何与外观的整合建模上更体现在对二者固有复杂性的鲁棒处理能力上。02O-Voxel全能体素表示的核心设计O-Voxel的核心思想是将3D资产表示为与规则3D网格上稀疏体素相关联的特征元组集合。具体而言对于分辨率为N×N×N的网格O-Voxel通过一组活跃体素来编码资产信息每个活跃体素包含三个关键组件局部几何特征、材质属性特征以及空间坐标。空体素不与资产相交的体素则被标记为非活跃状态从而天然地利用稀疏性降低存储与计算开销。图2. 方法整体流程概览。从3D资产出发通过即时双向转换得到O-Voxel表示再经稀疏压缩VAE学习紧凑潜空间最终由大规模生成模型完成3D资产合成。2.1 灵活对偶网格任意拓扑的几何建模在几何表示方面O-Voxel引入了一种灵活对偶网格Flexible Dual Grid公式。该设计受到对偶轮廓Dual Contouring算法的启发但进行了关键性创新不再依赖任何场表示而是直接使用资产网格表面来确定体素边的相交标志并分配Hermite数据交点与法向。具体而言对于每条与网格表面相交的体素边系统激活对应的对偶面并利用Hermite数据调整对偶顶点的位置。研究团队设计了一个增强的二次误差函数QEF在原有对偶轮廓算法的基础上引入了两项重要改进一是增加边界边对齐误差项引导对偶顶点与边界边对齐从而改善开放表面的表示二是引入正则化项鼓励对偶顶点靠近交点平均值以获得更平滑的顶点分布并增强优化稳定性。几何特征构成每个活跃体素的几何特征包含三个部分对偶顶点位于网格内的顶点表示局部表面形状、边相交标志确定相邻对偶顶点之间的四边形连接关系以及分裂权重控制四边形面如何自适应细分为三角形以更好地贴合局部几何特征。基于上述设计O-Voxel与网格之间的双向转换算法具有显著优势。从网格到O-Voxel的转换仅需在单个CPU上运行数秒即可完成从O-Voxel重建网格表面与材质也仅需数十毫秒。整个过程无需SDF评估、洪水填充或迭代优化等昂贵操作。更重要的是该表示方法不受水密性和流形约束能够鲁棒处理包括自相交表面和全封闭内部结构在内的任意几何拓扑。2.2 体积表面属性物理级材质建模在材质表示方面O-Voxel能够建模与表面几何对齐的任意表面属性不仅包括颜色还涵盖其他材质属性。本工作实现了基于物理的渲染PBR参数以捕捉材料固有的光-表面交互特性。每个活跃体素的材质特征包含六个通道基础颜色RGB、金属度、粗糙度和不透明度。这一参数化方案遵循现代物理渲染管线中广泛采用的标准PBR约定。特别值得注意的是材质不透明度通道的引入使得O-Voxel能够处理半透明表面如玻璃、液体等这是此前结构化3D表示方法中较为少见的能力。O-Voxel与网格纹理之间的转换同样简单高效从纹理到O-Voxel时通过将体素中心投影到相交三角形并采样纹理图获得材质属性从O-Voxel重建纹理时则通过邻近体素属性的三线性插值获得查询点的材质值。03稀疏压缩VAE构建紧凑潜空间在O-Voxel表示的基础上研究团队设计了一种稀疏压缩变分自编码器Sparse Compression VAESC-VAE旨在学习一个既紧凑又能保持高保真重建的潜空间。与先前工作采用Transformer架构不同SC-VAE采用全稀疏卷积网络在高分辨率下具有计算效率优势且能跨尺度良好泛化。图3. SC-VAE网络结构示意图。编码器通过多级稀疏残差块层次化下采样稀疏体素特征解码器对称地进行重建。右侧展示了稀疏残差自编码层的设计细节通过空间-通道维度的信息重排实现高效压缩。3.1 稀疏残差自编码层SC-VAE的核心创新在于将残差自编码原则适配到稀疏体素数据。研究团队引入了非参数化残差捷径分别嵌入在下采样与上采样块中。这些捷径通过在稀疏网格的空间维度与通道维度之间重排信息缓解了高空间压缩比下的优化挑战。具体而言对于2倍下采样每个父体素将其八个子体素的特征堆叠到通道维度对于上采样则通过对称的通道-空间捷径将粗粒度特征分布回其邻域。这种设计使得模型在16倍空间下采样即每维长度减半四次的条件下仍能保持极高的重建质量。实验表明一个完整纹理的1024³分辨率资产可被压缩至仅约9000个潜Token而重建的感知退化微乎其微。3.2 早期剪枝上采样器与优化残差块为进一步提升效率SC-VAE在上采样器中引入了早期剪枝机制。在每次上采样步骤之前模块预测一个二进制掩码指定每个父节点的活跃子体素。非活跃节点在后续处理中被跳过从而大幅降低运行时间与内存开销。此外针对稀疏卷积在高稀疏度数据上有效计算效率较低的问题研究团队对残差块进行了重新设计。通过减少卷积层数量并引入逐点MLP类似于Transformer中的FFN在保持效率的同时增强了非线性表达能力。实验验证表明这一优化设计在运行时间不变的情况下将重建质量提升了约0.6dB PSNR。3.3 两阶段训练策略SC-VAE采用两阶段训练策略。第一阶段使用低分辨率数据通过直接的O-Voxel重建损失与KL损失快速稳定学习。几何特征采用MSE与BCE损失材质属性与剪枝掩码分别采用L1与BCE损失。第二阶段在高分辨率下引入基于渲染的感知监督通过渲染掩码、深度与法向图并施加L1、SSIM与LPIPS损失进一步提升几何与材质保真度。为支持形状与材质的解耦生成研究团队训练了两个独立的SC-VAE一个建模形状另一个在形状VAE的上采样结构条件下建模材质。04大规模流匹配生成模型基于学习到的紧凑潜空间研究团队构建了一个可扩展的生成框架。该框架采用基于DiTDiffusion Transformer的架构并在流匹配范式下进行训练。生成流程分为三个阶段形成从粗到细的资产合成管线。三阶段生成管线**第一阶段稀疏结构生成。**预测稀疏体素网格的占据布局建立全局稀疏结构先验。**第二阶段几何生成。**在活跃体素内产生几何潜码构建资产的几何骨架。**第三阶段材质生成。**在原生3D空间中直接合成PBR材质潜码与几何结构精确对齐。在架构设计上所有DiT模块均采用AdaLN-single调制与旋转位置编码RoPE以增强可扩展性与跨分辨率泛化能力。图像条件特征由DINOv3-L提取。得益于SC-VAE实现的高空间压缩率稀疏DiT摒弃了先前工作中的卷积打包与跳跃连接设计采用更为简洁的纯Transformer风格架构降低了复杂度并改善了可扩展性。训练过程采用渐进式策略。首先以512×512条件图像训练稀疏结构生成器学习粗粒度占据先验随后逐步增加空间与视觉分辨率将几何与材质生成器从512³输出对应32³潜空间分辨率扩展至1024³输出对应64³潜空间分辨率条件图像分辨率相应提升至1024。这种渐进策略使得学习到的先验能够平滑迁移到更高分辨率在保持几何与材质保真度的同时实现了大规模稀疏DiT的高效训练。05实验验证与性能分析研究团队使用来自Objaverse-XL、ABO与HSSD的筛选数据集进行训练并在Toys4K基准以及包含90个复杂PBR材质资产的精选测试集上进行评估。所有运行时间统计均在NVIDIA A100 GPU上完成。5.1 3D资产重建性能在形状重建任务中研究团队与Dora、TRELLIS、Direct3D-S2以及SparseFlex等代表性基线方法进行了对比。评估指标涵盖双向点-面距离MD、倒角距离CD、法向图PSNR与LPIPS等。如表1所示该方法在所有指标上均取得了最优表现且使用的Token数量显著少于对比方法。表1. 形状重建效率与保真度对比。MD数值为×10⁻⁶级别Ours 512与Ours 1024分别表示512³与1024³分辨率下的重建结果。加粗绿色表示最优指标。在材质重建方面由于现有基线方法缺乏对给定形状进行材质编码的能力研究团队仅报告了自身方法的指标。实验结果显示该方法在PBR属性图上达到38.89dB PSNR与0.033 LPIPS在渲染图上达到38.69dB PSNR与0.026 LPIPS表明材质重建具有高度保真度且几何与外观保持高度一致。5.2 图像到3D生成质量在生成任务中研究团队将框架与TRELLIS、Hi3DGen、Direct3D-S2、Step1X-3D以及Hunyuan3D 2.1等先进系统进行了对比。如图4所示该方法生成的资产在几何细节上表现出显著优势精细的齿轮结构、封闭的驾驶舱、开放的叶片与花朵等复杂拓扑均得到忠实保留。在材质方面方法能够再现逼真的PBR纹理在新光照下呈现物理一致的着色效果包括玻璃、金属等具有挑战性的半透明或反射材质。图4. 该方法生成的高质量3D资产涵盖精细几何细节与物理准确的材质。包括薄壁结构、开放表面以及半透明区域展示了模型对复杂拓扑与材质的表达能力。图5. 与现有先进方法的视觉对比。从左至右依次为输入图像、该方法、Hunyuan3D 2.1、Step1X-3D、TRELLIS、Direct3D-S2、Hi3DGen。可见该方法在几何精度、材质物理合理性与输入对齐度方面均表现优异。定量评估方面研究团队采用CLIP分数衡量视觉对齐度并采用ULIP-2与Uni3D评估几何相似度。如表2所示该方法在所有指标上均取得了最高分数。此外约40名参与者参与的用户偏好研究表明该方法在视觉真实感、几何细节丰富度以及与输入提示对齐度方面获得了66.5%的整体偏好率法向图质量偏好率更高达69.0%。表2. 图像到3D生成结果对比。CLIP-N表示基于法向图计算的CLIP分数用户偏好为百分比形式。该方法在所有自动指标与人工评价中均位列第一。5.3 形状条件纹理生成生成管线的第三阶段可独立作为3D PBR纹理合成模型使用给定3D网格与参考图像模型可直接合成与几何精确对齐的PBR材质。如图6所示多视角方法常受限于视角间的不一致性导致纹理出现重影或模糊基于UV的方法则受困于UV展开歧义与接缝伪影。相比之下该方法在原生3D空间中进行外观推理能够产生更清晰的纹理、更一致的形状-材质对齐并能为内部表面合成纹理这对于具有遮挡或非流形几何的复杂资产至关重要。图6. PBR纹理生成视觉对比。多视角方法Hunyuan3D 2.1存在视角不一致导致的模糊UV方法TEXGen存在接缝伪影该方法在3D空间中直接推理实现了更清晰的纹理与更精确的几何-材质对齐。5.4 消融实验与架构分析为验证SC-VAE各组件的有效性研究团队进行了系统的消融实验。如表3所示移除稀疏残差自编码层后在16倍压缩下MD增加69%、PSNR下降0.5dB在32倍压缩下劣化更为严重MD增加526%、PSNR下降1.6dB。这表明稀疏残差设计在高压缩比下对维持重建保真度至关重要。移除优化残差块后MD增加16%、PSNR下降0.6dB验证了混合稀疏卷积与逐点MLP设计的有效性。表3. SC-VAE架构设计消融实验。在256³分辨率形状重建任务上评估f16c32与f32c128分别表示16倍与32倍空间压缩配置。5.5 测试时分辨率与计算扩展得益于紧凑的潜空间表示该生成框架支持灵活的测试时分辨率与计算扩展。由于形状SC-VAE以16倍比例上采样稀疏结构且使用远少于先前方法的Token第二阶段的生成器可被递归应用以产生超出训练规模的分辨率。在训练范围内插入中间细化步骤有助于修正局部误差并为后续高分辨率生成提供更干净的布局。如图7所示通过增加递归深度可在效率与保真度之间实现可控权衡获得更精细、更稳定的输出。图7. 测试时分辨率扩展与计算扩展效果。通过提升分辨率可获得更精细的几何细节通过增加递归计算深度可进一步提升生成质量。06技术贡献总结与未来展望本文提出了一种面向3D生成的综合且紧凑的结构化潜空间学习方法。核心贡献可概括为三个层面表示层**O-Voxel全能体素表示。**突破了传统场表示在拓扑处理上的限制实现了对开放表面、非流形几何与全封闭结构的统一建模同时整合PBR材质参数含不透明度支持物理一致的渲染与重光照。架构层**稀疏压缩VAE。**通过稀疏残差自编码设计与早期剪枝机制实现了16倍空间压缩率将1024³分辨率资产压缩至约9000个潜Token重建质量显著优于现有方法。生成层**大规模流匹配模型。**基于40亿参数的三阶段DiT生成管线在NVIDIA H100上实现512³资产约3秒、1024³约17秒、1536³约60秒的推理速度生成质量在自动指标与用户研究中均显著领先。从应用视角看该方法为3D内容创作提供了新的技术基座。其即时双向转换能力无需优化与渲染使其易于集成到现有数字内容生产管线中原生3D端到端生成范式避免了多视角后处理带来的外观不一致问题对PBR材质的直接建模则为游戏、影视、虚拟现实等领域提供了可直接使用的生产级资产。研究团队已将项目开源发布了代码、模型与数据以促进社区在该方向上的进一步探索。随着3D生成建模向更高分辨率、更复杂材质以及实时交互方向演进O-Voxel所代表的原生结构化潜空间范式有望为下一代3D生成系统提供重要的表示基础。具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html