具身世界模型

具身世界模型已成为面向真实环境建模与决策的重要研究方向。其中，手部相关的高保真建模作为精细级人体建模中的关键问题，因其在人机交互、虚拟现实、动作建模等场景中的广泛应用而备受关注。相较于脸部或人体建模，手部因其自由度高、形变复杂、局部结构精细且易被遮挡，建模难度显著增加。因此，研究如何在保留手部细节的同时，实现姿态准确、结构一致、可预测动态演化的表征，对于提升具身系统对真实世界的理解与交互能力具有重要意义。我们重点关注高保真、结构一致、跨视角的手部状态表征与动态建模机制，融合多种条件形式，包括显式/隐式的姿态表示（如2D/3D关键点、深度信息、手部掩膜等）与外观特征，以实现对手部状态的统一建模与时序预测。在此基础上，我们致力于构建一个具备多源信息整合能力的具身世界模型，使其能够在潜在空间中对未来状态进行预测，并为决策提供支撑。该模型将为多个下游任务提供支撑，包括动作驱动的行为预测与手物交互建模，在具身智能与虚拟交互等领域展现应用潜力。

A Dual-Branch 3D Spatial-Aware Latent Diffusion for Realistic Hand Depth Image Synthesis

Shuang Hao, Pengfei Ren*, Lei Zhang, Haifeng Sun, Pan Ting, Menghao Zhang, Cong Liu, Qi Qi†, Jianxin Liao, Jingyu Wang†

MM

2025

PDF

ProjectPage: A Dual-Branch 3D Spatial-Aware Latent Diffusion for Realistic Hand Depth Image Synthesis

BUPT NIRC CV LAB

Pengfei Ren, Jingyu Wang, Jianxin Liao

具身世界模型

A Dual-Branch 3D Spatial-Aware Latent Diffusion for Realistic Hand Depth Image Synthesis