具身世界模型

具身世界模型已成为面向真实环境建模与决策的重要研究方向。其中,手部相关的高保真建模作为精细级人体建模中的关键问题,因其在人机交互、虚拟现实、动作建模等场景中的广泛应用而备受关注。相较于脸部或人体建模,手部因其自由度高、形变复杂、局部结构精细且易被遮挡,建模难度显著增加。因此,研究如何在保留手部细节的同时,实现姿态准确、结构一致、可预测动态演化的表征,对于提升具身系统对真实世界的理解与交互能力具有重要意义。我们重点关注高保真、结构一致、跨视角的手部状态表征与动态建模机制,融合多种条件形式,包括显式/隐式的姿态表示(如2D/3D关键点、深度信息、手部掩膜等)与外观特征,以实现对手部状态的统一建模与时序预测。在此基础上,我们致力于构建一个具备多源信息整合能力的具身世界模型,使其能够在潜在空间中对未来状态进行预测,并为决策提供支撑。该模型将为多个下游任务提供支撑,包括动作驱动的行为预测与手物交互建模,在具身智能与虚拟交互等领域展现应用潜力。