摘要和1. 引言
相关工作
2.1. 从稀疏输入重建动作
2.2. 人体动作生成
SAGE: 分层化身生成和3.1. 问题陈述和符号
3.2. 解耦动作表示
3.3. 分层动作扩散
3.4. 实现细节
实验和评估指标
4.1. 数据集和评估指标
4.2. 定量和定性结果
4.3. 消融研究
结论和参考文献
\ 补充材料
A. 额外消融研究
B. 实现细节
从稀疏观测重建完整人体动作的任务在近几十年来已在研究社区中获得了显著关注[1, 3, 5, 7, 10, 11, 16, 18, 19, 46, 47, 49–51, 54]。例如,最近的工作[16, 19, 46, 50, 51]专注于从六个惯性测量单元(IMUs)重建完整身体动作。SIP [46]采用启发式方法,而DIP [16]开创了深度神经网络在此任务中的应用。PIP [51]和TIP [19]通过融入物理约束进一步提高了性能。随着VR/AR应用的兴起,研究人员将注意力转向从VR/AR设备重建完整身体动作,如头戴式设备(HMDs),这些设备仅提供用户头部和手部信息,带来了额外挑战。LoBSTr [49]、AvatarPoser [18]和AvatarJLM [54]将此任务视为回归问题,利用GRU [49]和Transformer网络[18, 54]从HMDs的稀疏观测预测完整身体姿势。另一系列方法采用生成模型[5, 7, 10, 11]。例如,VAEHMD [10]和FLAG [5]分别利用变分自编码器(VAE) [20]和标准化流[35]。最近的工作[7, 11]利用更强大的扩散模型[15, 38]进行动作生成,由于扩散模型在建模全身动作条件概率分布方面的强大能力,产生了有希望的结果。
\ 与之前在综合、统一框架中建模全身动作的方法相比,我们的方法认识到这些方法对深度学习模型施加的复杂性,特别是在捕捉人体动作的复杂运动学方面。因此,我们提出了一种分层方法,解耦传统的全身化身重建流程,首先处理上半身,然后在上半身条件下处理下半身。
\
:::info 作者:
(1) 冯翰,同等贡献,按字母顺序排列,来自武汉大学;
(2) 马文超,同等贡献,按字母顺序排列,来自宾夕法尼亚州立大学;
(3) 高全凯,南加州大学;
(4) 郑贤伟,武汉大学;
(5) 薛楠,蚂蚁集团(xuenan@ieee.org);
(6) 徐慧娟,宾夕法尼亚州立大学。
:::
:::info 本论文可在arxiv上获取,采用CC BY 4.0 DEED许可证。
:::
\