Abstracto y 1. Introducción
Trabajo Relacionado
2.1. Reconstrucción de Movimiento a partir de Entrada Dispersa
2.2. Generación de Movimiento Humano
SAGE: Generación de Avatar Estratificada y 3.1. Planteamiento del Problema y Notación
3.2. Representación de Movimiento Desacoplada
3.3. Difusión de Movimiento Estratificada
3.4. Detalles de Implementación
Experimentos y Métricas de Evaluación
4.1. Conjunto de Datos y Métricas de Evaluación
4.2. Resultados Cuantitativos y Cualitativos
4.3. Estudio de Ablación
Conclusión y Referencias
\ Material Suplementario
A. Estudios de Ablación Adicionales
B. Detalles de Implementación
La tarea de reconstruir el movimiento completo del cuerpo humano a partir de observaciones dispersas ha ganado una atención significativa en las últimas décadas dentro de la comunidad de investigación [1, 3, 5, 7, 10, 11, 16, 18, 19, 46, 47, 49–51, 54]. Por ejemplo, trabajos recientes [16, 19, 46, 50, 51] se centran en reconstruir el movimiento completo del cuerpo a partir de seis unidades de medición inercial (IMUs). SIP [46] emplea métodos heurísticos, mientras que DIP [16] es pionero en el uso de redes neuronales profundas para esta tarea. PIP [51] y TIP [19] mejoran aún más el rendimiento incorporando restricciones físicas. Con el auge de las aplicaciones de VR/AR, los investigadores dirigen su atención hacia la reconstrucción del movimiento completo del cuerpo a partir de dispositivos VR/AR, como los dispositivos montados en la cabeza (HMDs), que solo proporcionan información sobre la cabeza y las manos del usuario, planteando desafíos adicionales. LoBSTr [49], AvatarPoser [18] y AvatarJLM [54] abordan esta tarea como un problema de regresión, utilizando GRU [49] y Transformer Network [18, 54] para predecir la postura completa del cuerpo a partir de observaciones dispersas de HMDs. Otra línea de métodos emplea modelos generativos [5, 7, 10, 11]. Por ejemplo, VAEHMD [10] y FLAG [5] utilizan Variational AutoEncoder (VAE) [20] y Normalizing flow [35], respectivamente. Trabajos recientes [7, 11] aprovechan modelos de difusión más potentes [15, 38] para la generación de movimiento, produciendo resultados prometedores debido a la poderosa capacidad de los modelos de difusión para modelar la distribución probabilística condicional del movimiento de cuerpo completo.
\ En contraste con métodos anteriores que modelan el movimiento de cuerpo completo en un marco unificado y completo, nuestro enfoque reconoce las complejidades que tales métodos imponen a los modelos de aprendizaje profundo, particularmente en la captura de la intrincada cinemática del movimiento humano. Por lo tanto, proponemos un enfoque estratificado que desacopla el pipeline convencional de reconstrucción de avatar de cuerpo completo, primero para la parte superior del cuerpo y luego para la parte inferior bajo la condición de la parte superior.
\
:::info Autores:
(1) Han Feng, contribuciones iguales, ordenados por alfabeto de la Universidad de Wuhan;
(2) Wenchao Ma, contribuciones iguales, ordenados por alfabeto de la Universidad Estatal de Pensilvania;
(3) Quankai Gao, Universidad del Sur de California;
(4) Xianwei Zheng, Universidad de Wuhan;
(5) Nan Xue, Grupo Ant (xuenan@ieee.org);
(6) Huijuan Xu, Universidad Estatal de Pensilvania.
:::
:::info Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.
:::
\