Este artículo presenta un estudio de ablación que confirma que la separación de los latentes de movimiento en mitades superior e inferior mejora significativamente la precisión de la reconstrucción del avatar 3DEste artículo presenta un estudio de ablación que confirma que la separación de los latentes de movimiento en mitades superior e inferior mejora significativamente la precisión de la reconstrucción del avatar 3D

La importancia de la separación: SAGE supera a las líneas base unificadas de VQ-VAE en movimiento de cuerpo completo

2025/10/23 03:26

Abstracto y 1. Introducción

  1. Trabajo Relacionado

    2.1. Reconstrucción de Movimiento a partir de Entrada Dispersa

    2.2. Generación de Movimiento Humano

  2. SAGE: Generación de Avatar Estratificado y 3.1. Planteamiento del Problema y Notación

    3.2. Representación de Movimiento Desacoplada

    3.3. Difusión de Movimiento Estratificada

    3.4. Detalles de Implementación

  3. Experimentos y Métricas de Evaluación

    4.1. Conjunto de Datos y Métricas de Evaluación

    4.2. Resultados Cuantitativos y Cualitativos

    4.3. Estudio de Ablación

  4. Conclusión y Referencias

\ Material Suplementario

A. Estudios de Ablación Adicionales

B. Detalles de Implementación

4.3. Estudio de Ablación

Realizamos un estudio de ablación bajo S1 para justificar la elección de diseño de cada componente en nuestra SAGE Net.

\ Tabla 4. Resultados de evaluación bajo la configuración S3.

\ Tabla 5. Resultados de ablación de diferentes componentes en SAGE Net bajo la configuración S1.

\ Tabla 6. Resultados de evaluación sobre la estrategia condicional del modelo de difusión bajo la configuración S1.

\ Libro de Códigos Desacoplado: Establecemos una línea base utilizando una representación de movimiento unificada para evaluar la estrategia de desacoplamiento. Específicamente, desarrollamos un modelo VQ-VAE de cuerpo completo que codifica el movimiento de cuerpo completo en un único libro de códigos discreto unificado. Los otros componentes son los mismos que en el modelo original. Los resultados mostrados en la primera y última filas de la Tabla 5 demuestran que nuestro enfoque que emplea latentes desacoplados supera significativamente a la línea base en todas las métricas de evaluación. Esto demuestra que el desacoplamiento puede simplificar el proceso de aprendizaje al permitir que el modelo se centre en un conjunto más limitado de movimientos e interacciones. Además, la Fig. 5 muestra la comparación visual entre nuestro modelo y el modelo base, verificando que el desacoplamiento puede mejorar significativamente los resultados de reconstrucción para los movimientos inferiores más desafiantes.

\

\ Estrategia de Desacoplamiento: Para investigar la estrategia de desacoplamiento óptima, exploramos una configuración de desacoplamiento extrema siguiendo la ruta desde el nodo raíz

\ Figura 6. Casos de fallo. Todos los modelos están entrenados bajo la configuración S1.

\ (Pelvis) hasta cada nodo hoja a lo largo del árbol cinemático. Específicamente, dividimos el cuerpo en cinco segmentos: las rutas desde la raíz hasta la mano izquierda (a), mano derecha (b), cabeza (c), pie izquierdo (d) y pie derecho (e). Como se informa en las dos últimas filas de la Tab. 5, las interconexiones naturales de las articulaciones dentro del cuerpo superior (o inferior) se interrumpieron al desacoplar aún más el cuerpo humano, lo que resultó en caídas de rendimiento y complicó el diseño del modelo.

\

\ Limitación: En la Fig. 6, tanto el método anterior del estado del arte como nuestro modelo encuentran dificultades en dos situaciones principales: (1) Movimientos Inducidos por Fuerzas Externas (la fila superior). (2) Poses No Convencionales (la fila inferior). La adición de muestras más variadas al conjunto de datos de entrenamiento puede potencialmente mejorar el rendimiento del modelo en estas áreas.

\

:::info Autores:

(1) Han Feng, contribuciones iguales, ordenados por alfabeto de la Universidad de Wuhan;

(2) Wenchao Ma, contribuciones iguales, ordenados por alfabeto de la Universidad Estatal de Pensilvania;

(3) Quankai Gao, Universidad del Sur de California;

(4) Xianwei Zheng, Universidad de Wuhan;

(5) Nan Xue, Grupo Ant (xuenan@ieee.org);

(6) Huijuan Xu, Universidad Estatal de Pensilvania.

:::


:::info Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate con service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.
Compartir perspectivas