3DIML es un nuevo framework que utiliza representaciones implícitas de escenas para segmentar instancias 3D de forma rápida y precisa. 3DIML utiliza un enfoque de dos fases —InstanceMap e InstanceLift— para elevar eficazmente las máscaras de instancias 2D a campos de etiquetas 3D consistentes, en contraste con las técnicas anteriores basadas en NeRF que requieren una optimización que consume mucho tiempo y pérdidas intrincadas. El entrenamiento y la inferencia se aceleran enormemente gracias a su pipeline modular, que logra una aceleración de hasta 24× mientras preserva una segmentación de alta calidad. 3DIML ofrece una solución escalable y plug-and-play para la comprensión rápida de escenas 3D en aplicaciones de robótica y visión por computadora, especialmente con la adición del módulo InstaLoc para la localización de instancias en tiempo real.3DIML es un nuevo framework que utiliza representaciones implícitas de escenas para segmentar instancias 3D de forma rápida y precisa. 3DIML utiliza un enfoque de dos fases —InstanceMap e InstanceLift— para elevar eficazmente las máscaras de instancias 2D a campos de etiquetas 3D consistentes, en contraste con las técnicas anteriores basadas en NeRF que requieren una optimización que consume mucho tiempo y pérdidas intrincadas. El entrenamiento y la inferencia se aceleran enormemente gracias a su pipeline modular, que logra una aceleración de hasta 24× mientras preserva una segmentación de alta calidad. 3DIML ofrece una solución escalable y plug-and-play para la comprensión rápida de escenas 3D en aplicaciones de robótica y visión por computadora, especialmente con la adición del módulo InstaLoc para la localización de instancias en tiempo real.

Solucionando el mayor obstáculo de la segmentación 3D

2025/10/24 23:33

:::info Autores:

(1) George Tang, Instituto Tecnológico de Massachusetts;

(2) Krishna Murthy Jatavallabhula, Instituto Tecnológico de Massachusetts;

(3) Antonio Torralba, Instituto Tecnológico de Massachusetts.

:::

Resumen y I. Introducción

II. Antecedentes

III. Método

IV. Experimentos

V. Conclusión y Referencias

\ Fig. 1: Nuestro enfoque, 3DIML, aprende una representación implícita de una escena como una composición de instancias de objetos. Lo hace elevando etiquetas de instancia 2D inconsistentes desde modelos de segmentación 2D prefabricados (como Segment Anything) a etiquetas de instancia 3D consistentes. Las imágenes anteriores muestran resultados para el escaneo en entorno natural de una oficina de postdoctorado generada usando 3DIML, compuesta por InstanceMap (izquierda) e InstanceLift. InstanceLoc (derecha) se utiliza luego para refinar los resultados. Cada etiqueta 3D identificada se muestra en un color diferente. Observe cómo los objetos delgados y parcialmente ocluidos están delineados con precisión en toda la secuencia.

\ Resumen— Abordamos el problema de aprender una representación implícita de escena para segmentación de instancias 3D a partir de una secuencia de imágenes RGB con pose. Para ello, presentamos 3DIML, un marco novedoso que aprende eficientemente un campo de etiquetas que puede renderizarse desde nuevos puntos de vista para producir máscaras de segmentación de instancias consistentes. 3DIML mejora significativamente los tiempos de entrenamiento e inferencia de los métodos existentes basados en representación implícita de escenas. A diferencia de técnicas anteriores que optimizan un campo neuronal de manera autosupervisada, requiriendo procedimientos de entrenamiento complicados y diseño de funciones de pérdida, 3DIML aprovecha un proceso de dos fases. La primera fase, InstanceMap, toma como entrada máscaras de segmentación 2D de la secuencia de imágenes generadas por un modelo de segmentación de instancias frontend, y asocia las máscaras correspondientes a través de imágenes a etiquetas 3D. Estas máscaras de pseudoetiquetas casi consistentes se utilizan luego en la segunda fase, InstanceLift, para supervisar el entrenamiento de un campo de etiquetas neuronal, que interpola regiones omitidas por InstanceMap y resuelve ambigüedades. Además, introducimos InstanceLoc, que permite la localización en tiempo casi real de máscaras de instancias dado un campo de etiquetas entrenado y un modelo de segmentación de imágenes prefabricado, fusionando las salidas de ambos. Evaluamos 3DIML en secuencias de los conjuntos de datos Replica y ScanNet y demostramos la efectividad de 3DIML bajo supuestos leves para las secuencias de imágenes. Logramos una gran aceleración práctica sobre los métodos existentes de representación implícita de escenas con calidad comparable, mostrando su potencial para facilitar una comprensión de escenas 3D más rápida y efectiva.

I. INTRODUCCIÓN

Los agentes inteligentes requieren comprensión de escenas a nivel de objeto para llevar a cabo eficazmente acciones específicas del contexto como navegación y manipulación. Si bien la segmentación de objetos en imágenes ha visto un progreso notable con modelos escalables entrenados en conjuntos de datos a escala de internet [1], [2], extender tales capacidades al entorno 3D sigue siendo un desafío.

\ En este trabajo, abordamos el problema de aprender una representación de escena 3D a partir de imágenes 2D con pose que factoriza la escena subyacente en su conjunto de objetos constituyentes. Los enfoques existentes para abordar este problema se han centrado en entrenar modelos de segmentación 3D agnósticos a la clase [3], [4], requiriendo grandes cantidades de datos 3D anotados y operando directamente sobre representaciones explícitas de escenas 3D (por ejemplo, nubes de puntos). Una clase alternativa de enfoques [5], [6] ha propuesto en cambio elevar directamente máscaras de segmentación desde modelos de segmentación de instancias prefabricados a representaciones 3D implícitas, como campos de radiancia neuronal (NeRF) [7], permitiéndoles renderizar máscaras de instancias consistentes en 3D desde nuevos puntos de vista.

\ Sin embargo, los enfoques basados en campos neuronales han seguido siendo notoriamente difíciles de optimizar, con [5] y [6] tomando varias horas para optimizar imágenes de resolución baja a media (por ejemplo, 300 × 640). En particular, Panoptic Lifting [5] escala cúbicamente con el número de objetos en la escena, impidiendo que se aplique a escenas con cientos de objetos, mientras que Contrastively Lifting [6] requiere un procedimiento de entrenamiento complicado de múltiples etapas, obstaculizando la practicidad para su uso en aplicaciones robóticas.

\ Para este fin, proponemos 3DIML, una técnica eficiente para aprender segmentación de instancias consistente en 3D a partir de imágenes RGB con pose. 3DIML comprende dos fases: InstanceMap e InstanceLift. Dadas máscaras de instancia 2D inconsistentes extraídas de la secuencia RGB utilizando un modelo de segmentación de instancias frontend [2], InstanceMap produce una secuencia de máscaras de instancia consistentes. Para hacerlo, primero asociamos máscaras entre frames utilizando coincidencias de puntos clave entre pares de imágenes similares. Luego usamos estas asociaciones potencialmente ruidosas para supervisar un campo de etiquetas neuronal, InstanceLift, que aprovecha la estructura 3D para interpolar etiquetas faltantes y resolver ambigüedades. A diferencia de trabajos anteriores, que requieren entrenamiento en múltiples etapas e ingeniería adicional de funciones de pérdida, utilizamos una única pérdida de renderizado para la supervisión de etiquetas de instancia, permitiendo que el proceso de entrenamiento converja significativamente más rápido. El tiempo de ejecución total de 3DIML, incluido InstanceMap, toma 10-20 minutos, en comparación con 3-6 horas para técnicas anteriores.

\ Además, diseñamos InstaLoc, un pipeline de localización rápido que toma una vista nueva y localiza todas las instancias segmentadas en esa imagen (utilizando un modelo de segmentación de instancias rápido [8]) mediante consultas dispersas al campo de etiquetas y fusionando las predicciones de etiquetas con regiones de imagen extraídas. Finalmente, 3DIML es extremadamente modular, y podemos intercambiar fácilmente componentes de nuestro método por otros más eficientes a medida que estén disponibles.

\ Para resumir, nuestras contribuciones son:

\ • Un enfoque eficiente de aprendizaje de campo neuronal que factoriza una escena 3D en sus objetos constituyentes

\ • Un algoritmo rápido de localización de instancias que fusiona consultas dispersas al campo de etiquetas entrenado con modelos de segmentación de instancias de imágenes eficientes para generar máscaras de segmentación de instancias consistentes en 3D

\ • Una mejora general del tiempo de ejecución práctico de 14-24× sobre técnicas anteriores evaluadas en una sola GPU (NVIDIA RTX 3090)

II. ANTECEDENTES

Segmentación 2D: La prevalencia de la arquitectura de transformadores de visión y la creciente escala de conjuntos de datos de imágenes han resultado en una serie de modelos de segmentación de imágenes de última generación. Panoptic y Contrastive Lifting elevan máscaras de segmentación panóptica producidas por Mask2Former [1] a 3D aprendiendo un campo neuronal. Hacia la segmentación de conjunto abierto, segment anything (SAM) [2] logra un rendimiento sin precedentes al entrenar con mil millones de máscaras en 11 millones de imágenes. HQ-SAM [9] mejora SAM para máscaras de grano fino. FastSAM [8] destila SAM en una arquitectura CNN y logra un rendimiento similar siendo órdenes de magnitud más rápido. En este trabajo, utilizamos GroundedSAM [10], [11], que refina SAM para producir segmentación a nivel de objeto, en lugar de a nivel de parte.

\ Campos neuronales para segmentación de instancias 3D: Los NeRFs son representaciones implícitas de escenas que pueden codificar con precisión geometría compleja, semántica y otras modalidades, así como resolver supervisión inconsistente desde diferentes puntos de vista [12]. Panoptic lifting [5] construye ramas semánticas y de instancias sobre una variante eficiente de NeRF, TensoRF [13], utilizando una función de pérdida de emparejamiento húngaro para asignar máscaras de instancia aprendidas a IDs de objetos sustitutos dadas máscaras de referencia inconsistentes. Esto escala pobremente con el aumento del número de objetos (debido a la complejidad cúbica del emparejamiento húngaro). Contrastive lifting [6] aborda esto empleando en su lugar aprendizaje contrastivo en características de escena, con relaciones positivas y negativas determinadas por si se proyectan o no en la misma máscara. Además, contrastive lifting requiere una pérdida basada en agrupamiento lento-rápido para un entrenamiento estable, lo que lleva a un rendimiento más rápido que panoptic lifting pero requiere múltiples etapas de entrenamiento, llevando a una convergencia lenta. Concurrentemente a nosotros, Instance-NeRF [14] aprende directamente un campo de etiquetas, pero basan su asociación de máscaras en la utilización de NeRF-RPN [15] para detectar objetos en un NeRF. Nuestro enfoque, por el contrario, permite escalar a resoluciones de imagen muy altas mientras requiere solo un pequeño número (40-60) de consultas de campo neuronal para renderizar máscaras de segmentación.

\ Structure from Motion: Durante la asociación de máscaras en InstanceMap, nos inspiramos en pipelines escalables de reconstrucción 3D como hLoc [16], incluido el uso de descriptores visuales para emparejar primero puntos de vista de imágenes, luego aplicando emparejamiento de puntos clave como preliminar para la asociación de máscaras. Utilizamos LoFTR [17] para la extracción y emparejamiento de puntos clave.

\

:::info Este artículo está disponible en arxiv bajo la licencia CC by 4.0 Deed (Atribución 4.0 Internacional).

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate con service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.
Compartir perspectivas

También te puede interesar

El avance cuántico de Google hace que la amenaza a Bitcoin sea 'más real', dicen los científicos

El avance cuántico de Google hace que la amenaza a Bitcoin sea 'más real', dicen los científicos

Los ordenadores que explotan fenómenos mecánicos cuánticos han representado durante mucho tiempo una amenaza teórica para la encriptación que sustenta la industria cripto de $3.8 billones. Esa amenaza se acercó más el miércoles después de que Google publicara una nueva investigación que, según afirma, acerca mucho más la computación cuántica a ser utilizada en aplicaciones del mundo real como medicina y ciencia de materiales, o robar Bitcoin directamente de las billeteras de sus propietarios. "Google sigue cumpliendo hitos según lo programado y así es como la amenaza para Bitcoin se volverá cada vez más real", dijo a DL News Pierre-Luc Dallaire-Demers, investigador de computación cuántica y fundador de Pauli Group, una empresa que trabaja en criptografía post-cuántica para blockchains. De cuatro a cinco años Dallaire-Demers dijo que el avance es consistente con su predicción anterior de que las computadoras cuánticas podrán descifrar la encriptación detrás de Bitcoin en cuatro o cinco años. Bitcoin utiliza un algoritmo criptográfico para las firmas digitales que marcan las transacciones. La seguridad de este sistema se basa en la dificultad de desentrañar los resultados de ese algoritmo. En el futuro, las computadoras cuánticas podrían volverse lo suficientemente poderosas para hacerlo, dando a los actores maliciosos la capacidad de transferir Bitcoin fuera de billeteras vulnerables a voluntad. El impacto de las computadoras cuánticas capaces de descifrar criptografía avanzada sería inmenso. Aproximadamente el 25% de todo el Bitcoin en circulación —alrededor de $554 mil millones a precios actuales— es vulnerable a un ataque cuántico, según una nota de 2024 de Deloitte, una firma de consultoría y gestión de riesgos. Y no son solo las criptomonedas las que están en riesgo. Gran parte de internet, incluidos sitios web, servicios de mensajería y transacciones financieras, depende de comunicaciones encriptadas que también son teóricamente vulnerables a ataques cuánticos. Imposible de saber Otros expertos son más conservadores en sus estimaciones sobre cuánto tiempo le queda a Bitcoin en su forma actual. Paulo Viana, investigador de computación cuántica, dijo a DL News que cree que las computadoras cuánticas podrían representar una amenaza en aproximadamente ocho años. Pero los pocos años adicionales de seguridad no hacen que la amenaza sea menos inquietante. "Considerando lo complicado que es hacer la transición a una opción resistente a la cuántica, ocho años parece ser preocupante al menos", dijo. A medida que las computadoras cuánticas se vuelven más poderosas, la red Bitcoin no caerá de una vez. La primera parte que caerá ante las computadoras cuánticas serán las billeteras Pay-To-Public-Key más antiguas creadas antes de 2012, que utilizan una forma más débil de encriptación. Para la mayoría de los usuarios, evitar este riesgo es tan fácil como transferir fondos a una billetera moderna, que oculta la clave pública del usuario detrás de un hash que las computadoras cuánticas no pueden romper hasta que se realiza una transacción. El alijo de $122 mil millones de Satoshi Pero las billeteras pertenecientes al creador de Bitcoin, Satoshi Nakamoto —que contienen aproximadamente 1.1 millones de Bitcoin valorados en $122 mil millones— son del tipo más antiguo y vulnerable. No se ha sabido nada de Nakamoto durante 14 años, lo que hace parecer improbable que el desarrollador pseudónimo regrese para proteger su alijo pronto. El mayor problema, dijo Viana, es que será imposible saber cuándo las computadoras cuánticas comiencen a descifrar la encriptación de Bitcoin. Para aquellos que observan la actividad en la blockchain, dicha transacción no autorizada parecería no diferente de una billetera antigua de Bitcoin realizando una transferencia rutinaria, algo que sucede con frecuencia. "Estamos seguros por ahora, pero esto podría llevar a un colapso del mercado si la gente no comienza a enfocarse en resolver este problema", dijo Viana. Tim Craig es el corresponsal de DeFi de DL News con sede en Edimburgo. Comunícate con él para enviarle consejos a tim@dlnews.com.
Compartir
2025/10/25 01:18