O3D-SIM 是通过将 2D 掩码和嵌入投影到 3D 构建的,使用 DBSCAN 进行初始细化。O3D-SIM 是通过将 2D 掩码和嵌入投影到 3D 构建的,使用 DBSCAN 进行初始细化。

构建开放集 3D 表示:特征融合与几何语义合并

2025/12/15 01:00

摘要和1 引言

  1. 相关工作

    2.1. 视觉与语言导航

    2.2. 语义场景理解和实例分割

    2.3. 3D场景重建

  2. 方法论

    3.1. 数据收集

    3.2. 从图像中获取开放集语义信息

    3.3. 创建开放集3D表示

    3.4. 语言引导导航

  3. 实验

    4.1. 定量评估

    4.2. 定性结果

  4. 结论和未来工作、披露声明及参考文献

3.3. 创建开放集3D表示

为了完成O3D-SIM的构建,我们现在基于为每个对象提取的特征嵌入,通过将对象信息投影到3D空间、聚类,以及关联多个图像中的对象来创建全面的3D场景表示。将语义信息投影到3D空间并优化地图的过程如图3所示。

\ 3.3.1. O3D-SIM初始化

\ 3D地图最初使用选定的图像创建,该图像作为初始化场景表示的参考框架。这一步建立了我们3D场景的基础结构,然后通过后续图像的数据逐步增强,丰富场景的复杂性和细节。

\ 3D场景中对象的数据被组织为字典中的节点,最初为空。然后从初始图像中识别对象及其相关数据,包括嵌入特征和有关其掩码的信息。对于图像中识别的每个对象,使用可用的深度信息和对象的掩码创建3D点云。这种点云形成涉及将2D像素映射到3D空间,通过相机的内在参数和深度值实现。随后,利用相机姿态将点云准确地对齐到全局坐标系中。为了优化我们的场景表示,背景过滤移除被识别为背景的元素,如墙壁或地板。这些元素被排除在进一步处理之外,特别是在聚类阶段,因为它们不构成我们场景表示的主要焦点。

\ 对象的点云集合使用DBSCAN[34]聚类进行进一步处理以优化表示。点云通过体素网格过滤进行下采样,以减少点的数量和计算复杂性,同时保持数据空间结构的可管理性。DBSCAN将紧密聚集在一起的点分组,同时将位于低密度区域的孤立点标记为噪声。在聚类后的步骤中,识别出最大的聚类,通常对应于点云中的主要感兴趣对象。这有助于过滤掉噪声和不相关的点,产生更清晰的感兴趣对象表示。

\ 3D空间中对象的姿态通过计算边界框的方向来确定,这提供了对象在3D空间中位置和大小的简洁空间表示。随后,3D地图输出使用初始节点集初始化,封装特征嵌入、点云数据、边界框以及与每个节点相关的点云中的点数。每个节点还包括源信息,以便于追踪数据来源以及节点与其2D图像对应物之间的联系。

\ 3.3.2. O3D-SIM的增量更新

\ 初始化场景后,我们使用新图像的数据更新表示。这个过程确保我们的3D场景随着额外信息的可用而保持最新和精确。它遍历图像序列中的每个图像;对于每个新图像,提取多对象数据,并更新场景。

\ 对每个新图像检测对象,并像初始图像一样创建新节点。这些临时节点包含新检测对象的3D数据,这些对象必须合并到现有场景中或作为新节点添加。新检测节点与现有场景节点之间的相似性通过结合视觉相似性(源自特征嵌入)和空间(几何)相似性(从点云重叠获得)来确定,形成一个综合相似性度量。如果这个度量超过预定阈值,则认为新检测对应于场景中的现有对象。实际上,新检测的节点要么与现有场景节点合并,要么作为新节点添加。

\ 合并涉及点云的整合和特征嵌入的平均。计算CLIP和DINO嵌入的加权平均值,考虑源键信息的贡献,优先考虑具有更多源标识符的节点。如果需要添加新节点,则将其纳入场景字典。

\ 一旦输入序列中所有图像的对象都已添加,场景优化就会发生。这个过程合并代表相同物理对象但最初由于遮挡、视角变化或类似因素而被识别为单独的节点。它使用重叠矩阵来识别共享空间占用的节点,并将它们逻辑上合并为单个节点。通过丢弃未能满足最小点数或检测标准的节点来完成场景。这导致了一个优化和精炼的最终场景表示 - 开放集3D语义实例地图,即O3D-SIM。

\

:::info 作者:

(1) Laksh Nanwani,印度海德拉巴国际信息技术学院;该作者对本工作贡献相同;

(2) Kumaraditya Gupta,印度海德拉巴国际信息技术学院;

(3) Aditya Mathur,印度海德拉巴国际信息技术学院;该作者对本工作贡献相同;

(4) Swayam Agrawal,印度海德拉巴国际信息技术学院;

(5) A.H. Abdul Hafez,土耳其加济安泰普沙欣贝伊哈桑卡利永库大学;

(6) K. Madhava Krishna,印度海德拉巴国际信息技术学院。

:::


:::info 本论文可在arxiv上获取,根据CC by-SA 4.0 Deed(署名-相同方式共享4.0国际)许可证发布。

:::

\

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。