交易所DEX+

抽金砖 & BTC2000g

O3D-SIM 是通过将 2D 掩码和嵌入投影到 3D 构建的，使用 DBSCAN 进行初始细化。O3D-SIM 是通过将 2D 掩码和嵌入投影到 3D 构建的，使用 DBSCAN 进行初始细化。

构建开放集 3D 表示：特征融合与几何语义合并

作者：Hackernoon

2025/12/15 01:00

OPEN$0.19097-6.14%

链接表

摘要和1 引言

相关工作

2.1. 视觉与语言导航

2.2. 语义场景理解和实例分割

2.3. 3D场景重建
方法论

3.1. 数据收集

3.2. 从图像中获取开放集语义信息

3.3. 创建开放集3D表示

3.4. 语言引导导航
实验

4.1. 定量评估

4.2. 定性结果
结论和未来工作、披露声明及参考文献

3.3. 创建开放集3D表示

为了完成O3D-SIM的构建，我们现在基于为每个对象提取的特征嵌入，通过将对象信息投影到3D空间、聚类，以及关联多个图像中的对象来创建全面的3D场景表示。将语义信息投影到3D空间并优化地图的过程如图3所示。

\ 3.3.1. O3D-SIM初始化

\ 3D地图最初使用选定的图像创建，该图像作为初始化场景表示的参考框架。这一步建立了我们3D场景的基础结构，然后通过后续图像的数据逐步增强，丰富场景的复杂性和细节。

\ 3D场景中对象的数据被组织为字典中的节点，最初为空。然后从初始图像中识别对象及其相关数据，包括嵌入特征和有关其掩码的信息。对于图像中识别的每个对象，使用可用的深度信息和对象的掩码创建3D点云。这种点云形成涉及将2D像素映射到3D空间，通过相机的内在参数和深度值实现。随后，利用相机姿态将点云准确地对齐到全局坐标系中。为了优化我们的场景表示，背景过滤移除被识别为背景的元素，如墙壁或地板。这些元素被排除在进一步处理之外，特别是在聚类阶段，因为它们不构成我们场景表示的主要焦点。

\ 对象的点云集合使用DBSCAN[34]聚类进行进一步处理以优化表示。点云通过体素网格过滤进行下采样，以减少点的数量和计算复杂性，同时保持数据空间结构的可管理性。DBSCAN将紧密聚集在一起的点分组，同时将位于低密度区域的孤立点标记为噪声。在聚类后的步骤中，识别出最大的聚类，通常对应于点云中的主要感兴趣对象。这有助于过滤掉噪声和不相关的点，产生更清晰的感兴趣对象表示。

\ 3D空间中对象的姿态通过计算边界框的方向来确定，这提供了对象在3D空间中位置和大小的简洁空间表示。随后，3D地图输出使用初始节点集初始化，封装特征嵌入、点云数据、边界框以及与每个节点相关的点云中的点数。每个节点还包括源信息，以便于追踪数据来源以及节点与其2D图像对应物之间的联系。

\ 3.3.2. O3D-SIM的增量更新

\ 初始化场景后，我们使用新图像的数据更新表示。这个过程确保我们的3D场景随着额外信息的可用而保持最新和精确。它遍历图像序列中的每个图像；对于每个新图像，提取多对象数据，并更新场景。

\ 对每个新图像检测对象，并像初始图像一样创建新节点。这些临时节点包含新检测对象的3D数据，这些对象必须合并到现有场景中或作为新节点添加。新检测节点与现有场景节点之间的相似性通过结合视觉相似性（源自特征嵌入）和空间（几何）相似性（从点云重叠获得）来确定，形成一个综合相似性度量。如果这个度量超过预定阈值，则认为新检测对应于场景中的现有对象。实际上，新检测的节点要么与现有场景节点合并，要么作为新节点添加。

\ 合并涉及点云的整合和特征嵌入的平均。计算CLIP和DINO嵌入的加权平均值，考虑源键信息的贡献，优先考虑具有更多源标识符的节点。如果需要添加新节点，则将其纳入场景字典。

\ 一旦输入序列中所有图像的对象都已添加，场景优化就会发生。这个过程合并代表相同物理对象但最初由于遮挡、视角变化或类似因素而被识别为单独的节点。它使用重叠矩阵来识别共享空间占用的节点，并将它们逻辑上合并为单个节点。通过丢弃未能满足最小点数或检测标准的节点来完成场景。这导致了一个优化和精炼的最终场景表示 - 开放集3D语义实例地图，即O3D-SIM。

:::info 作者：

(1) Laksh Nanwani，印度海德拉巴国际信息技术学院；该作者对本工作贡献相同；

(2) Kumaraditya Gupta，印度海德拉巴国际信息技术学院；

(3) Aditya Mathur，印度海德拉巴国际信息技术学院；该作者对本工作贡献相同；

(4) Swayam Agrawal，印度海德拉巴国际信息技术学院；

(5) A.H. Abdul Hafez，土耳其加济安泰普沙欣贝伊哈桑卡利永库大学；

(6) K. Madhava Krishna，印度海德拉巴国际信息技术学院。

:::

:::info 本论文可在arxiv上获取，根据CC by-SA 4.0 Deed（署名-相同方式共享4.0国际）许可证发布。

:::

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。