摘要和1 引言
相关工作
2.1. 视觉与语言导航
2.2. 语义场景理解和实例分割
2.3. 3D场景重建
方法论
3.1. 数据收集
3.2. 从图像中获取开放集语义信息
3.3. 创建开放集3D表示
3.4. 语言引导导航
实验
4.1. 定量评估
4.2. 定性结果
结论和未来工作、披露声明及参考文献
为了完成O3D-SIM的构建,我们现在基于为每个对象提取的特征嵌入,通过将对象信息投影到3D空间、聚类,以及关联多个图像中的对象来创建全面的3D场景表示。将语义信息投影到3D空间并优化地图的过程如图3所示。
\ 3.3.1. O3D-SIM初始化
\ 3D地图最初使用选定的图像创建,该图像作为初始化场景表示的参考框架。这一步建立了我们3D场景的基础结构,然后通过后续图像的数据逐步增强,丰富场景的复杂性和细节。
\ 3D场景中对象的数据被组织为字典中的节点,最初为空。然后从初始图像中识别对象及其相关数据,包括嵌入特征和有关其掩码的信息。对于图像中识别的每个对象,使用可用的深度信息和对象的掩码创建3D点云。这种点云形成涉及将2D像素映射到3D空间,通过相机的内在参数和深度值实现。随后,利用相机姿态将点云准确地对齐到全局坐标系中。为了优化我们的场景表示,背景过滤移除被识别为背景的元素,如墙壁或地板。这些元素被排除在进一步处理之外,特别是在聚类阶段,因为它们不构成我们场景表示的主要焦点。
\ 对象的点云集合使用DBSCAN[34]聚类进行进一步处理以优化表示。点云通过体素网格过滤进行下采样,以减少点的数量和计算复杂性,同时保持数据空间结构的可管理性。DBSCAN将紧密聚集在一起的点分组,同时将位于低密度区域的孤立点标记为噪声。在聚类后的步骤中,识别出最大的聚类,通常对应于点云中的主要感兴趣对象。这有助于过滤掉噪声和不相关的点,产生更清晰的感兴趣对象表示。
\ 3D空间中对象的姿态通过计算边界框的方向来确定,这提供了对象在3D空间中位置和大小的简洁空间表示。随后,3D地图输出使用初始节点集初始化,封装特征嵌入、点云数据、边界框以及与每个节点相关的点云中的点数。每个节点还包括源信息,以便于追踪数据来源以及节点与其2D图像对应物之间的联系。
\ 3.3.2. O3D-SIM的增量更新
\ 初始化场景后,我们使用新图像的数据更新表示。这个过程确保我们的3D场景随着额外信息的可用而保持最新和精确。它遍历图像序列中的每个图像;对于每个新图像,提取多对象数据,并更新场景。
\ 对每个新图像检测对象,并像初始图像一样创建新节点。这些临时节点包含新检测对象的3D数据,这些对象必须合并到现有场景中或作为新节点添加。新检测节点与现有场景节点之间的相似性通过结合视觉相似性(源自特征嵌入)和空间(几何)相似性(从点云重叠获得)来确定,形成一个综合相似性度量。如果这个度量超过预定阈值,则认为新检测对应于场景中的现有对象。实际上,新检测的节点要么与现有场景节点合并,要么作为新节点添加。
\ 合并涉及点云的整合和特征嵌入的平均。计算CLIP和DINO嵌入的加权平均值,考虑源键信息的贡献,优先考虑具有更多源标识符的节点。如果需要添加新节点,则将其纳入场景字典。
\ 一旦输入序列中所有图像的对象都已添加,场景优化就会发生。这个过程合并代表相同物理对象但最初由于遮挡、视角变化或类似因素而被识别为单独的节点。它使用重叠矩阵来识别共享空间占用的节点,并将它们逻辑上合并为单个节点。通过丢弃未能满足最小点数或检测标准的节点来完成场景。这导致了一个优化和精炼的最终场景表示 - 开放集3D语义实例地图,即O3D-SIM。
\
:::info 作者:
(1) Laksh Nanwani,印度海德拉巴国际信息技术学院;该作者对本工作贡献相同;
(2) Kumaraditya Gupta,印度海德拉巴国际信息技术学院;
(3) Aditya Mathur,印度海德拉巴国际信息技术学院;该作者对本工作贡献相同;
(4) Swayam Agrawal,印度海德拉巴国际信息技术学院;
(5) A.H. Abdul Hafez,土耳其加济安泰普沙欣贝伊哈桑卡利永库大学;
(6) K. Madhava Krishna,印度海德拉巴国际信息技术学院。
:::
:::info 本论文可在arxiv上获取,根据CC by-SA 4.0 Deed(署名-相同方式共享4.0国际)许可证发布。
:::
\


