3DIML是一个新框架,使用隐式场景表示来快速准确地分割3D实例。3DIML采用两阶段方法——InstanceMap和InstanceLift——有效地将2D实例掩码提升为一致的3D标签场,这与之前基于NeRF的技术形成对比,后者需要耗时的优化和复杂的损失函数。其模块化管道大大加速了训练和推理过程,实现高达24倍的加速同时保持高质量分割。3DIML为机器人和计算机视觉应用中的快速3D场景理解提供了可扩展的即插即用解决方案,特别是在添加InstaLoc模块后,可实现近实时的实例定位。3DIML是一个新框架,使用隐式场景表示来快速准确地分割3D实例。3DIML采用两阶段方法——InstanceMap和InstanceLift——有效地将2D实例掩码提升为一致的3D标签场,这与之前基于NeRF的技术形成对比,后者需要耗时的优化和复杂的损失函数。其模块化管道大大加速了训练和推理过程,实现高达24倍的加速同时保持高质量分割。3DIML为机器人和计算机视觉应用中的快速3D场景理解提供了可扩展的即插即用解决方案,特别是在添加InstaLoc模块后,可实现近实时的实例定位。

解决 3D 分割的最大瓶颈

2025/10/24 23:33

:::info 作者:

(1) George Tang,麻省理工学院;

(2) Krishna Murthy Jatavallabhula,麻省理工学院;

(3) Antonio Torralba,麻省理工学院。

:::

摘要和第一章 引言

第二章 背景

第三章 方法

第四章 实验

第五章 结论和参考文献

\ 图1:我们的方法3DIML学习场景的隐式表示,将其作为对象实例的组合。它通过将现成2D分割模型(如Segment Anything)的2D视图不一致实例标签提升为3D视图一致的实例标签来实现这一点。上图显示了使用3DIML生成的野外扫描博士后办公室的结果,由InstanceMap(左)和InstanceLift组成。然后使用InstanceLoc(右)来优化结果。每个识别的3D标签以不同颜色显示。注意细长和部分被遮挡的物体如何在整个序列中被准确描绘。

\ 摘要—我们解决了从一系列已知姿态的RGB图像中学习3D实例分割的隐式场景表示问题。为此,我们引入了3DIML,一个新颖的框架,它有效地学习一个标签场,可以从新视角渲染出视图一致的实例分割掩码。3DIML显著改进了现有基于隐式场景表示方法的训练和推理运行时间。与之前以自监督方式优化神经场的方法不同,后者需要复杂的训练程序和损失函数设计,3DIML利用两阶段过程。第一阶段InstanceMap,输入由前端实例分割模型生成的图像序列的2D分割掩码,并将跨图像的对应掩码关联到3D标签。这些几乎视图一致的伪标签掩码随后在第二阶段InstanceLift中用于监督神经标签场的训练,该标签场插值InstanceMap遗漏的区域并解决歧义。此外,我们引入了InstanceLoc,它通过融合两者的输出,实现了给定训练好的标签场和现成图像分割模型的实例掩码的近实时定位。我们在Replica和ScanNet数据集的序列上评估了3DIML,并在图像序列的温和假设下展示了3DIML的有效性。我们在保持可比质量的同时,相比现有隐式场景表示方法实现了巨大的实际加速,展示了其促进更快速、更有效3D场景理解的潜力。

I. 引言

智能代理需要在对象级别上理解场景,以有效执行特定上下文的操作,如导航和操作。虽然从图像中分割对象已经通过在互联网规模数据集上训练的可扩展模型取得了显著进展[1],[2],但将这些能力扩展到3D环境仍然具有挑战性。

\ 在本工作中,我们解决了从已知姿态的2D图像中学习3D场景表示的问题,该表示将底层场景分解为其组成对象的集合。解决这个问题的现有方法集中在训练类别无关的3D分割模型[3],[4],需要大量标注的3D数据,并直接在显式3D场景表示(如点云)上操作。另一类方法[5],[6]则提出直接将现成实例分割模型的分割掩码提升到隐式3D表示中,如神经辐射场(NeRF)[7],使其能够从新视角渲染3D一致的实例掩码。

\ 然而,基于神经场的方法一直难以优化,[5]和[6]需要几个小时来优化低到中等分辨率的图像(如300×640)。特别是,全景提升[5]随场景中对象数量的增加呈立方增长,阻止其应用于包含数百个对象的场景,而对比提升[6]需要复杂的多阶段训练程序,阻碍了其在机器人应用中的实用性。

\ 为此,我们提出3DIML,一种从已知姿态RGB图像中学习3D一致实例分割的高效技术。3DIML包括两个阶段:InstanceMap和InstanceLift。给定使用前端实例分割模型[2]从RGB序列中提取的视图不一致2D实例掩码,InstanceMap生成一系列视图一致的实例掩码。为此,我们首先使用相似图像对之间的关键点匹配来关联跨帧的掩码。然后我们使用这些可能有噪声的关联来监督神经标签场InstanceLift,它利用3D结构来插值缺失的标签并解决歧义。与需要多阶段训练和额外损失函数工程的先前工作不同,我们使用单一渲染损失进行实例标签监督,使训练过程能够显著更快地收敛。3DIML的总运行时间,包括InstanceMap,需要10-20分钟,而先前的方法需要3-6小时。

\ 此外,我们设计了InstaLoc,一个快速定位管道,它接收新视图并定位该图像中分割的所有实例(使用快速实例分割模型[8]),通过稀疏查询标签场并融合标签预测与提取的图像区域。最后,3DIML极其模块化,我们可以轻松替换我们方法的组件,以便在更高性能的组件可用时使用它们。

\ 总结我们的贡献:

\ • 一种高效的神经场学习方法,将3D场景分解为其组成对象

\ • 一种快速实例定位算法,融合对训练好的标签场的稀疏查询与高性能图像实例分割模型,生成3D一致的实例分割掩码

\ • 在单个GPU(NVIDIA RTX 3090)上基准测试,相比先前技术整体实际运行时间提升了14-24倍

II. 背景

2D分割:视觉transformer架构的普及和图像数据集规模的增加导致了一系列最先进的图像分割模型。全景提升和对比提升都通过学习神经场将Mask2Former[1]生成的全景分割掩码提升到3D。在开放集分割方面,segment anything(SAM)[2]通过在1100万张图像上训练10亿个掩码,实现了前所未有的性能。HQ-SAM[9]改进了SAM以获得细粒度掩码。FastSAM[8]将SAM提炼为CNN架构,实现了类似性能但速度提高了数个数量级。在本工作中,我们使用GroundedSAM[10],[11],它改进了SAM以生成对象级而非部件级分割掩码。

\ 用于3D实例分割的神经场:NeRF是隐式场景表示,可以准确编码复杂几何、语义和其他模态,以及解决视点不一致的监督[12]。全景提升[5]在NeRF的高效变体TensoRF[13]上构建语义和实例分支,利用匈牙利匹配损失函数将学习的实例掩码分配给给定参考视图不一致掩码的代理对象ID。这随着对象数量的增加而扩展性能差(由于匈牙利匹配的立方复杂度)。对比提升[6]通过在场景特征上采用对比学习来解决这个问题,正负关系由它们是否投影到同一掩码上决定。此外,对比提升需要一个慢-快聚类基础损失以实现稳定训练,导致比全景提升更快的性能,但需要多阶段训练,导致收敛缓慢。与我们同时,Instance-NeRF[14]直接学习标签场,但他们的掩码关联基于利用NeRF-RPN[15]在NeRF中检测对象。相反,我们的方法允许扩展到非常高的图像分辨率,同时仅需少量(40-60)神经场查询来渲染分割掩码。

\ 运动结构恢复:在InstanceMap中的掩码关联过程中,我们从可扩展3D重建管道如hLoc[16]中获取灵感,包括首先使用视觉描述符匹配图像视点,然后应用关键点匹配作为掩码关联的初步步骤。我们使用LoFTR[17]进行关键点提取和匹配。

\

:::info 本论文可在arxiv上获取,遵循CC by 4.0 Deed(Attribution 4.0 International)许可。

:::

\

免责声明:本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。
分享文章

您可能也会喜欢

谷歌量子突破使比特币威胁"更加真实",科学家表示

谷歌量子突破使比特币威胁"更加真实",科学家表示

利用量子力学现象的计算机长期以来一直对支撑3.8万亿美元加密货币行业的加密技术构成理论威胁。周三,谷歌发布了新研究,声称使量子计算更接近于在现实世界应用中使用,如医药和材料科学——或直接从持有者钱包中窃取比特币,这一威胁变得更加迫近。"谷歌一直按计划实现里程碑,这就是为什么比特币面临的威胁将变得越来越真实,"量子计算研究员、专注于区块链后量子密码学的Pauli Group创始人Pierre-Luc Dallaire-Demers告诉DL News。 四到五年 Dallaire-Demers表示,这一突破与他之前预测的量子计算机将能在四到五年内破解比特币背后的加密技术一致。比特币使用加密算法进行标记交易的数字签名。该系统的安全性依赖于解开该算法输出的难度。 未来,量子计算机可能变得足够强大,使恶意行为者能够随意将比特币从易受攻击的钱包中转出。能够破解高级密码学的量子计算机的影响将是巨大的。根据咨询和风险管理公司德勤2024年的一份报告,目前流通中约25%的比特币——按当前价格计算约5540亿美元——容易受到量子攻击。 而且,不仅仅是加密货币面临风险。互联网的大部分内容,包括网站、消息服务和金融交易,都依赖于加密通信,理论上也容易受到量子攻击。 无法知晓 其他专家对比特币当前形式剩余时间的估计更为保守。 量子计算研究员Paulo Viana告诉DL News,他认为量子计算机可能在大约八年后构成威胁。但多几年的安全时间并不会使威胁变得不那么令人不安。 "考虑到过渡到量子抵抗选项有多复杂,八年似乎至少令人担忧,"他说。随着量子计算机变得更强大,比特币网络不会一下子崩溃。 首先受到量子计算机影响的将是2012年之前创建的旧式Pay-To-Public-Key钱包,它们使用较弱形式的加密。对于大多数用户来说,避免这种风险就像将资金转移到现代钱包一样简单,现代钱包将用户的公钥隐藏在哈希后面,量子计算机在交易进行前无法破解。 中本聪的1220亿美元储备 但属于比特币创造者中本聪的钱包——包含约110万个比特币,价值1220亿美元——属于较旧、更易受攻击的类型。 中本聪已经14年没有消息了,这使得这位化名开发者不太可能很快回来保护他的储备。 Viana说,最大的问题是,当量子计算机开始破解比特币的加密时,将无法知晓。对于观察区块链活动的人来说,这种未经授权的交易看起来与旧比特币钱包执行的常规转账没有区别,这种情况经常发生。 "我们现在是安全的,但如果人们不开始关注解决这个问题,这可能导致市场崩溃,"Viana说。 Tim Craig是DL News驻爱丁堡的DeFi记者。如有线索请联系他:tim@dlnews.com。
分享
2025/10/25 01:18