何恺明团队开源 3D 目标检测新框架 VoteNet:模型更简单、效率更高

网友投稿 759 2022-05-30

介绍

通过端到端的可微架构,在深度学习的背景下重新定制了霍夫投票,称之为 VoteNet。

在 SUN RGB-D 和 ScanNet 两个数据集上实现了最先进的 3D 目标检测性能。

深入分析了投票在点云 3D 目标检测中的重要性。

深度霍夫投票(Deep Hough Voting)

VoteNet 结构

图 2 给出了端到端检测网络 VoteNet 的结构。整个网络可以分为两部分:一部分处理现有的点来生成投票;另一部分处理虚拟点——投票——来提出和分类目标。

从点云数据中学习投票

其中 1[si on object] 表示种子点 si 是否在目标表面上,Mpos 是目标表面上种子的总数。Δxi * 是从种子位置 xi 到它所属物体的边界框中心的真实偏移量。

何恺明团队开源 3D 目标检测新框架 VoteNet:模型更简单、效率更高

从投票中得到目标的 proposal 和分类

实验结果

与 SOTA 方法进行比较

! image

实验结果如表 1 和表 2 所示。在 SUN RGB-D 和 ScanNet 两个数据集中,VoteNet 的性能都优于所有先前的方法,分别增加了 3.7 和 18.4 个 mAP。

表 1 表明,当类别为训练样本最多的“椅子”时,VoteNet 比以前的最优方法提高了 11AP。表 2 表明,仅采用几何输入时,VoteNet 显著优于基于 3D CNN 的 3D-SIS 方法,超过了 33AP。

分析实验

####投票好还是不投票好呢?

图 4 给出了第二个分析,显示了在同一个图上(以不同的比例),对于每个 SUN RGB-D 的类别:(蓝色点)在 VoteNet 和 BoxNet 之间 mAP 的增加,以及(红色方块)目标点和边界框中心之间的最近距离。可以看出,当目标点远离边界框中心时,投票会起到更大的作用。

####投票聚合的效果

投票聚合是 VoteNet 的一个重要组成部分,因为它允许投票之间的沟通。因此,分析不同的聚合方案对性能的影响是非常有用的。

图 5(右)表明,由于存在杂乱投票(即来自非目标种子的投票),使用学习的 PointNet 和最大池化进行投票聚合比手动聚合局部区域中的投票特征能获得更好的结果。图 5(左)给出了投票聚合半径对检测的影响。随着聚和半径的增加,VoteNet 的效果会不断提高,在 0.2 半径处达到峰值。当半径过大时,引入了更多的杂乱投票,导致性能下降。

####模型大小和速度

VoteNet 利用了点云的稀疏性,避免在空的空间搜索。与以前的最佳方法相比,该模型比 F-PointNet 小 4 倍,在速度上比 3D-SIS 快 20 倍。

定性结果和讨论

图 6 和图 7 分别给出了 VoteNet 在 ScanNet 和 SUN RGB-D 场景上检测结果的几个代表性示例。如图所示,场景是非常多样化的,并具有多种挑战,包括杂乱、扫描伪影等。尽管存在这些挑战,VoteNet 仍然显示出相当强大的结果。

例如,图 6 展示了 VoteNet 在顶部场景中正确地检测到绝大多数椅子。该方法能够很好地区分左下角场景中连起来的的沙发椅和沙发,并预测出了右下角场景中那张不完整的、杂乱的桌子的完整边界框。

不过,该方法仍然有局限性。常见的失败案例包括遗漏非常薄的物体,如门、窗和图画等图 6 顶部场景中黑色边界框表示的部分。由于没有利用 RGB 信息,检测到这些类别几乎是不可能的。图 7 也还显示了该方法在单视图深度图像的部分扫描中的优势。例如,它在左上方的场景中检测到的椅子比真实值提供的更多。在右上角的场景中,可以看到尽管只看到沙发的一部分,VoteNet 依然成功绘制出了边界框。

结论

论文原文:

Deep Hough Voting for 3D Object Detection in Point Clouds

转自:https://www.infoq.cn/article/WA8UDIkvPiuC3krbNgNl

AI 深度学习

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:JAVA实现百度云文本内容审核
下一篇:为什么那么多开发人员用Go语言来构建自己的新项目
相关文章