深度学习论文导航 | 12 PointNet:深度学习在3D点云分类与分割上的应用

网友投稿 834 2022-05-30

大家好!我是【AI 菌】,一枚爱弹吉他的程序员。我热爱AI、热爱分享、热爱开源! 这博客是我对学习的一点总结与思考。如果您也对 深度学习、机器视觉数据结构与算法、编程 等感兴趣,可以关注我的动态,我们一起学习,一起进步~

我的博客地址为:【AI 菌】的博客

我的Github项目地址是:【AI 菌】的Github

资源传送门:

原论文地址:PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

开源项目地址:TensorFlow1.0实现 、PyTorch1.0实现

文章目录

1. PointNet简介

2. 提出背景

3. 网络结构

4. 模型的特点

5. 理论分析

6. 性能与效果

1. PointNet简介

PointNet,由斯坦福大学的Charles R. Qi等人在CVPR2017上发表,是一个端对端的神经网络,可以直接将点云数据作为输入,通过学习,实现对3D点云数据目标的分类与分割。

点云是一种重要的几何数据结构。由于其格式不规则,大多数研究人员将这些数据转换为规则的三维体素网格或图像,以便于通过深度学习中的卷积操作进行权值共享、优化kernel参数等。但是,这会使得数据变得不必要的庞大,并导致一些问题。

PointNet的效果很好,并且对输入的扰动等具有很好的鲁棒性,它的表现性能达到了当时最先进的水平。PointNet的三个重要应用方面如下图所示:

2. 提出背景

从数据结构的角度来看,点云是一组无序的向量。虽然深度学习的大部分工作都集中在常规的输入表示上,如序列(语音和语言处理)、图像和体积(视频或三维数据),但在点云的深度学习方面却做得很少。这主要是因为点云具有三个特征:无序性、稀疏性、信息量有限。

Oriol Vinyals等人最近的一项工作研究了这个问题。他们使用带注意机制的读写网络来输入无序的集合,并显示他们的网络具有对数字排序的能力。在欧式空间中的点云集合具有三个特点:

无序性。点云是一组没有特定顺序的点。

点之间的相互作用。这些点来自具有距离度量的空间,这意味着点不是孤立的,相邻的点可以形成一个有意义的子集。因此,模型需要能够从邻近点捕捉局部结构,以及局部结构之间的相互作用。

变换下的不变性。比如点云整体的旋转和平移不应该影响它的分类或者分割。

3. 网络结构

输入是包含n个点的三维点云(x, y, z) , 原始数据通过一个3D 空间变换矩阵预测网络 T-Net(3),估计出3x3的变换矩阵T(3) 并作用在原始数据上,实现数据的对齐。对齐后的数据会以点为单位,通过一个共享参数的双层感知机模型mlp进行特征提取 。每个点提取出64维的特征,再通过特征空间变换矩阵预测网络 T-Net(64) 预测64x64的变换矩阵,作用到特征上,实现对特征的对齐。然后继续利用三层感知机(64,128,1024)进行以特征点为单位的特征提取,直到把特征的维度变为1024,继而在特征空间的维度上进行Max Pooling,提取出点云的全局特征向量global feature。

一方面,全局特征向量经过三层感知机模型,得到k分类输出,实现k分类任务。

另一方面,全局特征向量与前面的64维特征向量concat,通过三层感知机模型得到128维的点特征point features,再经过两层感知机模型,得到n*m的特征向量。n表示输入点的个数,m表示每个点所属的类别信息,从而完成分割任务。

4. 模型的特点

深度学习论文导航 | 12 PointNet:深度学习在3D点云分类与分割上的应用

无序输入的对称函数。为了使模型对输入排列保持不变性,有三种策略:1)将输入按规范顺序排序;2)将输入视为训练RNN的序列,但通过各种置换来扩充训练数据;3)使用简单的对称函数来聚合每个点的信息。这里,一个对称函数以n个向量作为输入,并输出一个新的向量,该向量与输入顺序不变。例如,+和*运算符是对称的二进制函数。

用一个多层感知器网络来近似h,用一个单变量函数和一个最大池函数的组合来近似g。实验证明这种方法很有效。通过h的集合,我们可以学习一些f来捕捉集合的不同性质。

局部和全局信息融合。点分割需要结合局部和全局知识。具体做法是:在计算出全局点云特征向量后,将全局特征与每个点特征连接起来,然后,基于合并的点特征通过3层mlp提取新的逐点特征,提取出的每点特征能同时感知局部和全局信息。

连结对齐网络。如果点云经过一定的几何变换,如刚性变换,则点云的语义标注必须是不变的。因此,我们期望由我们的点集学习的表示对这些变换是不变的。我们通过一个小型网络T-Net预测仿射变换矩阵,并将此变换直接应用于输入点的坐标。小网络本身类似于大网络,由点无关特征提取、最大池和全连通层等基本模块组成。

这种思想还可以进一步扩展到特征空间的对齐。我们可以在点特征上插入另一个对齐网络,并预测一个特征转换矩阵来对齐来自不同输入点云的特征。然而,特征空间中的变换矩阵维数远高于空间变换矩阵,这大大增加了优化的难度。因此,我们在softmax训练损失中添加了一个正则化项。我们将特征变换矩阵约束为接近正交矩阵:

其中A是由小型网络预测的特征对齐矩阵。正交变换不会丢失输入中的信息,因此是需要的。我们发现通过加入正则化项,优化变得更加稳定,我们的模型获得了更好的性能。

5. 理论分析

证明了神经网络对连续集函数的普遍逼近能力。通过集合函数的连续性,直观地看,对输入点集的一个小扰动不应使函数值发生很大的变化,如分类或分割得分。

定理2(a)说明对于任何输入数据集,都存在一个关键集和一个最大集,使得对和之间的任何集合,其网络输出都和一样。这也就是说,模型对输入数据在有噪声和有数据损坏的情况都是鲁棒的。

定理2(b)说明了关键集的数据多少由maxpooling操作输出数据的维度K给出上界(框架图中为1024)。个角度来讲,PointNet能够总结出表示某类物体形状的关键点,基于这些关键点PointNet能够判别物体的类别。这样的能力决定了PointNet对噪声和数据缺失的鲁棒性。

6. 性能与效果

3D Object Classification 。在ModelNet40形状分类基准上评估模型,该数据集有12311个CAD模型,来自40个人造目标的类别,9843个数据作为训练集,2468个数据作为测试集。

3D Object Part Segmentation。部件分割是一项具有挑战性的细粒度三维识别任务。给定3D扫描或网格模型,任务是为每个点或面指定部件类别标签(例如椅子腿、杯柄)。

Semantic Segmentation in Scenes。零部件分割网络可以很容易地扩展到语义场景分割,其中点标签变成语义目标类,而不是对象部分标签。

室内场景的目标分割效果:

最好的关系是互相成就,各位的「三连」就是【AI 菌】创作的最大动力,我们下期见!

深度学习 网络

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:linux环境下使用Monte Carlo计算π
下一篇:【高并发】要想学好并发编程,关键是要理解这三个核心问题
相关文章