1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 【论文阅读】【三维目标检测】StarNet: Targeted Computation for Object Detection in Point Clouds

【论文阅读】【三维目标检测】StarNet: Targeted Computation for Object Detection in Point Clouds

时间:2021-06-06 01:28:14

相关推荐

【论文阅读】【三维目标检测】StarNet: Targeted Computation for Object Detection in Point Clouds

文章目录

StarNetCenter selectionFeaturizing local point clouds AfterConstructing final predictions from bounding box proposals实验讨论

StarNet: Targeted Computation for Object Detection in Point Clouds

Waymo出品,12月更新

StarNet

文中强调,本文的创新点和优势有如下:

本方法不对空白区域进行计算,减少对算力的要求本方法由于不适用全局特征,所以在inference的时候,可以调整proposal的数量和每个proposal中点的数量,这种设计对于运算平台是友好的,算力强的平台可以更精确,算力不强的也可以用,只不过精度低一些。在不增加额外计算的情况下,可以加入对场景先验知识,或者加入连续帧中的信息。

这里先讲一下方法的整体流程:

首先选取一些点然后以这些点做为局部坐标系的中心点,用CNN计算特征u然后在每个点的周围放置GxG个个anchor,将特征f通过CNN计算每个anchor对应的特征通过特征u,使用CNN回归box与anchor的偏差,得到预测值

伪代码在arxiv中的v1版本的paper中可以找到:

接下来我们一步一步讲。

Center selection

这部分就是如何选取一些点,首先除去地面的点。例如,除去某个高度以下的点,其实还可以通过平面拟合等方式除去地点。然后在剩下的点中使用FPS得到选取的中心点,FPS详见PointNet++。文章在实验部分还提到了,使用连续帧来选取center,可以提高检测效果。

Featurizing local point clouds After

得到选取的点后,以此作为中心点,在半径为R的邻域内选取K个点,作为CNN的输入,然后通过下图结构,得到384维的特征f。

其中具体StarNet Block与VoxelNet中的Feature Extractor类似。

Constructing final predictions from bounding box proposals

首先对于每个点,放置GxG个anchor,然后对于每个anchor,通过f计算一个D维度的特征,然后通过该特征,回归box和anchor之间的回归量。

实验

实验使用了两个数据集,KITTI和Waymo Open Dataset。实验证明如下结论:

首先验证了FPS的相比于Random Sampling的有效性对比StarNet和PointPillars的效果,StarNet在运算速度相当时,精度高很多验证了随着center点采样数量和每个proposal中点的数量(也就是计算特征f的点的数量)的增多,效果是增强的,但时间耗费更多验证了使用连续帧的效果,将上一帧的检测结果作为当前帧做center selection的先验知识的有效性

讨论

1、文中提到,在KITTI数据集上,更多的提高在于数据增强,checkpoint的选择等,而不是模型的提升。

We found that the gains in predictive performance due to data augmentation (up to +18.0, +16.9 and +30.5 mAP on car, pedestrian and cyclist respectively) were substantially larger than gains in performance observed across advances in detection architectures. Additionally, we found checkpoint selection to be extremely important due to the small size of the dataset, and submission filtering (e.g. remov- ing detections where the 2D projected height of our 3D bounding box predictions were smaller than 25 pixels so they are not erroneously labeled as false positives) unique challenges to the KITTI benchmark.

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。