MaskedFusion

MaskedFusion: Mask-based 6D Object Pose Estimation

来源：ICMLA

代码：https://github.com/kroglice/MaskedFusion

引用量：3

现实中的物体存在遮挡(occlusions)和截断(truncations)等情况。

直接从RGB-D数据中回归姿态。

包含三个串行的子任务：

Alt text

1. Semantic Segmentation
该模块使用FCN做语义分割，得到mask，用mask对RGB和深度图像进行裁剪（按位与）。

然后将RGB(D)的裁剪结果用矩形框起来，得到小一些的图，把这种小图连同对应mask输入6D pose NN，以预测姿态。

2. 6D Pose Neural Network

该模块包括两部分：feature extraction 和 6D pose estimation

(1) feature extraction

裁剪后的深度图转为了点云，用PointNet提特征；

裁剪后的RGB和mask用FCN提特征。

(2) 6D pose estimation

将上一步提取的特征concat起来，作为预测姿态的特征。

损失函数和DenseFusion中一样：
Alt text

其中，$x_j$是从物体的3D模型中随机挑选的点，共$M$个。

(3) Pose Refinement

同DenseFusion。

Alt text