2018-CVPR-美国康乃尔大学-MegaDepth: Learning Single-View Depth Prediction from Internet Photos

以(RGB图像、深度图)对的形式进行的完全一般训练数据很难收集。像Kinect这样的商用RGB-D传感器已经被广泛用于这种目的,但仅限于室内使用。激光扫描仪已经启用了一些重要的数据集,如Make3D[29]和KITTI[25],但是这些设备操作起来很麻烦(在工业扫描仪的情况下),或者制作稀疏深度地图(在激光雷达的情况下)。

我们首先从Flickr下载网络照片,从Landmarks10K数据集[21]中获取一组拍摄良好的地标。然后我们用最先进的SfM和MVS方法在3D中重建每个地标。这就产生了一个SfM模型以及每个重建图像的稠密深度图。然而,这些深度图有明显的噪声和异常值,在这些原始深度数据上训练一个深度网络不会产生有用的预测。因此,我们提出了一系列的处理步骤,准备这些深度映射用于学习,并另外使用语义分割来自动生成序数深度数据。

我们使用COLMAP,一个最先进的SfM系统30和MVS系统32,从每个照片集合中构建一个3D模型。

提出了两种新的深度细化方法来生成高质量的训练数据:

应用中值滤波器来移除不稳定的深度值。

利用语义分割来增强和过滤深度地图 (怎么过滤?)

130K的有效图像。在这130K的照片中,欧几里德深度数据使用了大约100K的图像,剩下的30K图像用于派生序数深度数据。我们还将来自[18]的图像包含在我们的训练集中。这些数据一起组成了MegaDepth (MD)数据集,地址:http://www.cs.cornell.edu/projects/megadepth/。
https://blog.csdn.net/uniqueyyc/article/details/83061595

从海量互联网图片中生成的用于单目深度估计数据集
网络结构,评估了VGG,“hourglass”网络以及ResNet,确定“hourglass”网络最佳;
http://www.sohu.com/a/242760146_715754

主页
https://research.cs.cornell.edu/megadepth/

作者主页
http://www.cs.cornell.edu/~zl548/

代码
https://github.com/zhengqili/MegaDepth

From your training codes (image_folder.py), the hd5 file should contain keys like '/targets/gt_depth', '/targets/mask' and '/targets/sky_map'. However, I only find the key 'depth'. 
https://github.com/zhengqili/MegaDepth/issues/30

automatic ordinal depth labeling
https://github.com/zhengqili/MegaDepth/issues/16


版权声明:本文为kl1411原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。