Press "Enter" to skip to content

深度学习领域语义分割常用数据集:PASCAL VOC 2007 ,2012 NYUDv2 SUNRGBD CityScapes CamVid SIFT…

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

目录

 

3.PASCAL VOC 2007数据集

 

(2)数据集下载http://host.robots.ox.ac.uk/pascal/VOC/voc2007/#testdata

 

4.PASCAL VOC 2012数据集

 

1.常用数据集适用场景

语义分割常用数据集
数据集主题类别训练验证测试总数
SUNRGBD室内场景3726662619505010335
NYUDv2室内场景407956541449
PASCAL VOC 2007综合场景2050115823495215786
PASCAL VOC 2012综合场景20146414492913
CityScapes道路场景30297550015255000
CamVid道路场景11367100233700
SIFT-Flow自然场景332688

 

2.SUNRGBD 数据集

 

(1)数据集介绍

 

数据集由四个不同的传感器捕获,包含 10,000 张 RGB-D 图像,其规模与 PASCAL VOC 相似。整个数据集经过密集注释,包括 146,617 个 2D 多边形和 58,657 个具有准确对象方向的 3D 边界框,以及场景的 3D 房间布局和类别。

 

3D 对象检测是场景理解的一项基本任务。在这项任务中,主要专注于预测现实世界维度中的 3D 边界框,以包含对象的全部范围。测试数据由 2860 张新获取的 RGB-D 图像组成,这些图像的真实边界框不公开。我们使用现有的 SUNRGB-D 数据集作为训练数据。此挑战赛由 CVPR 中 的 LSUN 挑战赛主办。

 

视频介绍:

 

http://rgbd.cs.princeton.edu/sunrgbd_comp.mp4

 

(2)数据集下载

 

http://rgbd.cs.princeton.edu/challenge.html

 

 

(3)数据集类别

 

wall      墙
floor     地板
cabinet   内阁
bed       床
chair     椅子
sofa      沙发
table     卓子
door      门
window    窗户
bookshelf 书架
picture   图片
counter   柜台
blinds    百叶窗
desk      书桌
shelves   货架
curtain   窗帘
dresser   梳妆台
pillow    枕头
mirror    镜子
floor_mat 地板垫
clothes   衣服
ceiling   天花板
books     书
fridge    冰箱
tv        电视
paper     纸张
towel     毛巾
shower_curtain 沐浴帘
box       盒子
whiteboard 白板
person    人
night_stand 夜间看台
toilet     坐便器
sink       下沉
lamp        灯
bathtub     浴盆
bag         纸袋

 

(4)数据集的标注

 

 

三维对象方向:

 

 

三维对象边框:

 

 

场景分类:

 

 

语义分割:

 

 

3.PASCAL VOC 2007数据集

 

(1)数据集介绍

 

PASCAL VOC挑战赛 (The PASCAL Visual Object Classes )是一个世界级的计算机视觉挑战赛,PASCAL全称:Pattern Analysis, Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。PASCAL VOC挑战赛主要包括以下几类:图像分类(Object Classification),目标检测(Object Detection),目标分割(Object Segmentation),行为识别(Action Classification) 等。

 

PASCAL VOC数据集为图像识别和分类提供了一整套标准化的优秀的数据集,从2005年到2012年每一年都会举行一场图像识别Challenge.

 

PASCAL 2007作为标准的数据集,是衡量图片分类识别能力的基准。Faster-RCNN,YOLO系列都是以此数据集为样式样例。包含了20个类别数。

 

 

 

(2)数据集下载

http://host.robots.ox.ac.uk/pascal/VOC/voc2007/#testdata

 

 

(3)数据集包含类别

 

aeroplane  飞机
bicycle  自行车
bird  鸟
boat  船
bottle  瓶
bus  公交车
car  汽车
cat  猫
chair 椅子
cow  母牛
dining table  餐桌
dog  狗
horse  马
motorbike  摩托车  
person  人
potte dplant  盆栽植物
sheep  羊
sofa  沙发
train  火车
tv monitor  电视显示器

 

图像的目标统计

 

 

(4)数据集文件结构

 

 

和下面介绍的PASCAL VOC 2012数据集文件结构差不多的。

 

4.PASCAL VOC 2012数据集

 

(1)数据集介绍

 

PASCAL VOC挑战赛 (The PASCAL Visual Object Classes )是一个世界级的计算机视觉挑战赛,PASCAL全称:Pattern Analysis, Statical Modeling and Computational Learning,是一个由欧盟资助的网络组织。PASCAL VOC挑战赛主要包括以下几类:图像分类(Object Classification),目标检测(Object Detection),目标分割(Object Segmentation),行为识别(Action Classification) 等。

 

 

(2)数据集下载

 

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/#devkit

 

 

 

 

(3)数据集包含类别

 

aeroplane  飞机
bicycle  自行车
bird  鸟
boat  船
bottle  瓶
bus  公交车
car  汽车
cat  猫
chair 椅子
cow  母牛
dining table  餐桌
dog  狗
horse  马
motorbike  摩托车  
person  人
potte dplant  盆栽植物
sheep  羊
sofa  沙发
train  火车
tv monitor  电视显示器

 

图像包含目标统计

 

 

(4)数据集文件结构

 

 

 

Annotations文件中的.XML文件信息:

 

 

 

图片分割的信息

 

 

 

图片信息:

 

 

图片分割信息:

 

 

5.CityScapes 数据集

 

(1)数据集介绍

 

Cityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。Cityscapes数据集,即城市景观数据集,这是一个新的大规模数据集,其中包含一组不同的立体视频序列,记录在50个不同城市的街道场景。

 

城市景观数据集中于对城市街道场景的语义理解图片数据集,该大型数据集包含来自50个不同城市的街道场景中记录的多种立体视频序列,除了20000个弱注释帧以外,还包含5000帧高质量像素级注释。因此,数据集的数量级要比以前的数据集大的多。Cityscapes数据集共有fine和coarse两套评测标准,前者提供5000张精细标注的图像,后者提供5000张精细标注外加20000张粗糙标注的图像。

 

该数据集主要是:

 

(1)评价视觉算法在城市场景语义理解的主要任务中的性能:像素级、实例级、全景语义标注任务;

 

(2)支持旨在利用大量(弱)注释数据的研究,例如用于训练深度神经网络。

 

标签任务: https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task

 

特征(数据集的整体结构)

 

多边形注释

密集语义分割
车辆和人的实例分割

复杂

30个类别
有关所有类的列表,以下已给出数据集的类别名称。

多样性

50个城市
几个月(春、夏、秋)
白天
良好/中等天气条件
手动选择的帧

大量动态对象
多变的场景布局
变化的背景 体积

5 000 张带有精细注释的注释图像,如下图

20 000 张带有粗略注释的带注释图像,如下图

 

https://www.cityscapes-dataset.com/examples/#videos

 

第一个视频包含大约 1000 张带有高质量注释的图像。第二个视频使用相应的右立体视图可视化预先计算的深度图。最后一个视频是从长视频记录中提取的,并将 GPS 位置可视化为数据集元数据的一部分。

 

 

元数据

前面和后面的视频帧。每个带注释的图像是30 帧视频片段(1.8 秒)中的第 20个图像
对应的右立体视图
GPS坐标
来自车辆里程计的自我运动数据
来自车辆传感器的外部温度

其他研究人员的扩展

人的边界框注释
增加了雾和雨的图像

基准套件和评估服务器

像素级语义标注
实例级语义标注
全景语义标注

标注原则:

 

* 标记的前景对象绝不能有孔洞,即,如果有一些“透过”某个前景对象可见的背景,则它被认为是前景的一部分。这也适用于与两个或更多类高度混合的区域:它们被标记为前景类。示例:房屋或天空前的树叶(所有的树)、透明的车窗(所有的汽车)。

 

(2)官网地址

 

https://www.cityscapes-dataset.com/

 

 

(3)数据集的类别

 

 

对应中文名称:

 

 

CityScapes 数据集类别定义
分组类别名称
flat-平地路,人行道,停车场+,轨道+
human-人人*,骑手*
vehicle-交通工具汽车*,卡车*,公交车*,在轨车*,摩托车*,自行车*,大篷车*+,拖车*+
construction-建筑建筑物,墙,栅栏,护栏+,桥+,隧道+
object-物体电线杆,杆组+,交通标志,交通灯
nature-自然植被,地形
sky-天空天空
void-空的地面+,动态+,静止+

 

注:

* 单实例注释可用。但是,如果不能清楚地看到这些实例之间的边界,则将整个人群/组标记在一起并注释为组,例如汽车组。
+ 此标签不包括在任何评估中并被视为无效(或在 车牌 作为车辆安装的情况下)。

关于CityScapes 数据集文件结构,读者可自行到官网下载(有点大)。

 

6.CamVid数据集

 

(1)数据集介绍

 

CamVid(The Cambridge-driving Labeled Video Database)数据集由剑桥大学工程系于2008年发布,相关论文介绍《Segmentation and Recognition Using Structure from Motion Point Clouds》,是第一个具有目标类别语义标签的视频集合。数据库提供了32个ground truth语义标签,将每个像素与语义类别之一相关联。该数据库解决了对实验数据的需求,以定量评估新兴算法。数据是从驾驶汽车的角度拍摄的,驾驶场景增加了观察目标的数量和异质性。

 

(2)数据集下载

 

来自视频的类别标签图片:

 

http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/data/LabeledApproved_full.zip

 

https://pan.baidu.com/s/1E50QplXMcZISlFV5RN4CLg

 

 

(3)数据集包含类别

 

数据集包 括 700 张精准标注的图片用于强监督学习,可分为训练集、验证集、测试集。同时, 在 CamVid 数据集中通常使用 11 种常用的类别来进行分割精度的评估.

 

 

CamVid数据集类别
Group(组)Classes(类别)
Persons(人)pedestrian(行人)
Vehicals(交通工具)car(汽车),bicyclist(自行车)
Constructions(建筑物)fence(围墙),building(建筑物)
Sky(天空)sky(天空)
Object(目标)pole(电线杆),symbol(交通标志)
nature(自然)tree(树木)
flat(平地)sidewalk(行人道),road(路)

 

类别标签颜色:

 

 

64 128 64Animal
192 0 128Archway
0 128 192Bicyclist
0 128 64Bridge
128 0 0Building
64 0 128Car
64 0 192CartLuggagePram
192 128 64Child
192 192 128Column_Pole
64 64 128Fence
128 0 192LaneMkgsDriv
192 0 64LaneMkgsNonDriv
128 128 64Misc_Text
192 0 192MotorcycleScooter
128 64 64OtherMoving
64 192 128ParkingBlock
64 64 0Pedestrian
128 64 128Road
128 128 192RoadShoulder
0 0 192Sidewalk
192 128 128SignSymbol
128 128 128Sky
64 128 192SUVPickupTruck
0 0 64TrafficCone
0 64 64TrafficLight
192 64 128Train
128 128 0Tree
192 128 192Truck_Bus
64 0 64Tunnel
192 192 0VegetationMisc
0 0 0Void
64 192 0Wall

 

类别细分

 

 

类别数量分布:

 

 

(4)数据集文件结构

 

 

7.SIFT-Flow数据集

 

(1)数据集介绍

 

SIFT Flow是一个包含2688个图像的数据集,具有像素标签对于33个语义类别(“桥”、“山”、“太阳”),以及三个几何类别(“水平”、“垂直”和“天空”)。

 

(2)数据集下载

 

https://pan.baidu.com/s/1dFxaAtj

 

 

(3)数据集类别

 

awning     雨蓬
balcony    阳台
bird       鸟
boat       船
bridge     桥
building   建筑
bus        大巴车
car        小汽车
cow        牛
crosswalk  十字路口
desert     沙漠
door       门
fence      栅栏
field      牧场
grass      草
moon       月亮
mountain   山
person     人
plant      植物
pole       杆
river      河流
road       公路
rock       岩石
sand       沙滩
sea        海
sidewalk   人行道
sign       指示牌
sky        天空
staircase  楼梯
streetlight路灯
sun        太阳
tree       树
window     窗户

 

8.NYUDv2 数据集

 

(1)数据集介绍

 

NYU-Depth V2 数据集由来自各种室内场景的视频序列组成,这些视频序列由 Microsoft  Kinect 的 RGB 和深度相机记录。它的特点:

1449个密集标记的对齐 RGB 和深度图像对
来自3个城市的464个新场景
407,024 个新的未标记帧
每个对象都标有一个类和一个实例编号(cup1、cup2、cup3 等)

数据集有几个组成部分:

标签:视频数据的子集,伴随着密集的多类标签。该数据也经过预处理以填充缺失的深度标签。
Raw:Kinect 提供的原始 rgb、深度和加速度计数据。
工具箱:用于操作数据和标签的有用功能。

(2)数据集下载

 

https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html

 

 

 

https://cs.nyu.edu/~silberman/datasets/

 

 

(3)数据集类别

 

wall        墙
floor       地板
cabinet     内阁
bed         床
chair       椅子
sofa        沙发
table       卓子
door        门
window      窗子
bookshelf   书架
picture     图片
counter     柜台
blinds      百叶窗
desk        书桌
shelves     货架
curtain     窗帘
dresser     梳妆台
pillow      枕头
mirror      镜子
floor mat   地板垫
clothes     衣服
ceiling     天花板
books       书
refridgerator 制冷剂发生器
television   电视机
paper        纸张
towel        毛巾
shower curtain 沐浴帘
box          盒子
whiteboard   白板
person       人
night stand  床头柜
toilet       坐便器
sink         下沉
lamp          灯
bathtub       浴盆
bag           纸袋
otherstructure 其他结构
otherfurniture 其他家具
otherprop      其他支柱

 

注:读者如果想要更多的了解上面的数据集,需要读者自己根据上面给出的官网连接去研究。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。