深度学习中常见的打标签工具和数据集集合

集大家之所长汇集于此，希望对有需要的你能有所帮助。

（1）labelimg/labelme

这两款工具简便易行，前者主要用于对目标进行大致的标定，用于常见的框选标定，后者主要用于较为细致的轮廓标定，多用于mask rcnn等。安装也是很方便的，直接在终端下用pip install labelimg即可(至于labelme，需要先安装pyqt,所以先pip install python-qt5，然后再pip install labelme)。其使用界面如下：

深度学习中常见的打标签工具和数据集集合

（2）NLP标注工具BRAT

BRAT是一个基于web的文本标注工具，主要用于对文本的结构化标注，用BRAT生成的标注结果能够把无结构化的原始文本结构化，供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。其使用教程可参考https://blog.csdn.net/tcx1992/article/details/。标注结果示例如下：

深度学习中常见的打标签工具和数据集集合

（3）视频标注工具

CDVA（compact descriptor for video analysis），主要是基于CDVS中的紧凑视觉描述子来做视频分析，之前是紧凑视觉描述子主要应用在图像检索领域。需要制作新的数据集，对视频帧进行标注，所以根据网上一个博主的标注工具进行了一定的修改，实现的功能是在每一帧中将需要标注的区域用鼠标选取4个点，顺序是顺时针。因为四边形的范围更广，之前的一些人直接标注了矩形，但是在一些仿射变换中，往往矩形的定位效果不好，矩形定位应该比较适合于人脸定位和行人定位之中。其参考教程：

http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html。

参考链接：http://web.mit.edu/vondrick/vatic/

（4）其他标注工具

现在随着大家不断的涌入机器学习这块，标签工具的开发层出不穷，大家可以慢慢探索，像yolo_mark、BBox-Label-Tool等工具

在这里就不一一展开了。当然如果你的数据量够大，你还可以尝试一下众包，国内外有专门做这种标注业务的公司或网站，例如敲宝网、小鱼儿网、数据堂等。

二、常见的数据集

一部分来源：深度学习视觉领域常用数据集汇总

1、目标检测、分类、分割

（1）mnist

手写字体识别是深度学习入门级数据样本集，总共有70000张28*28的手写字体黑白图片，可在 http://yann.lecun.com/exdb/mnist/ 获取

深度学习中常见的打标签工具和数据集集合

（2）PASCAL VOC

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集常见的有voc2005、voc2007、voc2012等，其包括20个目录：人类；动物（鸟、猫、牛、狗、马、羊）；交通工具（飞机、自行车、船、公共汽车、小轿车、摩托车、火车）；室内（瓶子、椅子、餐桌、盆栽植物、沙发、电视）。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。数据集大小为2GB左右

下载地址： http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

深度学习中常见的打标签工具和数据集集合

（3）COCO数据集

COCO数据集由微软赞助，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述，COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展，也几乎成为了图像语义理解算法性能评价的“标准”数据集。Google开源的开源了图说生成模型show and tell就是在此数据集上测试的，想玩的可以下下来试试哈。数据集大小约为40GB 下载地址：http://mscoco.org/ ，COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集，它有如下特点：

Object segmentation
Recognition in Context
Multiple objects per image
More than 300,000 images
More than 2 Million instances
80 object categories
5 captions per image
Keypoints on 100,000 people

（4） Imagenet数据集

业界标杆 Imagenet数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，具体信息如下：

Total number of non-empty synsets: 21841
Total number of images: 14,197,122
Number of images with bounding box annotations: 1,034,908
Number of synsets with SIFT features: 1000
Number of images with SIFT features: 1.2 million

Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域，关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。由李飞飞教授及其团队创立，数据集大小：~1TB（ILSVRC2016比赛全部数据），下载地址：http://www.image-net.org/about-stats.

2、行人检测、人脸检测识别

（1）Caltech行人数据库：http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

该数据库是目前规模较大的行人数据库，采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640×480，30帧/秒。标注了约250,000帧（约137分钟），个矩形框，2300个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10，其中set00~set05为训练集，set06~set10为测试集（标注信息尚未公开）。

其他数据集可参考：行人检测：http://www.52ml.net/17004.html

（2）人脸检测：UMDFaces （http://www.umdfaces.io/ ）

不仅有人脸的目标检测数据，还有关键点的数据，非常适合做训练。

就是比较大，总共有三个文件，一共8000+个类别，总共36W张人脸图片，全都是经过标注的样本，标注信息保存在csv文件中，除了人脸的box，还有人脸特征点的方位信息，强力推荐！

（3）人脸识别数据库

2010年非约束环境人脸检测数据库FDDB,总共2845张图像，5171张，人脸非约束环境，人脸的难度较大，有面部表情，双下巴，光照变化，穿戴，夸张发型，遮挡等难点，是目标最常用的数据库。
2016年提出的，目前难度最大的WIDER FACE，共32203图像，标注人脸，目前难度最大，各种难点比较全面：尺度，姿态，遮挡，表情，化妆，光照等。
李子青组的 CASIA-WebFace(50万，1万个人). 需申请.Center for Biometrics and Security Research
华盛顿大学百万人脸MegaFace数据集. 邮件申请, 是一个60G的压缩文件. MegaFace
南洋理工 WLFDB. (70万+,6,025). 需申请. WLFDB : Weakly Labeled Faces Database
微软的MSRA-CFW ( 张, 1583人). 可以直接通过OneDrive下载.MSRA-CFW: Data Set of Celebrity Faces on the Web
汤晓欧实验室的CelebA(20万+), 标注信息丰富. 现在可以直接从百度网盘下载 Large-scale CelebFaces Attributes (CelebA) Dataset
FaceScrub. 提供图片下载链接（100,100张，530人）. vintage – resources

（4）人体姿态识别（https://blog.csdn.net/_/article/details/）

2D数据：LSP FLIC MPII MSCOCO AI Challenge

3D数据：Human3.6M数据集 CMU Panoptic dataset MPI-INF-3DHP

3、自动驾驶（https://zhuanlan.zhihu.com/p/）

（1）H3D – HRI-US – 本田研究所于2019年3月发布其无人驾驶方向数据集，使用3D LiDAR扫描仪收集的大型全环绕3D多目标检测和跟踪数据集。其包含160个拥挤且高度互动的交通场景，在27,721帧中共有100万个标记实例。凭借独特的数据集大小，丰富的注释和复杂的场景，H3D聚集在一起，以激发对全环绕3D多目标检测和跟踪的研究。

（2）nuScenes – 安波福于2019年3月正式公开了其数据集，拥有从波士顿和新加坡收集的1000个“场景”的信息，包含每个城市环境中都有的最复杂的一些驾驶场景。该数据集由140万张图像、39万次激光雷达扫描和140万个3D人工注释边界框组成，是迄今为止公布的最大的多模态3D 无人驾驶数据集。

（3）ApolloCar3D- 该数据集包含5,277个驾驶图像和超过60K的汽车实例，其中每辆汽车都配备了具有绝对模型尺寸和语义标记关键点的行业级3D CAD模型。该数据集比PASCAL3D +和KITTI（现有技术水平）大20倍以上。

（4）KUL Belgium Traffic Sign Dataset – 具有10000多个交通标志注释的大型数据集，数千个物理上不同的交通标志。用8个高分辨率摄像头录制的4个视频序列安装在一辆面包车上，总计超过3个小时，带有交通标志注释，摄像机校准和姿势。大约16000张背景图片。这些材料通过GeoAutomation在比利时，佛兰德斯地区的城市环境中捕获。

4、缺陷检测（https://blog.csdn.net/_/article/details/）

钢材表面缺陷（http://faculty.neu.edu.cn/me/songkc/Vision-based_SIS_Steel.html ）
铁轨表面缺陷数据集（http://icn.bjtu.edu.cn/Visint/resources/RSDDs.aspx）
基建表面裂纹检测数据（https://github.com/cuilimeng/CrackForest-dataset）
纺织品表面异常数据集（https://tianchi.aliyun.com/competition/entrance//information）

其他数据：

5、LSUN：用于场景理解和多任务辅助（房间布局估计，显着性预测等）地址：http://lsun.cs.princeton.edu/2016/

有：Bedroom

6、搜狗实验室数据集：http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别，总数高达2,836,535张图片。对于每张图片，数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

格式说明： 共包括三个文件：Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存储图片的相关元数据；Original_Pic中存储图片的原图；Evaluation_Data是识图搜索结果的人工标注集合。 Meta_Data文件包含所有图片的相关元数据，格式如下： 
    
    
      图片在互联网中的URL地址 
     
    
      图片所在网页的URL地址 
     
    
      图片的替换文字 
     
    
      以图片为目标的超链接的显示文本 
     
    
      页面中提取的图片上方的文本 
     
    
      页面中提取的图片下方的文本 
     
    
      图片所在网页的标题 
     
    
      图片所在网页的正文标题 
      
     
       图片的宽度 
      
     
       图片的高度 
      
     
       图片在Original_Pic下的文件名 
       
      
     
    图片原图存储在Original_Pic文件中，每个图片二进制数据保存成一个单独文件，文件名在Meta_Data的元信息中指明。 Evaluation_Data文件包含所有图片的相关元数据，格式如下： 
    
    
      查询图片在互联网中的URL地址 
     
    
      搜索结果的 PIC_URL，多个分号隔开

7、Open Image

过去几年机器学习的发展使得计算机视觉有了快速的进步，系统能够自动描述图片，对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司，自然也要做出些表示，于是乎就有了Open Image。

Open Image是一个包含~900万张图像URL的数据集，里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet（1000类）包含更真实生活的实体存在，它足够让我们从头开始训练深度神经网络。

谷歌出品，必属精品！唯一不足的可能就是它只是提供图片URL，使用起来可能不如直接提供图片方便。

此数据集，笔者也未使用过，不过google出的东西质量应该还是有保障的。

数据集大小：~1.5GB（不包括图片）

下载地址：

https://github.com/openimages/dataset

8、Youtube-8M

Youtube-8M为谷歌开源的视频数据集，视频来自youtube，共计8百万个视频，总时长50万小时，4800类。为了保证标签视频数据库的稳定性和质量，谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库，谷歌对视频进行了预处理，并提取了帧级别的特征，提取的特征被压缩到可以放到一个硬盘中（小于1.5T）。此数据集的下载提供下载脚本，由于国内网络的特殊原因，下载此数据经常断掉，不过还好下载脚本有续传功能，过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载，这样就不用一直守着了。（截至发文，断断续续的下载，笔者表示还没下完呢……）

数据集大小：~1.5TB 下载地址：https://research.google.com/youtube8m/

9、CoPhIR http://cophir.isti.cnr.it/whatis.html

雅虎发布的超大Flickr数据集，包含1亿多张图片。

10、MirFlickr1M http://press.liacs.nl/mirflickr/

Flickr数据集中挑选出的100万图像集。

11、SBU captioned photo dataset

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一个子集，包含100万的图像集。

12、NUS-WIDE http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27万的图像集。

13、MSRA-MM

http://research.microsoft.com/en-us/projects/msrammdata/

14、多物体+关系数据库：HICO & HICO-DET

15、QA型图像数据库：CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

16、Driver Speed Dataset

17、新加坡国立大学LV实验室发布多人图像解析数据集与模型

18、300k动作标注视频数据集

Kinetics 数据集包含大约30万个视频剪辑，涵盖400类人类动作，每类动作至少有400个视频剪辑。每个剪辑时长约10秒，并被标记一个动作类别。所有剪辑都经过多轮人工注释，每个剪辑都来自一个单独的 YouTube 视频。这些动作包含了广泛的人类-物体交互的动作，例如演奏乐器，以及人类-人类交互的动作，例如握手和拥抱。

Kinetics 是 ActivityNet 组织的国际人类动作分类竞赛（international human action classification competition）的基础数据集。

19、MIT 新发布大型数据集 ADE20K：用于场景感知、语义理解等多种任务

来源机器之心公众号：资源 | MIT 新发布大型数据集 ADE20K：用于场景感知、语义理解等多种任务

20、免费数据集收集网站
各领域公开数据集下载

譬如：

图像数据

场景图像

21.交通标志识别

链接：http://benchmark.ini.rub.de/?section=gtsrb&subsection=dataset

有两个数据集可用：德国交通标志识别基准（GTSRB）（大型的多类别分类基准）和德国交通标志检测基准（GTSDB）。第一个在2011年IJCNN的比赛中使用。有关详细信息，请参阅“ GTSRB ”部分。后者将在2013年2月的竞赛中展出。该竞赛已针对2013年IJCNN提出。请参阅“ GTSDB ”部分以获取更多详细信息。

22.搜索推荐

这里介绍一个做服装搜索推荐的公开数据库deep fashion，一般淘宝等电商都很喜欢的推荐的推荐算法数据集，DeepFashion 包含80W张图片，具体包含50种类别，1000个属性，4-8个关键点，同一种衣服的配对属性。有兴趣的可以去玩玩，具体链接如下，http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion/LandmarkDetection.html。

23、建筑物数据集

对于做建筑物识别的，常见的一些遥感影像建筑数据集如下

阿里天池建筑智能普查；
Open AI 坦桑尼亚建筑物数据集
AIRS 数据集
WHU 建筑物数据集
CrowdAI Mapping Challenge数据集
DeepGlobe Challenge建筑物数据集
USSOCOM 城市三维挑战数据集
Inria数据集
航空影像目标识别数据集
SpaceNet Challenge数据集
Massachusetts 建筑物数据集
ISPRS Potsdam 2D Semantic Labeling Contest (ISPRS)

24、点云数据

做三维重建可能需要用到点云数据，常见的点云数据如下

ShapeNet
ShapeNetSem
ModelNet
PASCAL3D+
佐治亚理工大型几何模型数据集
斯坦福大学计算机图形学实验室三维数据集
斯坦福计算机视觉和几何实验室数据集
SUN3D
普林斯度视觉和机器人实验室数据集
Pix3D
3D MNIST

三、一些著名研究实验室

1、生物识别与安全技术研究中心

CASIA行为分析数据库共有1446条视频数据，是由室外环境下分布在三个不同视角的摄像机拍摄而成，为行为分析提供实验数据。数据分为单人行为和多人交互行为，单人行为包括走、跑、弯腰走、跳、下蹲、晕倒、徘徊和砸车，每类行为有24人参与拍摄，每人4次左右。多人交互行为有抢劫、打斗、尾随、赶上、碰头、会合和超越，每两人1次或2次。

来源：http://www.cbsr.ia.ac.cn/china/Action%20Databases%20CH.asp

7、网页版呈现各类模型的实现

四、中文文本语料库

(一) 国家语委

1国家语委现代汉语语料库http://www.cncorpus.org/

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字，为分词和词性标注语料。

2古代汉语语料库http://www.cncorpus.org/login.aspx

网站现在还增加了一亿字的古代汉语生语料，研究古代汉语的也可以去查询和下载。同时，还提供了分词、词性标注软件、词频统计、字频统计软件，基于国家语委语料库的字频词频统计结果和发布的词表等，以供学习研究语言文字的老师同学使用。

(二) 北京大学计算语言学研究所

1《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布，供自由下载。

(三) 北京语言大学

汉语国际教育技术研发中心：HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

语言研究所：北京口语语料查询系统（B J K Y）http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

还有很多，可参考：【语料库】语料库资源汇总

百度开源的中文问答语料：

微博终结者爬虫

原文出处：链接

参考链接：

https://blog.csdn.net/Dlyldxwl/article/details/

http://www.cbdio.com/BigData/2016-10/28/content_5361410.htm

https://blog.csdn.net/tcx1992/article/details/

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/223568.html原文链接：https://javaforall.net