深度学习中常见的打标签工具和数据集集合

深度学习中常见的打标签工具和数据集集合集大家之所长汇集于此 希望对有需要的你能有所帮助 一 打标签工具 1 labelimg labelme 这两款工具简便易行 前者主要用于对目标进行大致的标定 用于常见的框选标定 后者主要用于较为细致的轮廓标定 多用于 maskrcnn 等 安装也是很方便的 直接在终端下用 pipinstallla 即可 至于 labelme 需要先安装 pyqt 所以先 pipinsta

     集大家之所长汇集于此,希望对有需要的你能有所帮助。

一、打标签工具

(1)labelimg/labelme

这两款工具简便易行,前者主要用于对目标进行大致的标定,用于常见的框选标定,后者主要用于较为细致的轮廓标定,多用于mask rcnn等。安装也是很方便的,直接在终端下用pip install labelimg即可(至于labelme,需要先安装pyqt,所以先pip install python-qt5,然后再pip install labelme)。其使用界面如下:

深度学习中常见的打标签工具和数据集集合

深度学习中常见的打标签工具和数据集集合

(2)NLP标注工具BRAT

BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。其使用教程可参考https://blog.csdn.net/tcx1992/article/details/。标注结果示例如下:

深度学习中常见的打标签工具和数据集集合

(3)视频标注工具

CDVA(compact descriptor for video analysis),主要是基于CDVS中的紧凑视觉描述子来做视频分析,之前是紧凑视觉描述子主要应用在图像检索领域。需要制作新的数据集,对视频帧进行标注,所以根据网上一个博主的标注工具进行了一定的修改,实现的功能是在每一帧中将需要标注的区域用鼠标选取4个点,顺序是顺时针。因为四边形的范围更广,之前的一些人直接标注了矩形,但是在一些仿射变换中,往往矩形的定位效果不好,矩形定位应该比较适合于人脸定位和行人定位之中。其参考教程:

http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html。

参考链接:http://web.mit.edu/vondrick/vatic/

(4)其他标注工具

现在随着大家不断的涌入机器学习这块,标签工具的开发层出不穷,大家可以慢慢探索,像yolo_mark、BBox-Label-Tool等工具

在这里就不一一展开了。当然如果你的数据量够大,你还可以尝试一下众包,国内外有专门做这种标注业务的公司或网站,例如敲宝网、小鱼儿网、数据堂等。

 

二、常见的数据集

一部分来源:深度学习视觉领域常用数据集汇总

1、目标检测、分类、分割

(1)mnist

       手写字体识别是深度学习入门级数据样本集,总共有70000张28*28的手写字体黑白图片,可在 http://yann.lecun.com/exdb/mnist/ 获取

深度学习中常见的打标签工具和数据集集合

(2)PASCAL VOC

       PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集常见的有voc2005、voc2007、voc2012等,其包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。数据集大小为2GB左右

下载地址: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

深度学习中常见的打标签工具和数据集集合

(3)COCO数据集

     COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。Google开源的开源了图说生成模型show and tell就是在此数据集上测试的,想玩的可以下下来试试哈。数据集大小约为40GB  下载地址:http://mscoco.org/ ,COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,它有如下特点:

  • Object segmentation
  • Recognition in Context
  • Multiple objects per image
  • More than 300,000 images
  • More than 2 Million instances
  • 80 object categories
  • 5 captions per image
  • Keypoints on 100,000 people

(4) Imagenet数据集

       业界标杆 Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注,具体信息如下:

  • Total number of non-empty synsets: 21841
  • Total number of images: 14,197,122
  • Number of images with bounding box annotations: 1,034,908
  • Number of synsets with SIFT features: 1000
  • Number of images with SIFT features: 1.2 million

 Imagenet数据集是目前深度学习图像领域应用得非常多的一个领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。由李飞飞教授及其团队创立,数据集大小:~1TB(ILSVRC2016比赛全部数据),下载地址:http://www.image-net.org/about-stats.

 

2、行人检测、人脸检测识别

(1)Caltech行人 数据库:http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

该数据库是目前规模较大的行人数据库,采用车载摄像头拍摄,约10个小时左右,视频的分辨率为640×480,30帧/秒。标注了约250,000帧(约137分钟),个矩形框,2300个行人,另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集分为set00~set10,其中set00~set05为训练集,set06~set10为测试集(标注信息尚未公开)。

其他数据集可参考:行人检测:http://www.52ml.net/17004.html

(2)人脸检测:UMDFaces (http://www.umdfaces.io/ )

不仅有人脸的目标检测数据,还有关键点的数据,非常适合做训练。 

就是比较大,总共有三个文件,一共8000+个类别,总共36W张人脸图片,全都是经过标注的样本,标注信息保存在csv文件中,除了人脸的box,还有人脸特征点的方位信息,强力推荐!

(3)人脸识别数据库 

  • 2010年非约束环境人脸检测数据库FDDB,总共2845张图像,5171张,人脸非约束环境,人脸的难度较大,有面部表情,双下巴,光照变化,穿戴,夸张发型,遮挡等难点,是目标最常用的数据库。
  • 2016年提出的,目前难度最大的WIDER FACE,共32203图像,标注人脸,目前难度最大,各种难点比较全面:尺度,姿态,遮挡,表情,化妆,光照等。
  • 李子青组的 CASIA-WebFace(50万,1万个人). 需申请.Center for Biometrics and Security Research 
  • 华盛顿大学百万人脸MegaFace数据集. 邮件申请, 是一个60G的压缩文件. MegaFace 
  • 南洋理工 WLFDB. (70万+,6,025). 需申请. WLFDB : Weakly Labeled Faces Database 
  • 微软的MSRA-CFW ( 张, 1583人). 可以直接通过OneDrive下载.MSRA-CFW: Data Set of Celebrity Faces on the Web 
  • 汤晓欧实验室的CelebA(20万+), 标注信息丰富. 现在可以直接从百度网盘下载 Large-scale CelebFaces Attributes (CelebA) Dataset 
  • FaceScrub. 提供图片下载链接(100,100张,530人). vintage – resources

(4)人体姿态识别(https://blog.csdn.net/_/article/details/)

2D数据:LSP  FLIC  MPII  MSCOCO  AI Challenge

3D数据:Human3.6M数据集  CMU Panoptic dataset   MPI-INF-3DHP

 

3、自动驾驶(https://zhuanlan.zhihu.com/p/)

(1)H3D – HRI-US – 本田研究所于2019年3月发布其无人驾驶方向数据集,使用3D LiDAR扫描仪收集的大型全环绕3D多目标检测和跟踪数据集。其包含160个拥挤且高度互动的交通场景,在27,721帧中共有100万个标记实例。凭借独特的数据集大小,丰富的注释和复杂的场景,H3D聚集在一起,以激发对全环绕3D多目标检测和跟踪的研究。

(2)nuScenes – 安波福于2019年3月正式公开了其数据集,拥有从波士顿和新加坡收集的1000个“场景”的信息,包含每个城市环境中都有的最复杂的一些驾驶场景。该数据集由140万张图像、39万次激光雷达扫描和140万个3D人工注释边界框组成,是迄今为止公布的最大的多模态3D 无人驾驶数据集。

(3)ApolloCar3D- 该数据集包含5,277个驾驶图像和超过60K的汽车实例,其中每辆汽车都配备了具有绝对模型尺寸和语义标记关键点的行业级3D CAD模型。该数据集比PASCAL3D +和KITTI(现有技术水平)大20倍以上。

(4)KUL Belgium Traffic Sign Dataset – 具有10000多个交通标志注释的大型数据集,数千个物理上不同的交通标志。用8个高分辨率摄像头录制的4个视频序列安装在一辆面包车上,总计超过3个小时,带有交通标志注释,摄像机校准和姿势。大约16000张背景图片。这些材料通过GeoAutomation在比利时,佛兰德斯地区的城市环境中捕获。

 

4、缺陷检测(https://blog.csdn.net/_/article/details/

  • 钢材表面缺陷(http://faculty.neu.edu.cn/me/songkc/Vision-based_SIS_Steel.html 
  • 铁轨表面缺陷数据集(http://icn.bjtu.edu.cn/Visint/resources/RSDDs.aspx
  • 基建表面裂纹检测数据(https://github.com/cuilimeng/CrackForest-dataset
  • 纺织品表面异常数据集(https://tianchi.aliyun.com/competition/entrance//information

其他数据:

5、LSUN:用于场景理解和多任务辅助(房间布局估计,显着性预测等) 地址:http://lsun.cs.princeton.edu/2016/

有:Bedroom

6、搜狗实验室数据集:http://www.sogou.com/labs/dl/p.html

互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G

格式说明: 共包括三个文件:Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存储图片的相关元数据;Original_Pic中存储图片的原图;Evaluation_Data是识图搜索结果的人工标注集合。 Meta_Data文件包含所有图片的相关元数据,格式如下: 
    
    
      图片在互联网中的URL地址 
     
    
      图片所在网页的URL地址 
     
    
      图片的替换文字 
     
    
      以图片为目标的超链接的显示文本 
     
    
      页面中提取的图片上方的文本 
     
    
      页面中提取的图片下方的文本 
     
    
      图片所在网页的标题 
     
    
      图片所在网页的正文标题 
      
     
       图片的宽度 
      
     
       图片的高度 
      
     
       图片在Original_Pic下的文件名 
       
      
     
    图片原图存储在Original_Pic文件中,每个图片二进制数据保存成一个单独文件,文件名在Meta_Data的元信息中指明。 Evaluation_Data文件包含所有图片的相关元数据,格式如下: 
    
    
      查询图片在互联网中的URL地址 
     
    
      搜索结果的 PIC_URL,多个分号隔开 
     
   

7、Open Image

过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应。其中大部分的进展都可归因于 ImageNet 、COCO这样的数据集的公开使用。谷歌作为一家伟大的公司,自然也要做出些表示,于是乎就有了Open Image。

Open Image是一个包含~900万张图像URL的数据集,里面的图片通过标签注释被分为6000多类。该数据集中的标签要比ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。

谷歌出品,必属精品!唯一不足的可能就是它只是提供图片URL,使用起来可能不如直接提供图片方便。

此数据集,笔者也未使用过,不过google出的东西质量应该还是有保障的。

数据集大小:~1.5GB(不包括图片)

下载地址:

https://github.com/openimages/dataset

8、Youtube-8M

Youtube-8M为谷歌开源的视频数据集,视频来自youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。此数据集的下载提供下载脚本,由于国内网络的特殊原因,下载此数据经常断掉,不过还好下载脚本有续传功能,过一会儿重新连接就能再连上。可以写一个脚本检测到下载中断后就sleep一段时间然后再重新请求下载,这样就不用一直守着了。(截至发文,断断续续的下载,笔者表示还没下完呢……)

数据集大小:~1.5TB   下载地址:https://research.google.com/youtube8m/

9、CoPhIR  http://cophir.isti.cnr.it/whatis.html

雅虎发布的超大Flickr数据集,包含1亿多张图片。

10、MirFlickr1M   http://press.liacs.nl/mirflickr/

Flickr数据集中挑选出的100万图像集。

11、SBU captioned photo dataset  

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一个子集,包含100万的图像集。

12、NUS-WIDE http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27万的图像集。

13、MSRA-MM

http://research.microsoft.com/en-us/projects/msrammdata/

14、多物体+关系数据库:HICO & HICO-DET

15、QA型图像数据库:CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

16、Driver Speed Dataset

.

17、新加坡国立大学LV实验室发布多人图像解析数据集与模型

.

18、300k动作标注视频数据集

Kinetics 数据集包含大约30万个视频剪辑,涵盖400类人类动作,每类动作至少有400个视频剪辑。每个剪辑时长约10秒,并被标记一个动作类别。所有剪辑都经过多轮人工注释,每个剪辑都来自一个单独的 YouTube 视频。这些动作包含了广泛的人类-物体交互的动作,例如演奏乐器,以及人类-人类交互的动作,例如握手和拥抱。

Kinetics 是 ActivityNet 组织的国际人类动作分类竞赛(international human action classification competition)的基础数据集。

.

19、MIT 新发布大型数据集 ADE20K:用于场景感知、语义理解等多种任务

来源机器之心公众号:资源 | MIT 新发布大型数据集 ADE20K:用于场景感知、语义理解等多种任务

20、免费数据集收集网站 
各领域公开数据集下载

譬如:

图像数据

场景图像


21.交通标志识别

链接:http://benchmark.ini.rub.de/?section=gtsrb&subsection=dataset

有两个数据集可用:德国交通标志识别基准(GTSRB)(大型的多类别分类基准)和德国交通标志检测基准(GTSDB)。第一个在2011年IJCNN的比赛中使用。有关详细信息,请参阅“ GTSRB ”部分。后者将在2013年2月的竞赛中展出。该竞赛已针对2013年IJCNN提出。请参阅“ GTSDB ”部分以获取更多详细信息。

22.搜索推荐

这里介绍一个做服装搜索推荐的公开数据库deep fashion,一般淘宝等电商都很喜欢的推荐的推荐算法数据集,DeepFashion 包含80W张图片,具体包含50种类别,1000个属性,4-8个关键点,同一种衣服的配对属性。有兴趣的可以去玩玩,具体链接如下,http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion/LandmarkDetection.html。

23、建筑物数据集

对于做建筑物识别的,常见的一些遥感影像建筑数据集如下

  • 阿里天池建筑智能普查;
  • Open AI 坦桑尼亚建筑物数据集
  • AIRS 数据集
  • WHU 建筑物数据集
  • CrowdAI Mapping Challenge数据集
  • DeepGlobe Challenge建筑物数据集
  • USSOCOM 城市三维挑战数据集
  • Inria数据集
  • 航空影像目标识别数据集
  • SpaceNet Challenge数据集
  • Massachusetts 建筑物数据集
  • ISPRS Potsdam 2D Semantic Labeling Contest (ISPRS)

24、点云数据

做三维重建可能需要用到点云数据,常见的点云数据如下

  • ShapeNet
  • ShapeNetSem
  • ModelNet
  • PASCAL3D+
  • 佐治亚理工大型几何模型数据集
  • 斯坦福大学计算机图形学实验室三维数据集
  • 斯坦福计算机视觉和几何实验室数据集
  • SUN3D
  • 普林斯度视觉和机器人实验室数据集
  • Pix3D
  • 3D MNIST

 

三、一些著名研究实验室

1、生物识别与安全技术研究中心

CASIA行为分析数据库共有1446条视频数据,是由室外环境下分布在三个不同视角的摄像机拍摄而成,为行为分析提供实验数据。数据分为单人行为和多人交互行为,单人行为包括走、跑、弯腰走、跳、下蹲、晕倒、徘徊和砸车,每类行为有24人参与拍摄,每人4次左右。多人交互行为有抢劫、打斗、尾随、赶上、碰头、会合和超越,每两人1次或2次。 
  • 来源:http://www.cbsr.ia.ac.cn/china/Action%20Databases%20CH.asp

7、网页版呈现各类模型的实现


四、中文文本语料库

(一) 国家语委

1国家语委现代汉语语料库http://www.cncorpus.org/

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2古代汉语语料库http://www.cncorpus.org/login.aspx

网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

(二) 北京大学计算语言学研究所

1《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

(三) 北京语言大学

汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

语言研究所:北京口语语料查询系统(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

还有很多,可参考:【语料库】语料库资源汇总

百度开源的中文问答语料:

微博终结者爬虫

 

原文出处:链接

 

参考链接:

https://blog.csdn.net/Dlyldxwl/article/details/

http://www.cbdio.com/BigData/2016-10/28/content_5361410.htm

https://blog.csdn.net/tcx1992/article/details/

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/223568.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午1:54
下一篇 2026年3月17日 下午1:54


相关推荐

  • ubuntu下为anaconda安装opencv[通俗易懂]

    ubuntu下为anaconda安装opencv[通俗易懂]终端执行:pipinstallopencv-python

    2022年10月21日
    4
  • 硬件工程师成长之路(9)——检测标准

    硬件工程师成长之路(9)——检测标准系列文章目录1.元件基础2.电路设计3.PCB设计4.元件焊接6.程序设计文章目录前言一、防爆认证前言送给大学毕业后找不到奋斗方向的你(每周不定时更新)嵌入式系统设计师考试一、防爆认证详细资料………………

    2025年9月17日
    10
  • 国内升级Cursor Pro 五千次额度的充值订阅教程

    国内升级Cursor Pro 五千次额度的充值订阅教程

    2026年3月15日
    2
  • 如何使用等价类划分法编写测试用例的结果_划分等价类设计测试用例

    如何使用等价类划分法编写测试用例的结果_划分等价类设计测试用例案例:如下图所示的一个两位整数加法器,需求分析中要求:①第一个数和第二个数都是只能输入-99到99之间的整数②对于输入的小于-99的数据或者大于99的数据,程序应给出明确提示③对于输入的小数、字符等非法数据,程序应给出明确提示基于上述需求,使用等价类划分法编写测试用例的步骤如下:1.根据需求分析,建立等价类表(1)有效等价类表编号数据要求1-99——0之间的整…

    2022年10月17日
    4
  • poetry和poet_什么是poetry

    poetry和poet_什么是poetryPoetry的基本使用准备工作如果你是在一个已有的项目里使用Poetry,你只需要执行poetryinit命令来创建一个pyproject.toml文件:poetryinit可看到

    2022年7月29日
    5
  • 软件测试期末考试复习题

    软件测试期末考试复习题一、选择题1.在软件测试阶段,测试步骤按次序可以划分为以下几步:(A)A、单元测试、集成测试、系统测试、验收测试B、验收测试、单元测试、系统测试、集成测试C、单元测试、集成测试、验收测试、系统测试D、系统测试、单元测试、集成测试、验收测试2.软件测试技术可以分为静态测试和动态测试,下列说法中错误的是(D)。A、静态测试是指不运行实际程序,通过检查和…

    2022年10月4日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号