用深度学习做命名实体识别(三):文本数据标注过程

用深度学习做命名实体识别(三):文本数据标注过程上一篇文章 我们介绍了 brat 的安装和配置 当成功安装和配置好了 brat 我们就可以进行文本标注了 首先 在 brat 项目的 data 目录下新建一个 project 目录 然后在 brat 项目的主目录下找到以下文件 复制到 project 目录 主目录 var www html brat pro

上一篇文章,我们介绍了brat的安装和配置,当成功安装和配置好了brat,我们就可以进行文本标注了。

首先,在brat项目的data目录下新建一个project目录,然后在brat项目的主目录下找到以下文件,复制到project目录:

  • 主目录:/var/www/html/brat
  • project目录:/var/www/html/brat/data/project
  • 要复制的文件:
    670a9144f3747d92fcf542851d8a4f64.png

我们来看一下这几个文件分别是做什么的。

  • annotation.conf
    这个是配置文件,内容如下:
[entities] # Definition of entities. # Format is a simple list with one type per line. 时间 地点 人名 组织名 公司名 产品名

 

  • visual.conf

这也是配置文件,可以配置不同的类别用不同的颜色显示,找到如下段落,更新内容:

[drawing] 时间 bgColor:yellow 地点 bgColor:blue, fgColor:white 人名 bgColor:deepskyblue 组织名 bgColor:green, fgColor:white 公司名 bgColor:purple, fgColor:white 产品名 bgColor:pink

 

  • mayun.txt

这是我们要标注的原文件,里面的内容片段如下(这里已经根据句号进行过分句处理,是因为不希望每个训练样本太长,建议控制在500字符内):

1964年9月10日,马云出生在杭州。 幼年的马云在人们的眼中是典型的坏孩子:叛逆、倔强、爱打架、逞强、顽皮淘气。 马云的父亲虽然是典型的江南人,但脾气却很火暴,马云从小在父亲拳脚下长大。 马云是看金庸的武侠小说长大的,行侠仗义、打抱不平的“侠义”情结在少年马云的内心深处早已生根、萌芽。

 

mayun.ann是一个空文件,使用brat对mayun.txt的标注结果,会记录在ann文件中。

  • T1,T2所在的列,表示标注的类型和序号,比如如果是标注的实体间的关系会用R表示,这里因为只讨论命名实体,不涉及实体间的关系,所以只要知道这个T表示什么就可以了;
  • 人名,公司名所在列表示标注词汇的实体类别;
  • 第三、四列是标注词汇在整个txt中的起始和(结束索引+1)
  • 最后一列是就是标注的词汇列

标注完成后,我们就有了mayun.txt和mayun.ann两个对应的文件。关于如何使用这两个文件,将在下一篇《用深度学习做命名实体识别(四):模型训练》中介绍。

ok,本篇就这么多内容啦~,感谢阅读O(∩_∩)O,88~

用深度学习做命名实体识别(三):文本数据标注过程

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/231412.html原文链接:https://javaforall.net

(0)
上一篇 2025年12月14日 下午7:01
下一篇 2025年12月14日 下午7:22


相关推荐

  • 第一范式、第二范式及第三范式的定义与举例

    第一范式、第二范式及第三范式的定义与举例第一范式存在非主属性对码的部分依赖关系R(A,B,C)AB是码C是非主属性B–>CB决定CC部分依赖于B第一范式定义:如果关系R中所有属性的值域都是单纯域,那么关系模式R是第一范式的那么符合第一模式的特点就有1)有主关键字2)主键不能为空,3)主键不能重复,4)字段不可以再分例如: StudyNo  |  Name  |  Sex  

    2022年5月22日
    66
  • compound extreme_EXTRASUPERTADARISE

    compound extreme_EXTRASUPERTADARISE
     
    安装要求
    1、Servlet2.3或更高
    2、JDK1.3.1或更高
    最小的Jars需求
    1、commons-beanutils1.6
    2、commons-collections3.0
    3、commons-lang2.0
    4、commons-logging1.0.4
    5、standard1.0.2
    PDF导出要用到的包:
    1、avalon-framew

    2022年8月20日
    8
  • 黑盒测试、白盒测试到底差别是什么?

    黑盒测试、白盒测试到底差别是什么?邓小平曾言:不管白猫、黑猫,能抓到老鼠就是好猫。如果用在软件测试领域,这句话也一点都没错。不管黑盒、白盒,能找出Bug、发现缺陷,保证软件质量才是王道。对于刚踏足软件测试的新手小白来说,黑盒测试、

    2022年7月1日
    25
  • 如何利用C/C++逐行读取txt文件中的字符串(可以顺便实现文本文件的复制)

    如何利用C/C++逐行读取txt文件中的字符串(可以顺便实现文本文件的复制)本文代码都在Windows/VC++6.0下测试过,在linux/g++下也没有问题。但是,请一定注意linux和Windows文件格式的区别,比如:1.当linux上的代码读取Windows文件格式时,读取结果的每行都会多一个\r,想想为什么。2.当Windows上的代码读取linux格式文件时,读取的结果会显示只有一行,想想为什么。

    2022年6月2日
    35
  • nginx正向代理的配置及实现

    nginx正向代理的配置及实现正向代理 如果把局域网外的 Internet 想象成一个巨大的资源库 则局域网中的客户端要访问 Internet 则需要通过代理服务器来访问 这种代理服务就称为正向代理 目前现状 只有 1 个机器能上网 web 其他机器不能方法 能上网的做一个代理 web 服务器中转 其他机器连接它即可 采用 nginx1 到 nginx 的官网中 http nginx org en download html 下载 Linux 版本的安装包 我下载的版本为 2 源码安装 a tar

    2026年3月26日
    3
  • Bouncycastle_Bouncy什么意思

    Bouncycastle_Bouncy什么意思1、BouncyCastle简介BouncyCastle是一款开源的密码包,其中包含了大量的密码算法,使用BouncyCastle的目的就是为了扩充算法支持下载地址最新加密组件包http://w

    2022年8月3日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号