用深度学习做命名实体识别(三)：文本数据标注过程

全栈程序员-站长 • 2025年12月14日下午7:15 • 未分类 • 阅读 8

上一篇文章，我们介绍了brat的安装和配置，当成功安装和配置好了brat，我们就可以进行文本标注了。

首先，在brat项目的data目录下新建一个project目录，然后在brat项目的主目录下找到以下文件，复制到project目录：

主目录：/var/www/html/brat
project目录：/var/www/html/brat/data/project
要复制的文件：

我们来看一下这几个文件分别是做什么的。

annotation.conf
这个是配置文件，内容如下：

[entities] # Definition of entities. # Format is a simple list with one type per line. 时间 地点 人名 组织名 公司名 产品名

visual.conf

这也是配置文件，可以配置不同的类别用不同的颜色显示，找到如下段落，更新内容：

[drawing] 时间 bgColor:yellow 地点 bgColor:blue, fgColor:white 人名 bgColor:deepskyblue 组织名 bgColor:green, fgColor:white 公司名 bgColor:purple, fgColor:white 产品名 bgColor:pink

mayun.txt

这是我们要标注的原文件，里面的内容片段如下（这里已经根据句号进行过分句处理，是因为不希望每个训练样本太长，建议控制在500字符内）：

1964年9月10日，马云出生在杭州。 幼年的马云在人们的眼中是典型的坏孩子：叛逆、倔强、爱打架、逞强、顽皮淘气。 马云的父亲虽然是典型的江南人，但脾气却很火暴，马云从小在父亲拳脚下长大。 马云是看金庸的武侠小说长大的，行侠仗义、打抱不平的“侠义”情结在少年马云的内心深处早已生根、萌芽。

mayun.ann是一个空文件，使用brat对mayun.txt的标注结果，会记录在ann文件中。

T1,T2所在的列，表示标注的类型和序号，比如如果是标注的实体间的关系会用R表示，这里因为只讨论命名实体，不涉及实体间的关系，所以只要知道这个T表示什么就可以了；
人名，公司名所在列表示标注词汇的实体类别；
第三、四列是标注词汇在整个txt中的起始和(结束索引+1)
最后一列是就是标注的词汇列

标注完成后，我们就有了mayun.txt和mayun.ann两个对应的文件。关于如何使用这两个文件，将在下一篇《用深度学习做命名实体识别(四)：模型训练》中介绍。

ok，本篇就这么多内容啦~，感谢阅读O(∩_∩)O，88~

用深度学习做命名实体识别(三)：文本数据标注过程

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/231412.html原文链接：https://javaforall.net

用深度学习做命名实体识别(三)：文本数据标注过程

关于作者

全栈程序员-站长

发表回复

用深度学习做命名实体识别(三)：文本数据标注过程

关于作者

全栈程序员-站长

相关推荐

第一范式、第二范式及第三范式的定义与举例

compound extreme_EXTRASUPERTADARISE

黑盒测试、白盒测试到底差别是什么？

如何利用C/C++逐行读取txt文件中的字符串(可以顺便实现文本文件的复制)

nginx正向代理的配置及实现

Bouncycastle_Bouncy什么意思

发表回复