gff文件_GFF文件格式说明

gff文件_GFF文件格式说明gff 格式是 Sanger 研究所定义 是一种简单的 方便的对于 DNA RNA 以及蛋白质序列的特征进行描述的一种数据格式 比如序列的那里到那里是基因 已经成为序列注释的通用格式 比如基因组的基因预测 许多软件都支持输入或者输出 gff 格式 目前格式定义的最新版本是版本 3 原始定义见 SONGwebsiteg 是纯文本文件 由 tab 键隔开的 9 列组成 以下是各列的说明 Column1 seqid 序列

gff格式是Sanger研究所定义,是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出gff格式。目前格式定义的最新版本是版本3。原始定义见SONG website

gff是纯文本文件,由tab键隔开的9列组成,以下是各列的说明:

Column 1: seqid

序列的编号,编号的有效字符[a-zA-Z0-9.:^*$@!=_?-|]

Column 2: source

注释信息的来源,比如”Genescan”、”Genbank”等,可以为空,为空用”.”点号代替

Column 3: type

注释信息的类型,比如Gene、cDNA、mRNA等,或者是SO对应的编号

Columns 4 & 5: start and end

开始与结束的位置,注意计数是从1开始的。结束位置不能大于序列的长度

Column 6: score

得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。

Column 7: strand

序列的方向, +表示正义链, -反义链 , ? 表示未知.

Column 8: phase

仅对注释类型为 “CDS”有效,表示起始编码的位置,有效值为0、1、2。

Column 9: attributes

以多个键值对组成的注释信息描述,键与值之间用”=”,不同的键值用”;”隔开,一个键可以有多个值,不同值用”,”分割。

注意如果描述中包括tab键以及”,=;”,要用URL转义规则进行转义,如tab键用 %09代替。键是区分大小写的,

以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。

预先定义的键包括:

ID 注释信息的编号,在一个GFF文件中必须唯一;

Name 注释信息的名称,可以重复;

Alias 别名

Parent Indicates 该注释所属的注释,值为注释信息的编号,比如外显子所属的转录组编号,转录组所属的基因的编号。值可以为多个。

Target Indicates: the target of a nucleotide-to-nucleotide or protein-to-nucleotide alignment.

Gap:The alignment of the feature to the target if the two are not collinear (e.g. contain gaps).

Derives_from:Used to disambiguate the relationship between one feature and another when the relationship

is a temporal one rather than a purely structural “part of” one. This is needed for polycistronic genes.

Note 备注

Dbxref 数据库索引

Ontology_term: A cross reference to an ontology term.

gff文件_GFF文件格式说明

例子

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214445.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午4:14
下一篇 2026年3月18日 下午4:15


相关推荐

  • Linux smart_linux安装smartctl

    Linux smart_linux安装smartctlSmartmontools是一种硬盘检测工具,通过控制和管理硬盘的SMART(SelfMonitoringAnalysisandReportingTechnology),自动检测分析及报告技术)技术来实现的,SMART技术可以对硬盘的磁头单元、盘片电机驱动系统、硬盘内部电路以及盘片表面介质材料等进行监测,当SMART监测并分析出硬盘可能出现问题时会及时向用户报警以避免计算机数据受损失。SMART技术必须在主板支持的前提下才能发生作用,而且SMART技术也不能保证能预报所有可能发生的硬盘故障。

    2022年10月8日
    4
  • 我尝试给OpenClaw安装一个通义千问的智能体的大脑屡次报错

    我尝试给OpenClaw安装一个通义千问的智能体的大脑屡次报错

    2026年3月13日
    2
  • Python上位机软件图形界面实战(2)[通俗易懂]

    Python上位机软件图形界面实战(2)[通俗易懂]前言上位机图形界面开发设计用QTDesigner就可以了。但是qtdesigner生成的是.ui文件,我们需要将.ui转换为我们用的py文件。这里就要用到昨天设置Pyuic来生成。由于只是初步开发所以设计的界面没有美化,只是体验一下功能就可以了。1Pyuic的修改今天做的时候才发现昨天的Pyuic没设置好。下来在昨天的基础上只修改这两行。-mPyQt5.uic.pyuic$F…

    2022年5月29日
    56
  • matlab里for循环语句_matlab中的for循环语句

    matlab里for循环语句_matlab中的for循环语句matlab循环语句for怎么用?matlab中for语句使用方法和应用实例for循环语句1、一般格式为:forx(循环变量)=array(数组)commands(执行的循环代码)end2、array可以是一个数字,也可以是数组,例如输入:fora=5fora=1:5fora=1:1:5(以1为步长到5)只不过在a=1:5和a=1:1:5时,会显示之间的结果,a=5时只显示最后结果。a…

    2022年10月6日
    4
  • redux-saga_pub culture

    redux-saga_pub culture本文用以记录从调研ReduxSaga,到应用到项目中的一些收获。什么是ReduxSaga官网解释来自:https://github.com/redux-saga/redux-sagaredux-sagaisalibrarythataimstomakesideeffects(i.e.asynchronousthingslikedatafetchingand…

    2026年1月27日
    4
  • C语言 逻辑表达式

    C语言 逻辑表达式案例 假设 n1 n2 n3 n4 x y 的值分别为 1 2 3 4 1 1 则求解表达式 x n1 gt n2 amp amp y n3 gt n4 后 x 的值和 y 的值分别为多少 main intx 1 y 1 intn1 1 n2 2 n3 3 n4 4 intresult 0 result x n1 gt n2 amp amp

    2026年3月19日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号