NCBI –杂项随笔

全栈程序员-站长 • 2026年3月17日下午6:04 • 未分类 • 阅读 2

NCBI –杂项随笔entrezID 是什么 entrezID 实际上是指 entrezgeneID 是对应于染色体上每个 genelocation 的编号每一个发现的基因都会被编制一个统一的编号而 entrezID 是指来自于 NCBI 旗下的 entrezgene 数据库所使用的编号每个基因的编号具有唯一性包括不同物种的同源性基因编号也不相同例如同样是 TP53 基因人源 TP53 的 entrezID 为 7157 zebrafish 源的 entrezID 为 30590 chichen 源的 entrezID 为 ge

NCBI的 Gene GeneID：

# 下载 wget ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz #提取信息 gzcat gene_info.gz | cut -f2,3,5,9,13 # will give you # 1.the GeneID # 2.the current official symbol or database identifier if no official symbol is available # 3.a pipe-delimited set of aliases # 4.the full name # 5.the nomenclature status of the name, where 0 = official from a nomenclature committee, I = interim from a nomenclature committee, - = NCBI-supplied.

Symbols beginning with LOC. When a published symbol is not available, and orthologs have not yet been determined, Gene will provide a symbol that is constructed as ‘LOC’ + the GeneID.

he sequences represented by NCBI’s predictions are provided in accessions beginning with XM_ or XP_ or XR_

For a limited number of genes in the human genome, gene-specific genomic RefSeqs, termed RefSeqGenes, have been created. These have a RefSeq accession beginning with NG_ and can be retrieved from the Nucleotide database using the query refseqgene[keyword].

RefSeq RNA records are often based on cDNA sequences submitted to GenBank. They therefore can differ from the reference genomic sequence, either for biological reasons (variation or RNA editing) or some unresolved sequence discrepancy.

NCBI的自动基因组注释程序，会比较序列的mRNA以及可编码区的蛋白序列信息。如果蛋白序列和几种模式生物的蛋白序列比较后，有相似度高，名字确定的蛋白存在，程序会使用”similar to“ + name of similar protein命名自动注释的蛋白,现在好像是在结尾添加 + like。

HGNC（人类基因命名委员会）只对人类基因进行命名。 HUGO Gene Symbol：HUGO Gene Symbol(也叫做HGNC Symbol，即基因符号)是HGNC组织对基因进行命名描述的一个缩写标识符（如:TP53）， 这些基因符号都是唯一的。 Gene Name：Gene Name是经过HGNC批准的全基因名称;对应于上面批准的符号（Gene Symbol）。例如TP53对应的Gene Name就是：tumor protein p53 。 HGNC ID：HGNC ID是HGNC数据库分配的基因编号，每一个标准的Symbol都有对应的HGNC ID 。我们可以用这个编号，在HGNC数据库中搜索相关的基因。 例如：HGNC:11998 有时候HGNC会对一些已经命名过的基因进行重新审查和重新命名，以确保新的基因命名在描述基因功能方面更加的准确。 当一个基因被HGNC分配了新的Gene Symbol时，它之前的命名，会被当作同义词继续使用，所以一般建议使用HGNC ID而不是HGNC Symbol来 作为我们处理数据中的唯一标识符。 Ensembl:ENSG00000 即Ensembl数据库的ID编号， MIM:是来源于OMIM数据库（Online Mendelian Inheritance in Man ,人类孟德尔遗传在线数据库）的编号 Vega:OTTHUMG00000来自Vega数据库（Vertebrate Genome Annotation，脊椎动物基因组注释 ）

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/221452.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

WdatePicker使用方法

上一篇 2026年3月17日下午6:04

Flash常用源代码大全

下一篇 2026年3月17日下午6:04

死磕Lambda表达式（六）：Consumer、Predicate、Function复合

死磕Lambda表达式（六）：Consumer、Predicate、Function复合JDK不仅提供的这些函数式接口，其中一些接口还为我们提供了实用的默认方法，这次我们来介绍一下Consumer、Predicate、Function复合。

全栈程序员-站长
2025年7月5日
9
【Qt】下载与安装「建议收藏」

【Qt】下载与安装「建议收藏」Qt下载与安装很简单，大家按照下面的步骤一步步安装就可以了。

全栈程序员-站长
2022年5月17日
52
spring循环依赖为什么不是二级缓存_有效循环血量不依赖

spring循环依赖为什么不是二级缓存_有效循环血量不依赖前置知识：所谓的三级缓存只是三个可以当作是全局变量的Map，Spring的源码中大量使用了这种先将数据放入容器中等使用结束再销毁的代码风格Spring的初始化过程大致有四步我们说的循环依赖就是第四步在给Bean属性注入的时候发生的一个问题循环依赖就是：假设有两个类A和B，A中需要注入B，B中需要注入A由于A注入B时B没有创建，B创建时A也无法创建导致的死循环问题我们都知道AOP是Spring的一个重要核心思想，其实现就是根据动态代理来实现的，也就是说我们的Bean其实很大概率都是要生成代理类，让

全栈程序员-站长
2025年7月13日
8
wrk服务器性能测试

wrk服务器性能测试转载地址 http zjumty iteye com blog 测试先行是软件系统质量保证的有效手段在单元测试方面我们有非常成熟的 xUnit 方案在集成测试方面我们 selenium 等自动化方案在性能测试方面也有很多成熟的工具比如 LoadRunner Jmeter 等但是很多工具都是给专门的性能测试人员使用的功能虽然强大但是安装和操

全栈程序员-站长
2026年3月17日
2
PyTorch中torchvision介绍[通俗易懂]

PyTorch中torchvision介绍[通俗易懂]TorchVision包包含流行的数据集、模型架构和用于计算机视觉的图像转换，它是PyTorch项目的一部分。TorchVison最新发布版本为v0.11.1，发布较频繁，它的license为BSD-3-Clause。它的源码位于：https://github.com/pytorch/visionTorchVision由C++(CUDA)和Python3实现，依赖Torch、PNG、JPEG，还依赖PIL(Pillow,PythonImagingLibrary)。推荐…

全栈程序员-站长
2022年6月24日
30
吃火锅，秒懂云计算

吃火锅，秒懂云计算

全栈程序员-站长
2022年4月3日
42

发表回复

关注全栈程序员社区公众号