生物信息学三大数据库NCBI-ENSEMBL-UCSC

NCBI

NCBI (National Center for Biotechnology Information，美国国立生物技术信息中心）于1988年11月4日建立，是NIH（美国国立卫生研究院）的NLM（国立医学图书馆）的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。目前有将近40个在线的文库和分子生物学数据库，包括：PubMed, PubMed Central, and GenBank等。网址： https://www.ncbi.nlm.nih.gov/

一、任务

二、内容

1.文献数据库

包括：PubMed,PubMed Central,Books等

2.序列资源库

包括人，小鼠，果蝇，线虫等各种物种的基因组数据库

包含DNA，RNA，蛋白等各种类型的数据

如：SNP,GEO,SRA等

3.常用序列分析工具

Entrez – 数据挖掘的工文本条件查询工具（Text Term Searching）来自于超过10万个种物的核酸和蛋白序列数据，连同蛋白三维结构，基因组图谱信息和文献信息检索网址：https://www.ncbi.nlm.nih.gov/gquery/

BLAST – 序列比对工具

https://blast.ncbi.nlm.nih.gov/Blast.cgi

4.数据下载与上传

数据下载接口：ftp://ftp.ncbi.nlm.nih.gov/

上传的工具有：Sequin，tbl2asn等，链接地址：https://www.ncbi.nlm.nih.gov/guide/data-software/

5.其他合作项目

比较常用的就是检索文献，检索序列，比对序列。了解更多内容可以参考官网手册：https://www.ncbi.nlm.nih.gov/books/NBK/

参考资料

https://baike.baidu.com/item/NCBI/?fr=aladdin

https://www.ncbi.nlm.nih.gov/books/NBK/

1.1 NCBI GEO

基因表达数据库(GEO,Gene Expression Omnibus database，https://www.ncbi.nlm.nih.gov/geo/ )是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据,是目前最大、最全面的公共基因表达数据资源。所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/.

一、GEO数据库基础知识

二、数据上传

上传的方式：

提交Affymetrix芯片数据到GEO数据库 http://www.biotrainee.com/thread-810-1-1.html

三、数据挖掘

收录整个实验数据，可以通过技术类型，作者，物种和实验变量等信息来进行搜索。一旦相关数据被查询到，可以通过提供上面的小工具做一些分析，比如：热电图分析，表达分析，亚群的影响等

2.Entrez GEO-Profiles

官网：https://www.ncbi.nlm.nih.gov/geoprofiles/

收录单个基因的表达谱数据。可以通过基因名字，GenBank编号，SAGE标签，GEO编号等来进行搜索

3.GEO BLAST

GEO Blast界面容许用户根据核酸序列的相似性来搜索相关的GEO-Profiles 所有的BLAST结果中“E”的标签代表这个数据跟GEO-Profiles表达数据相关。

例如：用GSE75528，则在https://www.ncbi.nlm.nih.gov/geo/ 官网上直接搜索GSE75528 或直接输入 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528 修改这个url最末尾的GSE号码就可以进入自己想去的任何研究的GEO页面。

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

1.2 NCBI SRA

跟GEO类似,NCBI的SRA（Sequence ReadArchive，https://www.ncbi.nlm.nih.gov/sra/ ）数据库是专门用于存储二代测序的原始数据，包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics等。除了原始序列数据外，SRA现在也存raw reads在参考基因的aligment information。

该数据库也是International Nucleotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含：NCBI Sequence Read Archive (SRA), European Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。数据提交给其中任何一个数据库中后，数据都是共享的。

一、数据库结构

每个数据库都有自己最小的可发表单元。例如：PubMed最小可发表单元是一篇文献，SRA中最小可发表单元是一次实验（标签为：SRX#）。

NCBI中SRA数据结构的层次关系：Studies,Experiments, Samples，Runs:

二、数据上传

登陆NCBI账号

注册你的项目和生物样本

注册项目：https://www.ncbi.nlm.nih.gov/bioproject/

注册样本：https://www.ncbi.nlm.nih.gov/biosample/

上传SRA数据

上传SRA metadata (关于该项目、实验的等信息)

上传序列数据

更详细的说明，参见 https://www.ncbi.nlm.nih.gov/sra/docs/submit/

三、数据下载

如果要下载每个study对应的runs的所有数据，我们需要下载安装SRA Toolkit！

链接地址： http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

SRA toolkit常用命令的说明文档见：

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。

这里我们需要使用prefetch命令进行下载

$prefetch SRR SRR SRR

下载完成后，会在你的工作主目录下生成一个ncbi的文件夹。

sra子文件夹中的.sra文件就是对应的runs文件。 ‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前，我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump :$fastq-dump SRR.sra

通过命令行来下载

for ((i=204;i<=209;i++)) ; do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR620$i/SRR620$i.sra; done ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;d

参考资料

http://www.biotrainee.com/thread-800-1-1.html

1.3 NCBI dbSNP

单核苷酸多态性（single nucleotide polymorphism，SNP）主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种，占所有已知多态性的90%以上。dbSNP(The Single Nucleotide Polymorphism database) 是一个公共的核酸多态性的数据库，它是关于单碱基替换以及短插入、删除多态性的资源库。网址：https://www.ncbi.nlm.nih.gov/projects/SNP。

1.4 NCBI RefSeq

NCBI RefSeq (Reference Sequence，美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划（RefSeq）将为中心法则中自然存在的分子，从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析，基因表达研究，和多态发现提供一个稳定的参考点。

全面的，整合的，无冗余的序列
基因组DNA，RNA，蛋白产物
是医学、功能、多样性研究的一个基准
为基因组注释，基因鉴定和特性描述，突变和多态性分析，表达研究和比较分析提供稳定可靠的参考
由NCBI和其合作者维护

RefSeq和genbank的数据有什么区别？
genbank是一个开放的数据库，对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列，另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复，是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库，一般可信度比较高。

为什么RefSeq记录中的基因符号（symbol）有时和相关的GenBank中的不一样？
RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库，由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号，但有的作者没有，所以有时会产生别名。GenBank与Pubmed相同，通过display可以选择显示格式，常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析，FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征，并以ATGC4种碱基列出核苷酸序列，简单明了。而GenBank格式可显示较完整的基因序列记录，反映核苷酸序列的详细信息

1.5 NCBI Entrez

Entrez (http://www.ncbi.nlm.nih.gov/Entrez) 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。 Entrez是由NCBI主持的一个数据库检索系统。

一、Entrez系统数据库

有将近38个库，这里仅列举了部分（ https://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi ）

Literature

Books: 在线生物医学图书
PubMed 生物医学文献数据库

Health

OMIM : 人类孟德尔遗传数据库

Genomes

SRA：二代测序的原始数据
SNP: 单核苷酸多肽性数据库
Taxonomy: GenBank 中的物种分类学数据库

Genes

GEO: 基因表达数据库

Proteins

Structure: 大分子三维结构数据库

Chemicals

BioSystems 跟基因，蛋白，化学分子关联的分子通路

Ensembl

Ensembl是由EBI和Sanger共同开发的真核生物基因组注释项目，它侧重于脊椎动物的基因组数据，但也包含了其他生物如线虫，酵母，拟南芥和水稻等，其中，BioMart是用户提取Ensembl基因组数据的强大工具。

Ensembl项目得到的数据均可以通过其基因组浏览器查看，用于支持脊椎动物基因组的比较基因组，进化，序列突变和转录调控方面研究。Ensembl注释基因，多重序列比对，预测结构和收集疾病数据。Ensembl工具包括：BLAST, BLAT, BioMart 和 Variant Effect Predictor (VEP)。

一、简介

Ensembl是由英国Sanger研究所Wellcome基金会（WTSI）和欧洲分子生物学实验室所属分部欧洲生物信息学研究所（EMBI-EBI）共同协作运营的一个项目。这些机构均位于英国剑桥市南部辛克斯顿的威康信托基因组校园（Wellcome Trust Genome Campus）内。

Ensembl计划开始于1999年，人类基因组草图计划完成前的几年。即使在早期阶段，也可明显看出，三十亿个碱基对的人工注释是不能够为科研人员提供实时最新数据的获取的。因此Ensembl的目标是自动的基因组注释，并把这些注释与其他有用的生物数据整合起来，通过网络公开给所有人使用。Ensembl数据库网站开始于July 2000，是一个真核生物基因组注释项目，其侧重于脊椎动物的基因组数据，但也包含了其他生物，如线虫，酵母，拟南芥和水稻等。近年来，随着时间推移，越来越多的基因组数据已经被添加到了Ensembl，同时Ensembl可用数据的范围也扩展到了比较基因组学、变异，以及调控数据。

基因注释的数据来源

最新的基因组数据（大部分是动物）
UniProt/Swiss-Prot和UniProt/TrEMBL蛋白序列
NCBI RefSeq蛋白和核酸序列
EMBL cDNA序列

二、Ensembl可以做什么

查看基因在染色体上的注释
查看基因的选择性转录
探索某个基因的超过50个物种的同源性和进化树
比较物种的全基因组的比对和保守区域
查看比对到Ensembl上的芯片序列
查看染色体任何一区域的ESTs, clones, mRNA和proteins
检查染色体或基因上的SNPs (single nucleotide polymorphisms)
查看不同品种（rat,mouse）,种群，品种（狗）的SNPs
查看比对到Ensembl基因上的mRNA或蛋白的序列位置
上传自己的数据
通过BLAST或BLAT来搜索Ensembl基因组中相似的序列
通过BioMart导出序列和基因信息
Variant Effect Predictor

三、下载

如果不熟悉Perl语言，可以通过Ensembl REST API http://rest.ensembl.org/

四、其他

ENSG Gene ENST Transcript ENSE Exon ENSP Protein 例如： ENST00000

其他物种的基因，例如老鼠(Mus musculus)

ENSMUSG Mouse Gene ENSMUST Mouse Transcript ENSMUSE Mouse Exon ENSMUSP Mouse Protein

UCSC

下面介绍一下作为生信人必须掌握的三大数据库 NCBI-UCSC-ENSEMBL之一的UCSC。

一、简介

2000年6月22日，UCSC（University of California,Santa Cruz）和其他国际人类基因组计划的成员完成了人基因组组装的第一个草图，并承诺永久对外提供基因组信息。几个星期以后，在2000年7月22日，组装的基因组在网站 ttp://genome.ucsc.edu 呈现出来，并提供了一个在线的查询分析工具UCSC Genome Browser。接下来的几年里，该网站不断的发展，如今已包含大量的脊椎动物和模式生物的基因组组装和注释信息，并提供了一系列查看，分析，下载数据的工具。

站点地址：

http://genome.ucsc.edu/
Europe: http://genome-euro.ucsc.edu
Asia: http://genome-asia.ucsc.edu

数据库特点：

二、UCSC可以干什么

UCSC建立的初衷是为了更好的呈现基因组数据，方便人们查看与研究。因此在呈现基因组碱基序列的同时，也结合了注释信息，例如known genes, predicted genes, ESTs, mRNAs, CpG islands, assembly gaps and coverage, chromosomal bands, mouse homologies等等。所以用户既可以用他们提供的数据库里面的数据，也可以上传自己的数据来做研究。围绕着这样的初衷，他们设计

Genome Browser 整合基因组数据和各种注释数据的在线查看系统
Blat 序列比对工具
Table Browser 将文本文件转化为数据库可以识别的文件
Genome Graphs 上传和呈现基因组数据的工具，例如genome-wide SNP association studies,
linkage studies 和homozygosity mapping
Gene Sorter 各种形式的呈现基因的表达，同源等信息以及相互关系
Gene Interactions 基因之间的交互关系
In-Silico PCR 查看一对引物在基因组中的位置
VisiGene 查看基因在显微镜下的原位图
LiftOver 基因组版本的转换

Nucleic Acids Research(NAR) 每年会整理重要的生物信息数据库
参考于：http://www.biotrainee.com/jmzeng/book/basic/database.html

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/217371.html原文链接：https://javaforall.net

生物信息学三大数据库NCBI-ENSEMBL-UCSC

关于作者

全栈程序员-站长

发表回复

生物信息学三大数据库NCBI-ENSEMBL-UCSC

关于作者

全栈程序员-站长

相关推荐

J2ME开发站点资源「建议收藏」

SPI原理超详细讲解—值得一看

MidJourney 绘画变现：3 类高需求场景 + 定价策略

【知识点】贴片电阻电容命名和封装「建议收藏」

Ubuntu 18.04安装i686-elf交叉编译工具链的方法[通俗易懂]

PCB设计-Allegro软件入门系列第九讲-Class分类和Subclass应用

发表回复