R语言biomaRt工具包(package)的使用

R语言biomaRt工具包(package)的使用Author nbsp WYF E mail nbsp Date nbsp nbsp nbsp 2010 06 05biomaRt 工具包是一个连接 bioMart 数据库的 R 语言接口 能够通过这个软件包自由地链接到 bioMart 数据库 方便得读取该数据库的数据

biomaRt工具包是一个连接bioMart数据库的R语言接口,能够通过这个软件包自由地链接到bioMart数据库,方便得读取该数据库的数据,并进一步进行数据处理。bioMart是一个集成了生物学数据的大型集成数据库,包括Ensemble,Uniprot,NCBI,EBI,TAIR等常用的数据库。具体说来,使用这个工具包可以做以下几个工作:

1.查找某个基因在染色体上的位置。反之,给定染色体每一区间,返回该区间的基因s;

2.通过EntrezGene的ID查找到相关序列的GO注释。反之,给定相关的GO注释,获取相关的EntrezGene的ID;

3.通过EntrezGene的ID查找到相关序列的上游100bp序列(可能包含启动子等调控元件);

4.查找人类染色体上每一段区域中已知的SNPs;

5.给定一组的序列ID,获得其中具体的序列;

从上面的这些功能可以看出,biomaRt工具包的作用在于它可以轻松地完成的在多个生物学数据库上繁琐地检索,获取相关数据在不同数据库间的关联。

下面举一例子说明该工具包的使用:

假设给定已知一组拟南芥的NCBI Reference Sequence IDs(“NM_”, “NM_”, “NM_”, “NM_”, “NM_”, “NM_” ,”NM_”, “NM_”),但是不知道它的TAIR的AGI的基因编号,可以通过biomaRt这个工具包来获取:

首先,先下载并安装biomaRt工具包(http://bioconductor.org/packages/release/bioc/html/biomaRt.html);

接着,编写R程序:

#Author:  WYF
#E-mail: 
#Date:    2010-06-05

#包的装载

> library(biomaRt)

#查找是否装载成功

> search()
 [1] “.GlobalEnv”        “package:biomaRt”   “package:stats”   
 [4] “package:graphics”  “package:grDevices” “package:utils”   
 [7] “package:datasets”  “package:methods”   “Autoloads”       
[10] “package:base” 



#显示包含的数据库及其版本,该函数共显示出42个结果,本次使用选用protist_mart_4这个数据库

> listMarts()
                     biomart                                                 version
1                    ensembl                            ENSEMBL GENES 57 (SANGER UK)
2                        snp                        ENSEMBL VARIATION 57 (SANGER UK)
3        functional_genomics              ENSEMBL FUNCTIONAL GENOMICS 57 (SANGER UK)
4                       vega                                     VEGA 37 (SANGER UK)
5           bacterial_mart_4                             ENSEMBL BACTERIA 4 (EBI UK)
6              fungal_mart_4                               ENSEMBL FUNGAL 4 (EBI UK)
7             metazoa_mart_4                              ENSEMBL METAZOA 4 (EBI UK)
8               plant_mart_4                                ENSEMBL PLANT 4 (EBI UK)
9             protist_mart_4                             ENSEMBL PROTISTS 4 (EBI UK)
#选择protist_mart_4数据库










> plant = useMart (“plant_mart_4”)

#显示该数据库包含的子数据库,从结果可以看出这个数据库包含了高粱、短柄草、拟南芥、水稻等物种,其中拟南芥有两个品种的数据,按要求选择TAIR数据集

> listDatasets(plant)
               dataset                               description      version
1     sbicolor_eg_gene              Sorghum bicolor genes (Sbi1)         Sbi1
2  bdistachyon_eg_gene Brachypodium distachyon genes (Brachy1.0)    Brachy1.0
3      alyrata_eg_gene         Arabidopsis lyrata genes (Araly1)       Araly1
4      oindica_eg_gene          Oryza indica genes (2005-01-BGI)  2005-01-BGI
5 ptrichocarpa_eg_gene   Populus trichocarpa genes (2004-12-JGI)  2004-12-JGI
6    vvinifera_eg_gene       Vitis vinifera genes (2007-12-IGGP) 2007-12-IGGP
7    athaliana_eg_gene        Arabidopsis thaliana genes (TAIR9)        TAIR9
8      osativa_eg_gene                 Oryza sativa genes (MSU6)         MSU6










#选择查询的数据库及其相关数据集

> plant = useDataset (“athaliana_eg_gene”,mart=plant)
Checking attributes … ok
Checking filters … ok

#查询filter函数包含的属性,这里filter函数代表的输入(即已知信息)的属性,如该题我们已知的是NCBI Reference Sequence IDs 因此我们要选用地38行refseq_dna属性

> filters = listFilters(plant)
> filters
38                        refseq_dna                          Refseq DNA ID(s)
39                    refseq_peptide                      Refseq protein ID(s)
40                  uniprot_sptrembl                    UniProtKB/TrEMBL ID(s)
41       uniprot_swissprot_accession          UniProtKB/SwissProt Accession(s)
42                           unigene                             Unigene ID(s)
43              uniprot_varsplice_id                 UniProtKB Varsplice ID(s)
44                  affy_ath1_        Affy Arabidopsis ATH1 ID(s)
45                  transcript_count                       Transcript count >=
46                           biotype                                      Type
47                            source                                    Source
48                            status                             Status (gene)
49                 transcript_status                       Status (transcript)
50        biol_process_evidence_code                             Evidence code















#显示attributes函数的属性,这里attributes函数要选择需要查询的属性,如该题我们需要查询TAIR的AGI的基因编号,我们可以选择第43或45行的属性tair_locus、tair

> attributes = listAttributes(plant)
> attributes

42                    uniprot_swissprot_accession                   UniProtKB/SwissProt Accession
43                                     tair_locus                                      TAIR Locus
44                               tair_locus_model                                TAIR Locus Model
45                                           tair                                            TAIR


#输入属性与输出属性设定好之后,就可以进行查询了

> id = c(“NM_”, “NM_”, “NM_”, “NM_”, “NM_”, “NM_” ,”NM_”, “NM_”)
> getBM(attributes = c(“refseq_dna”,”tair_locus”,”tair”) , filters = “refseq_dna”, values = id , mart = plant)
  refseq_dna tair_locus      tair
1  NM_  AT1G27040 AT1G27040
2  NM_  AT3G20970 AT3G20970
3  NM_  AT3G25820 AT3G25820
4  NM_  AT3G25830 AT3G25830
5  NM_  AT5G24010 AT5G24010
6  NM_  AT5G24350 AT5G24350
7  NM_  AT2G40010 AT2G40010
8  NM_  AT1G27040 AT1G27040
通过以上步骤,我们就过得NCBI Reference Sequence IDs相关的TAIR的AGI的基因编号。










更多内容:
欢迎点击我的个人网站:
http://justhinking.org




NOTE:这个过程需要保持网络的通畅。

参考文献:http://bioconductor.org/packages/release/bioc/html/biomaRt.html

             《The biomaRt user’s guide》


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/205768.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午5:14
下一篇 2026年3月19日 下午5:14


相关推荐

  • java卸载不了_java卸载不了怎么处理?卸载时总出现这个

    java卸载不了_java卸载不了怎么处理?卸载时总出现这个windowsXP在安装有些软件时,会弹出警告框:“不能访问windowsInstaller服务,可能是你在安全模式下运行windows,或者windowsInstaller没有正确安装。请和你的支持人员联系以获得帮助。”的解决方案:windowsinstaller没有正确安装到服务里停掉windowsinstaller服务然后下载InstMsiW.exe右击msi.inf点击安装…

    2022年5月19日
    190
  • 算法竞赛入门【码蹄集新手村600题】(MT1551-1600)[通俗易懂]

    算法竞赛入门【码蹄集新手村600题】(MT1551-1600)[通俗易懂]算法竞赛入门【码蹄集新手村600题】(MT1551、MT1552、MT1553、MT1554、MT1555……MT1600)

    2022年10月8日
    5
  • R语言差异检验:t检验「建议收藏」

    R语言差异检验:t检验「建议收藏」文章目录@[toc]单样本t检验适用条件具体计算公式R语言示例独立样本t检验适用条件具体计算公式R语言示例配对样本t检验适用条件具体计算公式R语言示例t检验(studentt检验)是应用t分布的特征,将t作为检验的统计量来进行统计推断方法。它对样本要求较小(例如n<30)。主要用途:样本均数与总体均数的差异比较两样本均数的差异比较分类:单样本t检验独立样本t检验配对样本t…

    2022年6月19日
    32
  • mysql 联合查询_MySQL联合查询

    mysql 联合查询_MySQL联合查询MySQL联合查询联合查询:union,将多次查询(多条select语句)的结果,在字段数相同的情况下,在记录的层次上进行拼接。基本语法联合查询由多条select语句构成,每条select语句获取的字段数相同,但与字段类型无关。基本语法:select语句1+union+[union选项]+select语句2+…;union选项:与select选项一样有两种all:无论重复…

    2022年6月10日
    40
  • intellij idea如何右键新建文件中添加jsp格式的文件【初学者适用】[通俗易懂]

    intellij idea如何右键新建文件中添加jsp格式的文件【初学者适用】[通俗易懂]idea如何右键新建文件中添加jsp格式的文件    有位同学在学习使用intellijidea,在创建web类的project时,新建中找不到jsp格式类型,下面是怂怂总结的解决步骤,希望可以帮助更多诸如小太阳同学,解决相同的问题。&a

    2025年7月26日
    8
  • IDEA导入maven项目详细介绍「建议收藏」

    IDEA导入maven项目详细介绍「建议收藏」一、项目结构注意,.classpath是eclipse特有文件,如果项目会使用eclipse打开,请不要删除。二、导入项目1、打开Idea编辑器2、导入项目点击ImportProject按钮,界面如下注意,我们是导入maven项目,因此项目根目录下一定存在相对应的maven配置Pom.xml文件,点击OK,继续下一步。3、选择导入的项目类型…

    2022年6月16日
    168

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号