UCSC数据库数据调用cruzdb

UCSC数据库数据调用cruzdbhttps github com Wy cruzdbUCSC 基因组数据库是注释 调节和变异以及越来越多的分类群的各种数据的重要资源 该库旨在简化数据的利用 以便我们可以进行复杂的分析 而无需采用易于操作 容易出错的操作 作为动机 以下是一些功能的示例 gt gt gt fromcruzdbim gt gt amp g

https://github.com/Wy/cruzdb

UCSC基因组数据库是注释,调节和变异以及越来越多的分类群的各种数据的重要资源。 该库旨在简化数据的利用,以便我们可以进行复杂的分析,而无需采用易于操作,容易出错的操作。 作为动机,以下是一些功能的示例:

>>> from cruzdb import Genome >>> g = Genome(db="hg18") >>> muc5b = g.refGene.filter_by(name2="MUC5B").first() >>> muc5b refGene(chr11:MUC5B:-) >>> muc5b.strand '+' # the first 4 introns >>> muc5b.introns[:4] [(L, L), (L, L), (L, L), (L, L)] # the first 4 exons. >>> muc5b.exons[:4] [(L, L), (L, L), (L, L), (L, L)] # note that some of these are not coding because they are < cdsStart >>> muc5b.cdsStart L # the extent of the 5' utr. >>> muc5b.utr5 (L, L) # we can get the (first 4) actual CDS's with: >>> muc5b.cds[:4] [(L, L), (L, L), (L, L), (L, L)] # the cds sequence from the UCSC DAS server as a list with one entry per cds >>> muc5b.cds_sequence #doctest: +ELLIPSIS ['atgggtgccccgagcgcgtgccggacgctggtgttggctctggcggccatgctcgtggtgccgcaggcag', ...] >>> transcript = g.knownGene.filter_by(name="uc001aaa.2").first() >>> transcript.is_coding False # convert a genome coordinate to a local coordinate. >>> transcript.localize(transcript.txStart) 0L # or localize to the CDNA position. >>> print transcript.localize(transcript.cdsStart, cdna=True) None 

命令行调用

python -m cruzdb hg18 input.bed refGene cpgIslandExt 

使用版本hg18中的refGene和cpgIslandExt表注释间隔。

数据框

……是这样的。我们可以从桌子上得到一个:

>>> df = g.dataframe('cpgIslandExt') >>> df.columns #doctest: +ELLIPSIS Index([chrom, chromStart, chromEnd, name, length, cpgNum, gcNum, perCpg, perGc, obsExp], dtype=object) 

通过将’refGene’更改为’knownGene’,可以使用knownGene注释重复上述所有操作。 而且,它可以很容易地完成一组基因。

空间的

可以使用k近邻,上游和下游搜索。 上行和下游搜索使用查询功能的链来确定方向:

>>> nearest = g.knearest("refGene", "chr1", 9444, 9555, k=6) >>> up_list = g.upstream("refGene", "chr1", 9444, 9555, k=6) >>> down_list = g.downstream("refGene", "chr1", 9444, 9555, k=6) 

镜像

以上使用UCSC的mysql接口。 现在可以通过以下方式将任何表从UCSC镜像到本地sqlite数据库:

>>> import os >>> if os.path.exists("/tmp/u.db"): os.unlink('/tmp/u.db') >>> g = Genome('hg18') >>> gs = g.mirror(['chromInfo'], 'sqlite:tmp/u.db') 

然后用作:

>>> gs.chromInfo 
     
    

代码

genome.knownGene 

调用__getattr__方法,将表arg设置为’knownGene’,然后反映该表,并返回父类为Feature和sqlalchemy的declarative_base的对象。

贡献

要开始编码,获取一些UCSC表的副本可能很有礼貌,以免使UCSC服务器过载。 你可以运行类似的东西:

Genome('hg18').mirror(["refGene", "cpgIslandExt", "chromInfo", "knownGene", "kgXref"], "sqlite:tmp/hg18.db") 

然后连接将是这样的:

g = Genome("sqlite:tmp/hg18.db") 

转载于:https://www.cnblogs.com/yahengwang/p/10195614.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/213293.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午6:10
下一篇 2026年3月18日 下午6:11


相关推荐

  • Python fillna_python rfind函数

    Python fillna_python rfind函数假设我有这张桌子Type|Killed|SurvivedDog52Dog34Cat17Dognan3cownan2[Type]=Dog缺少Killed值之一.我想在[类型]=狗的[Killed]中归咎于平均值.我的代码如下:>搜索平均值d…

    2022年8月12日
    8
  • Win知识 – 程序是怎样跑起来的(合集)

    Win知识 – 程序是怎样跑起来的(合集)操作系统的硬件控制功能,通常是通过一些小的函数集合体的形式来提供的。这些函数及调用函数的行为统称为系统调用(systemcall),也就是应用对操作系统(system)的功能进行调用(call)的意思。在前面的程序中用到了time()及printf()等函数,这些函数内部也都使用了系统调用。这里之所以用“内部”这个词,是因为在Windows操作系统中,提供返回当前日期和时刻,以及在显示器中显示字…

    2022年6月28日
    33
  • DataFormatString 的使用

    DataFormatString 的使用br DataFormatSt 0 格式字符串 br 在 DataFormatSt 中的 0 表示数据本身 而在冒号后面的格式字符串代表所们希望数据显示的格式 br br 数字 货币格式 br 在指定的格式符号后可以指定小数所要显示的位数 例如原来的数据为 1 56 若格式设定为 0 N1 则输出为 1 5 其常用的数值格式如下表所示 br br 格式字符串输入结果 br 0 C 12345 678

    2026年3月18日
    2
  • 使用Arduino开发ESP32(06):Ethernet的使用(基于LAN8720)

    使用Arduino开发ESP32(06):Ethernet的使用(基于LAN8720)文章目录目的基本说明接线定义使用步骤常用方法说明使用演示数据通讯事件响应其他说明 PHY 地址时钟通讯应用总结目的 ESP32 除了可以使用无线网络外还可以通过外接 PHY 模块来使用有线网络 Ethernet 以太网 本篇将介绍相关内容 基本说明本篇中使用常用的 PHY 芯片 LAN8720 的模块来来进行有线网络使用演示 接线定义下面是 ESP32 与 LAN8720 间 RMIIPHY 的连接定义 用于以

    2026年3月19日
    3
  • C语言数组初始化问题

    C语言数组初始化问题最近在复习 C 语言 然后做题时突然想到了数组的初始化问题 然后查阅资料了解到结论 全局和静态数组都按语言规范要求被初始化为 0 对于局部数组 初始化元素个数少于数组元素个数时 数组前面的元素值对应初始化值 后面未被初始化的元素自动初始化为 0 但当局部数组定义时 没有用列表对其初始化 那么数组元素的值是不可预料的 在编程的时候要注意这个问题 下面贴出测试代码 includestdio hint

    2026年3月19日
    3
  • 关于开源框架renrne-fast3.0集成达梦(DM)数据库以及遇到的小坑分享

    关于开源框架renrne-fast3.0集成达梦(DM)数据库以及遇到的小坑分享关于开源框架 renrne fast3 0 集成达梦 DM 数据库以及遇到的小坑分享

    2026年3月20日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号