shell高级技巧:提取vcf文件中一个contig

shell高级技巧:提取vcf文件中一个contig这是一个很小众的需求 大部分变异检测都是基于组装质量比较高的基因组 而不是那种初步拼接的 contig 由于初步拼接的参考序列通常会有成千上万个 contig 序列 也就导致在 VCF 的头文件的 contig ID xxx length xxx 部分会有成千上万个 contig 将这个文件加载到 IGV 时 IGV 会去解析 VCF 这将会是非常缓慢的过程 最好的策略就是只提取其 ID xxx length xxx

这是一个很小众的需求。大部分变异检测都是基于组装质量比较高的基因组,而不是那种初步拼接的contig。

由于初步拼接的参考序列通常会有成千上万个contig序列,也就导致在VCF的头文件的contig=<ID=xxx,length=xxx>部分会有成千上万个contig,将这个文件加载到IGV时, IGV会去解析VCF,这将会是非常缓慢的过程,最好的策略就是只提取其中一个contig查看。

一开始,我想到的是这个方法,直接用bcftools去提取目标contig

bcftools view some_variants.bcf contig_1 

但是,你会发现HEADER部分还是会保留原来的信息。怎么办呢?

我们这里会用到一个Shell高级技巧–subshell。举个例子,比如说同时查看一个文件的头10行和后10行.

(head -n 10 ; tail -n10 ) < ~/referece/annotaiton/TAIR10/TAIR10_GFF3_genes.bed 

这里的()就是一个subshell, 它的作用就是同时执行()中的所有命令。

用到此处,就是同时完成提取VCF的header部分并只保留目标contig和提取目标区间的所有记录这两个任务,然后保存为vcf.gz格式。

(bcftools view -h some_variants.bcf | grep -v "contig" | sed "/^reference/a $(bcftools view -h some_variants.bcf | grep -w "ID=contig_1")" ; bcftools view -H some_variants.bcf contig_1 ) | bcftools view -Oz -o contig_1.vcf.gz 

上面是一个非常复杂的shell命令,希望你能看懂。

这里面重复出现了两个变量,一个是some_variants.bcf,一个是contig_1, 我们可以将其用$1$2代替,然后添加到你的~/.bashrc中,如下所示

# function subvcf() { (bcftools view -h $1 | grep -v "contig" | sed "/^reference/a $(bcftools view -h $1| grep -w "ID=$2")" ; bcftools view -H $1 $2 ) | bcftools view -Oz -o $2.vcf.gz && bcftoos index $2.vcf.gz } 

最后用source ~/.bashrc添加刚才的函数到环境变量中,最后就是subvcf some_variants.bcf contig_1 代替之前的长串命令。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/234014.html原文链接:https://javaforall.net

(0)
上一篇 2025年6月2日 下午7:01
下一篇 2025年6月2日 下午7:22


相关推荐

  • 1155功耗最低的cpu_英特尔超低功耗CPU

    1155功耗最低的cpu_英特尔超低功耗CPU【IT168评测】IvyBridge于北京时间4月24日0:00解禁了,这次Intel首次将3D晶体管工艺和22nm制程用于IVB,工艺提升晶体管变小的同时,还改进了处理器的微架构,尤其核芯显卡大幅提升。究竟工艺和制程对功耗有多大帮助,IVB的性能表现如何呢?请看IT168给您带来的IvyBridge处理器最高端型号i73770K评测。▲低功耗是亮点Intel第三代酷睿CPU评测在30…

    2026年1月29日
    5
  • Maven 菜鸟教程 2 项目目录结构

    Maven 菜鸟教程 2 项目目录结构目录结构说明src/main/javaapplicationlibrarysources-java源代码文件,会自动编译到classes文件夹下src/main/resourcesapplicationlibraryresources-资源库,会自动编译到classes文件夹下src/main/filtersresources

    2025年9月16日
    5
  • dti是什么意思_happygame是哪个应用

    dti是什么意思_happygame是哪个应用2018.10.24-dtij-2636-262144(game)

    2022年4月20日
    62
  • ABAP开发环境安装

    ABAP开发环境安装想玩 ABAP 开发 苦于 SAP 费用高 没关系 教你怎样实现自己的开发环境 1 下载官方地址 nbsp nbsp ftp ftp sap com pub sdn devkits netweaver nbsp 我选择的是 ABAP 版 其实只要这两个就行 nbsp SAPNW7 0ABAPTrialSP part1 rar SAPNW7 0ABAPTrialSP part2 rar

    2026年3月18日
    2
  • Java实现Excel导入和导出,看这一篇就够了(珍藏版)

    Java实现Excel导入和导出,看这一篇就够了(珍藏版)前言最近抽了两天时间,把Java实现表格的相关操作进行了封装,本次封装是基于POI的二次开发,最终使用只需要调用一个工具类中的方法,就能满足业务中绝大部门的导入和导出需求。环境准备1.Maven依赖本次工具类的封装主要依赖于阿里巴巴的JSON包,以及表格处理的POI包,所以我们需要导入这两个库的依赖包,另外,我们还需要文件上传的相关包,毕竟我们在浏览器页面,做Excel导入时,是上传的Excel文件。<!–文件上传–><dependency>

    2022年6月28日
    131
  • python获取所有股票的历史数据_从python项目的API获取股票历史数据[通俗易懂]

    python获取所有股票的历史数据_从python项目的API获取股票历史数据[通俗易懂]试试Quandl。它非常简单且易于使用,但是您必须为某些库注册并获取API密钥。In[11]:mydata=quandl.get(‘WFE/INDEXES_NYSE’)In[12]:mydata.head(5)Out[12]:ValueDate2016-01-319632.702016-02-299559.532016-03-3110207.382016-04-30…

    2022年6月24日
    51

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号