GWAS分析中使用PCA校正群体分层

GWAS分析中使用PCA校正群体分层欢迎关注 生信修炼手册 GWAS 通过分析 case control 组之间的差异来寻找与疾病关联的 SNP 位点 然而 case 和 control 两组之间 可能本身就存在一定的差异 会影响关联分析

欢迎关注”生信修炼手册”!

GWAS通过分析case/control组之间的差异来寻找与疾病关联的SNP位点,然而case和control两组之间,可能本身就存在一定的差异,会影响关联分析的检测。

Population stratification,称之为群体分层,是最常见的差异来源,指的是case/control组的样本来自于不同的祖先群体,其分型结果自然是有差异的。GWAS分析的目的是寻找由于疾病导致的差异,其他的差异都属于系统误差,在进行分析时,需要进行校正。

对于群体分层的校正,通常采主成分分析的方法,即PCA, 对应的文章发表在nature genetics上,链接如下

https://www.nature.com/articles/ng1847

GWAS分析中使用PCA校正群体分层

核心处理如下图所示

GWAS分析中使用PCA校正群体分层

对分型结果对应的矩阵进行PCA分析,该矩阵中行为SNP位点,列为样本,分型结果为0,1,2。0表示没有突变,1表示杂合突变,2表示纯合突变。PCA分析之后,可以得到每个样本在PC1,PC2等主成分轴上对应的位置。

PCA本质属于排序分析,距离近的样本拥有相似的属性,根据PCA之后得到的位置信息,可以绘制如下所示的散点图

GWAS分析中使用PCA校正群体分层

上图中每个点代表一个样本,绘图使用的信息就是这些样本在PC1和PC2两个轴上的位置。这样的散点图可以直观展示样本的分层情况,对于显著偏离总体的部分样本,可以去除之后在重新进行分析。在后续进行GWAS分析时,这些PC轴上的位置信息可以作为回归分析中的协变量,进行校正。

文章中将针对分型结果进行PCA分析的功能打包成了一个软件,名字为EIGENSTRAT, github的网址如下

https://github.com/chrchang/eigensoft/tree/master/EIGENSTRAT

该软件支持自动去除离群值样本,显示主成分的占比等很多功能,缺点就是执行速度比较慢。对于GWAS中的PCA而言,核心的信息其实就是样本在各个主成分轴上的位置信息,我们需要这些信息来进行后续的校正。

面对GWAS规模的分型结果,运行速度是非常重要的一个因素。为此,实践中常常采用以下两款软件

1. plink

用法如下

plink \ --bfile sample \ --pca --out pca

2. GCTA

用法如下

gcta64 \ --bfile sample \ --make-grm \ --thread-num 5 \ --out gcta gcta64 \ --grm gcta \ --pca 20 \ --thread-num 5 \ --out pca

二者输出结果虽然不是完全相同,但是分布的趋势是一致的。不同之处在于,GCTA支持多线程,运行速度更快。输出结果有多个文件,核心是一个后缀为eigenvec的文件,该文件保存了样本在各个主成分轴上的位置信息,可以用于后续的校正。

这两个软件运行速度快,但是有个缺点就是不会输出各个主成分的占比,如果想要这个信息,可以考虑类似功能的R包,比如vcfR,SNPRelate,bigsnpr等。

·end·

—如果喜欢,快分享给你的朋友们吧—

GWAS分析中使用PCA校正群体分层

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/230507.html原文链接:https://javaforall.net

(0)
上一篇 2026年2月18日 下午7:01
下一篇 2026年2月18日 下午7:22


相关推荐

  • 搭建PHP开发环境(Apache+PHP+MySQL)「建议收藏」

    简介:总结在Windows环境搭建PHP开发环境(Apache+PHP+MySQL)安装Apache1、下载Apache,地址:http://www.apachelounge.com/download/,如下图:2、解压压缩包,最好放到磁盘根目录,不然配置时容易报路径错误,我这里改了文件夹名,方便以后配置,如下图:安装PHP1、下载PHP压缩包,地址:https://w…

    2022年4月8日
    52
  • WIndows无法连接共享打印机,错误码:0x0000011b

    WIndows无法连接共享打印机,错误码:0x0000011bWIndows 无法连接共享打印机 错误码 0x0000011bWi 电脑 1 直连的打印机 设备了共享 从另一个电脑 2 访问电脑 1 的共享打印机 连接提示错误 0x0000011b 如下 经询问使用人 之前电脑 2 是可以正常连接到电脑 1 的共享打印机的 只是最近几天突然连接失败了 后得知电脑 1 最近有更新过系统补丁 经排查 通过卸载 KB 补丁 重启电脑 1 后 电脑 2 成功连接到共享打印机 测试打印正常 处理过程 1 打开控制面板 程序 程序和功能 已安装更新 找到对应的 KB 补丁 右

    2026年3月19日
    2
  • html a标签打开新窗口_a标签自动跳转

    html a标签打开新窗口_a标签自动跳转<ahref=”javascript:void(0);”onclick=”window.top.open(\”+url+’\’,\’_blank\’)”><iclass=”fafa-file-pdf-o”aria-hidden=”true”></i></a>

    2025年7月28日
    3
  • 渗透测试工具SPARTA

    渗透测试工具SPARTASPARTA 是一个基于 Python 脚本的图形化应用程序 在扫描和枚举阶段 辅助渗透测试人员简化网络架构的渗透测试工作 Masscan 适合大范围的外部网络的初始扫描 SPARTA 提供后续的精准扫描 安装 gitclonehttp github com secforce sparta git opt spartaapt getinstallpy elixirapt get

    2026年3月18日
    1
  • 什么是哥德尔不完备定理?

    什么是哥德尔不完备定理?到底什么是哥德尔不完备性定理 总结成一句话就是 任何包含了自然数论的形式体系中 自洽性和完备性必定无法同时满足 可能有点绕 我们一个概念一个概念的解释一下 首先是自然数论 自然数论也叫皮亚诺算数 这个体系是基于五大基础公里之上建立起来的 它们分别是 0 是自然数 每一个确定的自然数 都具有确定的后继数 也是自然数 例如等等

    2026年3月18日
    2
  • php格式化数字 位数不足前面加0补足

    php格式化数字 位数不足前面加0补足

    2021年8月28日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号