生存分析(2)

生存分析(2)K M 法与寿命表法的详细介绍

接上篇文章生存分析(1),本文将进一步介绍生存分析中有关生存率的具体算法及其应用

Kaplan-Meier法(K-M法、乘积极限法)

Kaplan-Meier法由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法
这里写图片描述

1.计算方法
P(T>t)=p=ndn

2.标准误计算

均数的标准误
为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。
(具体可参考这里的介绍)

<1> Sp(T>t)=P(T>t)1P(t>t)nd

例数较多时,两法计算结果相同,但例数逐渐减少,法1的结果偏小,法二的结果偏大。

3.生存率的可信区间
=P(T>t)±1.96Sp(T>t)



上表中存活时间大于30天,生存率的95%可信区间为

P(T>30)±1.96×0.1107=(0.4646,0.8486)

4.单因素分析(log-rank test)

对数秩检验(log-rank test)
属于非参数检验,用于比较两组或多组生存曲线或生存时间是否相同
检验统计量为卡方 χ2
自由度=组数-1




χ2=(AT)2T


其中A为观察死亡数,T为理论死亡数。当有T<5时,用下式进行校正

χ2=(|AT|0.5)2T


计算完卡方值,查表得到P值,可得到推断结论
具体而言,首先将数据按如下形式组织:

这里写图片描述


当数据量较小(n<=50)且不含删失数据时,可以选择Wilcoxon 秩和检验,检验效果更好。

Wilcoxon 秩和检验
核心思想:如果两个样本来自相同的整体,那么秩将大约均匀的分布在两个样本中(秩:将样本从小到大排序,排名即为秩)。否则,则有一个样本获得较小的秩和,另一个获得较大的秩和。

计算:
设两个独立样本为:第一个样本x的样本容量为n1,第二个样本y的样本容量为n2,在容量为n1+n2的混合样本(样本x、y之和)中,x样本的秩和为 Wx ,y样本的秩和为 Wy ,且有


Wx+Wy=1+2++n=n(n+1)2



我们定义
W1=Wxn1(n1+1)2=xx
W2=Wyn2(n2+1)2=yy

根据 Wx Wy 的关系可知,最大秩和为
max(Wx)=n(n+1)2n2(n2+1)2
max(Wy)=n(n+1)2n1(n1+1)2

因此 W1 W2 的取值范围均为:
[0,n(n+1)2n1(n1+1)2n2(n2+1)2]=[0,n1n2]

接下来我们进行假设检验。

假设: x,y样本来自相同总体
当原假设为真时,所有的 xi yi 相当于从同一总体中抽得的独立随机样本, xi yi 构成可分辨的排列情况,可看成一排n个球随机地指定 n1 个为x球另 n2 个为y球,共有 Cn1n 种可能,而且它们是等可能的。基于这样分析,在原假设为真的条件下不难求出 W1 W2 的概率分布,显然它们的分布还是相同的,这个分布称为样本大小为 n1 n2 的Mann-Whitney-Wilcoxon分布

一个比较实际的方法是,对于每个样本数大于等于8的大样本来说,我们可以采用标准正态分布Z来近似检验。
因为 W1 的中心点为 n1n22 ,所以 Wx 的中心点为


μ=n1n22+n1(n1+1)2=n1(n1+n2+1)2


W_x的方差 σ2 从数学上可推导出

σ2=n1n2(n1+n2+1)12

σ2=n1n2(n1+n2+1)12n1n2((τ3jτj)12(n1+n2)(n1+n21)


其中 τj 为第 j 个结的个数。结值的存在将使原方差变小,这是一个显然正确的事实。标准化后

Wx

z=Wxμ±0.5σ=Wxn1(n1+n2+1)2±0.5n1n2(n1+n2+1)12n1n2(τ3jτ)12(n1+n2)(n1+n21)N(0,1)


其中0.5是为了对离散变量进行连续性修正,对于 Wxμ>0 减0.5修正,反之加0.5修正。

算例
x组:11 15 10 18 11 20 24 22 25
y组:13 14 10 8 16 9 17 21
将二者统一如下:


这里写图片描述

可以看出 n1=9 n2 =8, Wx =96.5, Wy =56.5.
H0:两个样本的分布是相同的。标准分布z值的计算结果为:


z=96.59(9+8+1)20.59×8(9+8+1)129×8(82+82)12(9+8)(9+91)=1.44515


如果设定显著水平 α=0.05 ,我们知道标准正态分布在0.05显著水平时,上临界值为1.645,下下临界值为-1.645,由1.445<1.645,所以不能拒绝原假设。
当然你也可以用第二个样本的秩和 Wy 来计算标准正态分布,此时要注意公式中的 n1 n2 发生对换。

寿命表法(life table,LT)

1.计算方法
2.标准误计算
Sp(T>n)=p(T>n)qpN

3.生存率可信区间

同K-M法

K-M法与寿命表法比较

1.格式与精确度
K-M法使用患者实际寿命作为分布区间,相对更精确
寿命表法采用人为规定时间段作为分布区间,范围扩大精确度有所下降

2.适用范围
K-M法更适合于样本量较少的数据
寿命表法更适合于样本量较大的数据
(不过,考虑到现在计算能力的强大,一般程度的数据量并不会对计算速度有太大影响)


3.关注点不同
K-M法关注每一个时点的生存率,重视对生存率规律的细致把握,可以利用K-M的结果去研究影响生存率变化(如曲线的突变点)的影响因素。
寿命表法则更重视对生存规律的总体把握(如各年生存率的情况)。

至此,有关生存分析的非参数研究方法K-M与寿命表法就介绍完了。接下来的一篇文章,将介绍含参数的研究方法—Cox比例风险回归模型


















版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/221385.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午6:14
下一篇 2026年3月17日 下午6:14


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号