SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)SPSS 八 logistic 回归我们之前的线性回归也好 线性回归衍生方法也好 非线性回归也好 因变量的类型都是连续性的 假如因变量的类型是分类的呢 logistic 回归针对的是二分类的因变量 logistic 回归基于线性回归模型发展而来线性回归研究的是连续性因变量与自变量之间的关系有的时候因变量为分类变量 需要研究该分类变量与一组自变量之间的关系以治疗效果为因变量 结局为治愈

SPSS(八)logistic回归

我们之前的线性回归也好、线性回归衍生方法也好、非线性回归也好,因变量的类型都是连续性的,假如因变量的类型是分类的呢?logistic回归针对的是二分类的因变量

logistic回归

  • 基于线性回归模型发展而来

线性回归研究的是连续性因变量与自变量之间的关系

  • 有的时候因变量为分类变量,需要研究该分类变量与一组自变量之间的关系

以治疗效果为因变量,结局为治愈/未治愈

如果使用新的宣传方式,决定戒烟的概率是否更高?

 

模型简介

平常的线性回归方程表达式如下

SPSS(八)logistic回归(图文+数据集)

假如我们也是用这种来预测发生概率,则其表达式为

SPSS(八)logistic回归(图文+数据集)

但是在现实情况中,发生率P为因变量,它与自变量之间通常不存在线性关系(一般是两边不敏感,中间敏感,比如收入与轿车拥有率),而且上面表达式不能保证在自变量的各种组合下,因变量的取值仍限制在0~1内,所以数学家们为了解决遇到的这两个问题,将想方设法想找到一种变量变换,能让上式的发生率限制在0~1内,而且两边不敏感,中间敏感,到最后找到了一种变换,将上式的因变量进行如下转换,就能解决我们遇到的问题

SPSS(八)logistic回归(图文+数据集)

所以上面的表达式可以写成

SPSS(八)logistic回归(图文+数据集)

α是常数项,表示自变量取值全为0时,比数(Y=1Y=0的概率之比)的自然对数值

Betalogistic回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起比数比(OR)自然对数值的变化量,当概率比较低时候,可以理解概率会上升为原来的几倍

为什么可以直接挂等号呢?当p取0时,趋于负无穷,p取1/2时为0,p取1时趋于正无穷,等式两边值域取值相等

当是上面这个公式和我们平常做回归有什么区别呢?

由于因变量为二分类,所以误差项服从二项分布,而不是正态分布,因此,常用的最小二乘法也不再适用,要用迭代方法估计

 

模型用途

 

案例:低出生体重儿影响因素

 HosmerLemeshow1989年研究了低出生体重婴儿的影响因素

  • 影响因素分析,求出哪些自变量对因变量发生概率有影响。并计算各自变量对因变量比数
  • 作为判别分析方法,来估计各种自变量组合条件下因变量各类别的发生概率,从而对结局进行预测。模型在结果上等价于判别分析

结果变量为是否娩出低出生体重儿(变量名为LOW1,低出生体重,即婴儿出生体重<2500克、0,非低出生体重)

考虑的影响(自变量)有:

  • 产妇妊娠前体重(lwt,磅)
  • 产妇年龄(age,岁)
  • 产妇在妊娠期间是否吸烟(smoke0=未吸、1=吸烟)
  • 本次妊娠前早产次数(ptl,次)
  • 是否患有高血压(ht0=未患、1=患病)
  • 子宫对按摩、催产素等刺激引起收缩的应激性(ui0=无、1=)
  • 妊娠前三个月社区医生随访次数(ftv,次)
  • 种族(race1=白人、2=黑人、3=其他民族)

 

(假如只研究是否吸烟对体重的影响,我们可以使用卡方检验,但是目前自变量这么多,卡方检验无能为力)

我们先来看一下卡方检验

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

从检验结果来看,显著性检验小于0.05,产妇在妊娠期间是否吸烟对低出生体重儿还是有影响的

SPSS(八)logistic回归(图文+数据集)

 

下面我们使用Logistic回归方法

数据集如下

SPSS(八)logistic回归(图文+数据集)

85 0 19 182 2 0 0 0 1 0 2523 86 0 33 155 3 0 0 0 0 3 2551 87 0 20 105 1 1 0 0 0 1 2557 88 0 21 108 1 1 0 0 1 2 2594 89 0 18 107 1 1 0 0 1 0 2600 91 0 21 124 3 0 0 0 0 0 2622 92 0 22 118 1 0 0 0 0 1 2637 93 0 17 103 3 0 0 0 0 1 2637 94 0 29 123 1 1 0 0 0 1 2663 95 0 26 113 1 1 0 0 0 0 2665 96 0 19 95 3 0 0 0 0 0 2722 97 0 19 150 3 0 0 0 0 1 2733 98 0 22 95 3 0 0 1 0 0 2750 99 0 30 107 3 0 1 0 1 2 2750 100 0 18 100 1 1 0 0 0 0 2769 101 0 18 100 1 1 0 0 0 0 2769 102 0 15 98 2 0 0 0 0 0 2778 103 0 25 118 1 1 0 0 0 3 2782 104 0 20 120 3 0 0 0 1 0 2807 105 0 28 120 1 1 0 0 0 1 2821 106 0 32 121 3 0 0 0 0 2 2835 107 0 31 100 1 0 0 0 1 3 2835 108 0 36 202 1 0 0 0 0 1 2836 109 0 28 120 3 0 0 0 0 0 2863 111 0 25 120 3 0 0 0 1 2 2877 112 0 28 167 1 0 0 0 0 0 2877 113 0 17 122 1 1 0 0 0 0 2906 114 0 29 150 1 0 0 0 0 2 2920 115 0 26 168 2 1 0 0 0 0 2920 116 0 17 113 2 0 0 0 0 1 2920 117 0 17 113 2 0 0 0 0 1 2920 118 0 24 90 1 1 1 0 0 1 2948 119 0 35 121 2 1 1 0 0 1 2948 120 0 25 155 1 0 0 0 0 1 2977 121 0 25 125 2 0 0 0 0 0 2977 123 0 29 140 1 1 0 0 0 2 2977 124 0 19 138 1 1 0 0 0 2 2977 125 0 27 124 1 1 0 0 0 0 2992 126 0 31 215 1 1 0 0 0 2 3005 127 0 33 109 1 1 0 0 0 1 3033 128 0 21 185 2 1 0 0 0 2 3042 129 0 19 189 1 0 0 0 0 2 3062 130 0 23 130 2 0 0 0 0 1 3062 131 0 21 160 1 0 0 0 0 0 3062 132 0 18 90 1 1 0 0 1 0 3076 133 0 18 90 1 1 0 0 1 0 3076 134 0 32 132 1 0 0 0 0 4 3080 135 0 19 132 3 0 0 0 0 0 3090 136 0 24 115 1 0 0 0 0 2 3090 137 0 22 85 3 1 0 0 0 0 3090 138 0 22 120 1 0 0 1 0 1 3100 139 0 23 128 3 0 0 0 0 0 3104 140 0 22 130 1 1 0 0 0 0 3132 141 0 30 95 1 1 0 0 0 2 3147 142 0 19 115 3 0 0 0 0 0 3175 143 0 16 110 3 0 0 0 0 0 3175 144 0 21 110 3 1 0 0 1 0 3203 145 0 30 153 3 0 0 0 0 0 3203 146 0 20 103 3 0 0 0 0 0 3203 147 0 17 119 3 0 0 0 0 0 3225 148 0 17 119 3 0 0 0 0 0 3225 149 0 23 119 3 0 0 0 0 2 3232 150 0 24 110 3 0 0 0 0 0 3232 151 0 28 140 1 0 0 0 0 0 3234 154 0 26 133 3 1 2 0 0 0 3260 155 0 20 169 3 0 1 0 1 1 3274 156 0 24 115 3 0 0 0 0 2 3274 159 0 28 250 3 1 0 0 0 6 3303 160 0 20 141 1 0 2 0 1 1 3317 161 0 22 158 2 0 1 0 0 2 3317 162 0 22 112 1 1 2 0 0 0 3317 163 0 31 150 3 1 0 0 0 2 3321 164 0 23 115 3 1 0 0 0 1 3331 166 0 16 112 2 0 0 0 0 0 3374 167 0 16 135 1 1 0 0 0 0 3374 168 0 18 229 2 0 0 0 0 0 3402 169 0 25 140 1 0 0 0 0 1 3416 170 0 32 134 1 1 1 0 0 4 3430 172 0 20 121 2 1 0 0 0 0 3444 173 0 23 190 1 0 0 0 0 0 3459 174 0 22 131 1 0 0 0 0 1 3460 175 0 32 170 1 0 0 0 0 0 3473 176 0 30 110 3 0 0 0 0 0 3475 177 0 20 127 3 0 0 0 0 0 3487 179 0 23 123 3 0 0 0 0 0 3544 180 0 17 120 3 1 0 0 0 0 3572 181 0 19 105 3 0 0 0 0 0 3572 182 0 23 130 1 0 0 0 0 0 3586 183 0 36 175 1 0 0 0 0 0 3600 184 0 22 125 1 0 0 0 0 1 3614 185 0 24 133 1 0 0 0 0 0 3614 186 0 21 134 3 0 0 0 0 2 3629 187 0 19 235 1 1 0 1 0 0 3629 188 0 25 95 1 1 3 0 1 0 3637 189 0 16 135 1 1 0 0 0 0 3643 190 0 29 135 1 0 0 0 0 1 3651 191 0 29 154 1 0 0 0 0 1 3651 192 0 19 147 1 1 0 0 0 0 3651 193 0 19 147 1 1 0 0 0 0 3651 195 0 30 137 1 0 0 0 0 1 3699 196 0 24 110 1 0 0 0 0 1 3728 197 0 19 184 1 1 0 1 0 0 3756 199 0 24 110 3 0 1 0 0 0 3770 200 0 23 110 1 0 0 0 0 1 3770 201 0 20 120 3 0 0 0 0 0 3770 202 0 25 241 2 0 0 1 0 0 3700 203 0 30 112 1 0 0 0 0 1 3799 204 0 22 169 1 0 0 0 0 0 3827 205 0 18 120 1 1 0 0 0 2 3860 206 0 16 170 2 0 0 0 0 4 3860 207 0 32 186 1 0 0 0 0 2 3860 208 0 18 120 3 0 0 0 0 1 3884 209 0 29 130 1 1 0 0 0 2 3884 210 0 33 117 1 0 0 0 1 1 3912 211 0 20 170 1 1 0 0 0 0 3940 212 0 28 134 3 0 0 0 0 1 3941 213 0 14 135 1 0 0 0 0 0 3941 214 0 28 130 3 0 0 0 0 0 3969 215 0 25 120 1 0 0 0 0 2 3983 216 0 16 95 3 0 0 0 0 1 3997 217 0 20 158 1 0 0 0 0 1 3997 218 0 26 160 3 0 0 0 0 0 4054 219 0 21 115 1 0 0 0 0 1 4054 220 0 22 129 1 0 0 0 0 0 4111 221 0 25 130 1 0 0 0 0 2 4153 222 0 31 120 1 0 0 0 0 2 4167 223 0 35 170 1 0 1 0 0 1 4174 224 0 19 120 1 1 0 0 0 0 4238 225 0 24 116 1 0 0 0 0 1 4593 226 0 45 123 1 0 0 0 0 1 4990 4 1 28 120 3 1 1 0 1 0 709 10 1 29 130 1 0 0 0 1 2 1021 11 1 34 187 2 1 0 1 0 0 1135 13 1 25 105 3 0 1 1 0 0 1330 15 1 25 85 3 0 0 0 1 0 1474 16 1 27 150 3 0 0 0 0 0 1588 17 1 27 150 3 0 0 0 0 0 1588 18 1 24 128 2 0 1 0 0 1 1701 19 1 24 132 3 0 0 1 0 0 1729 20 1 21 165 1 1 0 1 0 1 1790 22 1 32 105 1 1 0 0 0 0 1818 23 1 19 91 1 1 2 0 1 0 1885 24 1 25 115 3 0 0 0 0 0 1893 25 1 16 130 3 0 0 0 0 1 1899 26 1 25 92 1 1 0 0 0 0 1928 27 1 20 150 1 1 0 0 0 2 1928 28 1 21 200 2 0 0 0 1 2 1928 29 1 24 155 1 1 1 0 0 0 1926 30 1 21 103 3 0 0 0 0 0 1970 31 1 20 125 3 0 0 0 1 0 2055 32 1 25 89 3 0 2 0 0 1 2055 33 1 19 102 1 0 0 0 0 2 2082 34 1 19 112 1 1 0 0 1 0 2084 35 1 26 117 1 1 1 0 0 0 2084 36 1 24 138 1 0 0 0 0 0 2100 37 1 17 130 3 1 1 0 1 0 2125 40 1 20 120 2 1 0 0 0 3 2126 42 1 22 130 1 1 1 0 1 1 2187 43 1 27 130 2 0 0 0 1 0 2187 44 1 20 80 3 1 0 0 1 0 2211 45 1 17 110 1 1 0 0 0 0 2225 46 1 25 105 3 0 1 0 0 1 2240 47 1 20 109 3 0 0 0 0 0 2240 49 1 18 148 3 0 0 0 0 0 2282 50 1 18 110 2 1 1 0 0 0 2296 51 1 20 121 1 1 1 0 1 0 2296 52 1 21 100 3 0 1 0 0 4 2301 54 1 26 96 3 0 0 0 0 0 2325 56 1 31 102 1 1 1 0 0 1 2353 57 1 15 110 1 0 0 0 0 0 2353 59 1 23 187 2 1 0 0 0 1 2367 60 1 20 122 2 1 0 0 0 0 2381 61 1 24 105 2 1 0 0 0 0 2381 62 1 15 115 3 0 0 0 1 0 2381 63 1 23 120 3 0 0 0 0 0 2395 65 1 30 142 1 1 1 0 0 0 2410 67 1 22 130 1 1 0 0 0 1 2410 68 1 17 120 1 1 0 0 0 3 2414 69 1 23 110 1 1 1 0 0 0 2424 71 1 17 120 2 0 0 0 0 2 2438 75 1 26 154 3 0 1 1 0 1 2442 76 1 20 105 3 0 0 0 0 3 2450 77 1 26 190 1 1 0 0 0 0 2466 78 1 14 101 3 1 1 0 0 0 2466 79 1 28 95 1 1 0 0 0 2 2466 81 1 14 100 3 0 0 0 0 2 2495 82 1 23 94 3 1 0 0 0 0 2495 83 1 17 142 2 0 0 1 0 0 2495 84 1 21 130 1 1 0 1 0 3 2495

Logistic回归涉及到的检验

  • Walds检验(变量筛选):基于标准误估计值的单变量检验

没有考虑其他因素的综合作用,当因素间存在共线性时结果不可靠

故在筛选变量时,用Walds法应慎重

  • 似然比检验(模型比较):直接对两个模型进行的比较

模型较为复杂时,建议使用似然比检验进行变量的筛选工作,以及模型间优劣的比较

两模型-2对数似然值之差即为似然比统计量,自由度亦为两模型参数个数之

  • 比分检验(比分检验)

考虑在已有模型基础上引入新变量之后模型效果是否发生改变

 

建模,分析–回归–二元Logistic (二元代表因变量二分类)

SPSS(八)logistic回归(图文+数据集)

刚才我们说(假如只研究是否吸烟对体重的影响,我们可以使用卡方检验,但是目前自变量这么多,卡方检验无能为力),我们先看看,逻辑回归只研究是否吸烟对体重的影响

SPSS(八)logistic回归(图文+数据集)

谁是1,就研究自变量对这个变量的影响,反之假如为0的话,得出的结果正负值全反

SPSS(八)logistic回归(图文+数据集)

块0:起始块,只有常数项模型,也叫基线模型或无效模型

分类表就是模型预测的情况,下图可以看出划分点为0.5,预测模型全部预测成好人,预测准确率达68.8%,但是这很明显不是我们想要的模型,坏的全部预测成好的了

方程中的变量:Sig.<0.05,证明常数项不为0

不在方程中的变量(比分检验):把smoke这个变量纳入模型有没有效果,Sig.<0.05,证明纳入进来还是有效果的

SPSS(八)logistic回归(图文+数据集)

块1:有自变量的模型

模型系数的综合检验:变量的纳入模型与不纳入模型是否有区别,Sig.<0.05,证明有区别,卡方说明变量的加入下降了多少似然比统计量(下面会有介绍到似然比检验)

模型汇总(似然比检验)-2对数似然值衡量的是模型对数据的解释程度,模型的价值指标,越接近0越好,单独看是没有意义的,和其他模型比较才有价值

分类表:查看模型预测结果及切分点

方程中的变量(Walds检验):Sig.变量纳入模型对模型效果是否显著,Exp(B)称比数比,其他自变量取值保持不变时,该自变量取值增加一个单位引起比数比(OR)自然对数值的变化量,当概率比较低时候,可以理解概率会上升为原来的几倍

 

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

 

刚才只是考察低出生体重儿与是否吸烟的回归关系,我们现在把所有的二分类自变量和连续类型自变量放进去建模,为什么多分类自变量先不放进去?我们等下再说

分析–回归–二元Logistic

SPSS(八)logistic回归(图文+数据集)

结果解读

起始块一般没有没有什么变化,但是不在方程中的变量这表格有区别,总统计量显著性<0.05,证明把所有模型都纳入进来有意义,后续再去细看每一个自变量的Sig.进行挑选

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

块1:

方程中的变量:我们看到有一些变量不显著,Sig.>0.05,直接剔除掉吗?这样做的话存在潜在的危险,因为Walds检验,他没有考虑其他因素的综合作用,当因素间存在共线性时结果不可靠,故在筛选变量时,用Walds法应慎重

我们应该选用比分检验和似然检验来挑选

其他模块的结果解读前面已经讲解

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

 

我们知道变量的spss自动挑选有向前法、向后法以及逐步法,当然我们也可以自己手动挑选,毕竟spss自动挑选错误率可达30%

分析–回归–二元Logistic ,我们说过Wald方法不靠谱,最靠谱的方法为LR(似然比检验)或者条件(比分检验),LR(似然比检验)比较好,这里的向前指的是逐步法、向后指的是向后法

SPSS(八)logistic回归(图文+数据集)

我们选择向前:LR

SPSS(八)logistic回归(图文+数据集)

结果如下(块0不截图了,都是一样的)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

我们看到最终只选择变量lwt、ptl、ht,模型比数比为217.220

SPSS(八)logistic回归(图文+数据集)

 

假如我们使用向后:LR得到结果是什么样的呢?

SPSS(八)logistic回归(图文+数据集)

发现其选的变量有四个和向前不一样lwt、smoke、ptl、ht,模型比数比为214.440,遇到这种情况,我们应该多做几次实验或者自己手动挑选变量,假如最后结果还是不一致,用专家经验,smoke其实还是对结果有影响,所以我们选择向后:LR的结果。spss自动挑选的纳入和剔除相对应的Sig.标准是0.05和0.1,可以去调,如下图(选项–步进概率)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

 

哑变量编码

针对问题

  • 回归系数b表示其它自变量不变,x每改变一个单位时,所预测的y的平均变化量
  • x为连续性/二分类变量时这样没有问题
  • x为多分类变量时就不太合适了

无序多分类:民族,各族之间不存在大小问题

有序多分类:家庭收入分为高、中、低三档,它们之间的差距无法准确衡量

强行规定为等距显然可能引入更大的误差

以上这些情况时,我们就必须将原始的多分类变量转化为数个哑变量(Dummy Variable),每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有明确而合理的实际意义。

(注意:哑变量必须同进同出,否则含义可能改变)

 

举个例子:

O型是作为对比水平(基础水平),而哑变量V1V2V3分别代表了A型、B型、AB型和O型相比的系数

SPSS(八)logistic回归(图文+数据集)

 

我们的自变量里面有种族,是无须多分类的,所以我们选择其他种族为对比水平(基础水平)

SPSS(八)logistic回归(图文+数据集)

把种族选进来,点击分类,之后设置参考水平即可

SPSS(八)logistic回归(图文+数据集)

建模结果,模型的似然检验为206.110比之前的模型都要好,其选入的变量有lwt、smoke、ptl、ht、race

注意一下,我们查看哑变量对模型是否有显著性作用先看race总的检验结果为0.02有意义,才去细看里面的race(1)、race(2)

race(1)的比数比Exp(B)为0.392,说明白人相对于其他种族出现低出生体重为0.392倍

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

   SPSS(八)logistic回归(图文+数据集)

 

SPSS逻辑回归补充

  • 哑变量编码的问题

针对平常的(回归–线性)里面是不支持哑变量编码的,不像Logistic回归这样直接放入协变量点击分类就SPSS自己进行哑变量编码,(回归–线性)里面进行哑变量编码要自己手动动手或者写程序

由于方差分析其实本质上是和(线性–回归)是等价的,假如模型中自变量以分类变量为主的话,放入方差分析的固定因子,自变量会自接变成哑变量的形式

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

 

  • 交互作用

方差分析里面可以研究交互项对因变量的影响,Logistic回归也是支持的,我们先看看方差分析对应SPPS交互项里面操作

SPSS(八)logistic回归(图文+数据集)

Logistic回归也是支持交互作用的研究的,一次选中多个变量加进去

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

SPSS(八)logistic回归(图文+数据集)

但是(线性–回归)不支持交互作用,假如想研究交互作用,我们可以自己手动做一个新变量,比如a*b作为新的自变量纳入模型,这么麻烦的原因是方差分析已经有这个功能了,方差分析本质上是和线性回归是等价的

 

  • SPSS Logistic回归其他好用功能

SPSS(八)logistic回归(图文+数据集)

 

分类图

SPSS(八)logistic回归(图文+数据集)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/215256.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午2:19
下一篇 2026年3月18日 下午2:19


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号