logistic回归_SPSS教程logistic回归分析

logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

它通常包含四类主要的分析

1. 二分类Logistic回归
2.有序多分类Logistic回归
3. 无序多分类Logistic回归
4. 1:m匹配病例对照Logistic回归

那么今天我们来看一下简单的二元Logistic回归,具体的分析步骤让我们来看一下吧~

  1. 点击【分析】-【回归】-【二元logistic】得到分析结果

    904fd141f8a8e8d7a2a0501ff3005f21.png

    b999e10a4f159020206636908de9b505.png

    441bd859e97858422516092811ca6045.png

  2. 模型价值的指标:-2倍的对数似然值越小,模型越好;Cox&Snell R方和Nagelkerke R方是伪决定系数;比数比的发生概率不是很高的时候,才能那么理解

    a55cf344abcebb84489f8057f1fc33cc.png

    a544ffdeb6f6aa3655074815d72e56fc.png

  3. 用Logistic模型进行预测

    可以看到在数据视图窗口中出现了预测概率值,说明了低出生重儿与吸烟与否的概率关系,0.25217与0.40541

    066fd6ecaea00107ce327550f670c142.png

    447952e68135b18c6b04bca96bd7da81.png

  4. 自动筛选方法并不可靠,稳妥的策略:先是通过各种方法对模型进行拟合,然后再分析比较各个方法做出来的结果之间的差别,对那几个变化比较大的变量利用专业上的知识进行取舍。

    【整体总统计量】的意思是说:在现有的模型基础之上把所有的候选变量一齐纳入模型中,模型是否有改善。H0:模型没有改善。这里P值小于0.05,认为有改善

    在具体分析时,应该先看总统计量

    9cae10a6258cf1ba24d37fb997943b30.png

    3c0e0ff3bee78251df34a4c168ebc889.png

    fe05838e749c18273bd89e06ce08d937.png

    a61d3da66859f3d02db8b7264cdd9cb1.png

    84700f2feab0f5aa87f7f5a56622e275.png

  5. 对低出生重儿的预测比例有所上升。P值大于0.05没有统计学意义,尚不能确认在其他变量保持不变的情况下该变量发生所导致的低出生重儿是概率是这个变量不发生所导致低出生重儿的Exp倍。Wals用于自变量的筛选是不太准确的

    2f5e80650220bde59934ef4639de7cd8.png

  6. 【向后】法筛选。

    首先【向后】:LR

    2a9a3f4807eef9f0fef9a13ae12ec272.png

    05b4ba2a57fa7bd626951fefcc12dbb0.png

    97ba2fb882d274613d427c0797ec99a6.png

    5e305a89e21ca12b6665c07a0956d15c.png

  7. 依次除去P值最大的那个,这个表格的意思是剔除了某个变量之后的模型是否与原模型有差异

    f89fc2eca14a6571266283c938c98c81.png

  8. 同样的道理,【向前】法

    036eb140487324b94617c7b8d6596ad0.png

    4fdea5a48a70a59e5a2554e5ae7d2f72.png

    05839cdb9cb3ac56e632d4ebf3615056.png

    e5a8ed9023e76e1c5a66cff467d32de7.png