logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
它通常包含四类主要的分析
1. 二分类Logistic回归
2.有序多分类Logistic回归
3. 无序多分类Logistic回归
4. 1:m匹配病例对照Logistic回归
那么今天我们来看一下简单的二元Logistic回归,具体的分析步骤让我们来看一下吧~
点击【分析】-【回归】-【二元logistic】得到分析结果
模型价值的指标:-2倍的对数似然值越小,模型越好;Cox&Snell R方和Nagelkerke R方是伪决定系数;比数比的发生概率不是很高的时候,才能那么理解
用Logistic模型进行预测
可以看到在数据视图窗口中出现了预测概率值,说明了低出生重儿与吸烟与否的概率关系,0.25217与0.40541
自动筛选方法并不可靠,稳妥的策略:先是通过各种方法对模型进行拟合,然后再分析比较各个方法做出来的结果之间的差别,对那几个变化比较大的变量利用专业上的知识进行取舍。
【整体总统计量】的意思是说:在现有的模型基础之上把所有的候选变量一齐纳入模型中,模型是否有改善。H0:模型没有改善。这里P值小于0.05,认为有改善
在具体分析时,应该先看总统计量
对低出生重儿的预测比例有所上升。P值大于0.05没有统计学意义,尚不能确认在其他变量保持不变的情况下该变量发生所导致的低出生重儿是概率是这个变量不发生所导致低出生重儿的Exp倍。Wals用于自变量的筛选是不太准确的
【向后】法筛选。
首先【向后】:LR
依次除去P值最大的那个,这个表格的意思是剔除了某个变量之后的模型是否与原模型有差异
同样的道理,【向前】法