
发布时间:2021/11/11 15:16:44
SPSS决策树分析是基于树的分类模型,它将个案分为若干组,或根据自变量(预测变量)的值预测因变量(目标变量)的值。它有易于理解、可以应用于小数据集、能够处理多输出的问题、对缺失值不敏感、效率高等优点。下面就讲解下SPSS决策树分析使用教程。
一、数据集准备
本例使用的是信用风险识别数据(来源Kaggle的项目),包括int_rate(贷款利率)、grade(贷款等级)、home(住房性质)、employment(职业)等八个指标,我们将通过SPSS软件使用这八个指标对数据个案进行决策树分析。
二、决策树参数设置
点击SPSS主页顶部菜单栏“分析”-“分类”-“决策树”,即可打开决策树窗口。将flag加载到因变量文本框,将八个指标加载到自变量文本框。生长法选择CHAID(卡方自动交互检测),主要是利用卡方检测判断属性优先级。
点击右侧的“验证”按钮,按照训练样本70%,检测样本30%的分配数据。
为了方便结果的观察,点击右侧“保存”,勾选已保存的变量:终端节点数、预测值、预测概率、样本分配。
考虑到防止节点个案数太少而导致结果不准确,因此通过“条件”按钮,将最小个案树父节点设置为400、子节点设置为200。
三、结果分析
通过以上SPSS操作步骤,我们可以得到决策树分析的结果。
1、模型摘要
主要包括生长法、自变量、结果。在本案例中,经过筛选,最终将纳入的是fico_score指标,这意味着这个变量起到重要作用,实际业务操作过程中,我们应该重点关注这个指标。
2、风险
查看模型效果的重要依据之一,从风险表格中可以看到,训练估算0.061,表示在70%的训练样本中有6.1%的样本被错误归类。检验估算0.069,表示在30%的测试样本中有6.9%的样本被错误归类。
3、分类
查看模型效果的重要依据之一,从风险表格中可以看到,训练集93.9%,表示该模型正确率为93.9%。检验集表示在用训练集训练好的模型去检验测试集的数据,正确率为93.1%。
四、小结
以上是利用SPSS决策树模型对信用风险识别数据进行分析,首先我们从Kaggle的项目获取数据,然后通过SPSS决策树模型对数据进行分析,最后对得到的分析结果进行解析,可以看到整个分析结果还是非常不错,正确率非常高,也同时说明该模型具有一定的可用性。
作者:独行侠
读者也喜欢这些内容:
spss图表怎么显示数据 spss图表怎么导入Word
在科研或技术工作者撰写科技论文或者技术报告的过程中,常常需要绘制多种类型的图表,以直观展示研究成果,增强说服力。统计数据,绘制图表可以借助专业的数据统计分析软件完成,如IBM SPSS Statistics。绘制完毕后,我们常常需要对图表进行进一步的美化,然后导出至Word文档中。关于SPSS图表怎么显示数据,SPSS图表怎么导入Word,本文结合实例,向大家做简单介绍。...
阅读全文 >
spss数值与字符串区别 spss数值与字符串转换
数据是进行统计分析和研究的基础,对于使用统计分析软件的用户来说,良好的数据管理是获得正确统计分析结果的前提条件。由于不同的统计分析方法对数据结构的要求不尽相同,因此我们有必要了解数据类型之间的区别以及转换。SPSS数值与字符串区别是什么,SPSS数值与字符串转换如何操作,本文向大家做简单介绍。...
阅读全文 >
spss决策树分析阈值设置 spss决策树分析的基本步骤
阈值是指一个效应能产生的最高或者最低值,决策树是直观应用树形图来做出决策判断的数据模型。而在决策树中分析阈值,能够直接表现出某种情况发生的概率以及评价该项目的风险,而决策树的阈值,能够帮助我们判断决策的正确性。那么下面就来给大家介绍SPSS决策树分析阈值设置,SPSS决策树分析的基本步骤。...
阅读全文 >
spss显著性分析是什么意思 spss显著性分析怎么做
显著性检验是先对总体数据做出一个大致的预估,接着使用样本容量的数据信息来判断这个假设是否合理,也就是判断假设情况与实际情况之间的差异。显著性分析在检测以及社会学统计领域发挥着重要作用,其图像类似于正态分布图,因此,对数据进行显著性分析时,就需要借助专业的数据分析软件,这里就以一款名为IBM SPSS Statistics的软件来向大家介绍SPSS显著性分析是什么意思,SPSS显著性分析怎么做。...
阅读全文 >