发布时间:2021-11-11 15: 16: 44
SPSS决策树分析是基于树的分类模型,它将个案分为若干组,或根据自变量(预测变量)的值预测因变量(目标变量)的值。它有易于理解、可以应用于小数据集、能够处理多输出的问题、对缺失值不敏感、效率高等优点。下面就讲解下SPSS决策树分析使用教程。
一、数据集准备
本例使用的是信用风险识别数据(来源Kaggle的项目),包括int_rate(贷款利率)、grade(贷款等级)、home(住房性质)、employment(职业)等八个指标,我们将通过SPSS软件使用这八个指标对数据个案进行决策树分析。
二、决策树参数设置
点击SPSS主页顶部菜单栏“分析”-“分类”-“决策树”,即可打开决策树窗口。将flag加载到因变量文本框,将八个指标加载到自变量文本框。生长法选择CHAID(卡方自动交互检测),主要是利用卡方检测判断属性优先级。
点击右侧的“验证”按钮,按照训练样本70%,检测样本30%的分配数据。
为了方便结果的观察,点击右侧“保存”,勾选已保存的变量:终端节点数、预测值、预测概率、样本分配。
考虑到防止节点个案数太少而导致结果不准确,因此通过“条件”按钮,将最小个案树父节点设置为400、子节点设置为200。
三、结果分析
通过以上SPSS操作步骤,我们可以得到决策树分析的结果。
1、模型摘要
主要包括生长法、自变量、结果。在本案例中,经过筛选,最终将纳入的是fico_score指标,这意味着这个变量起到重要作用,实际业务操作过程中,我们应该重点关注这个指标。
2、风险
查看模型效果的重要依据之一,从风险表格中可以看到,训练估算0.061,表示在70%的训练样本中有6.1%的样本被错误归类。检验估算0.069,表示在30%的测试样本中有6.9%的样本被错误归类。
3、分类
查看模型效果的重要依据之一,从风险表格中可以看到,训练集93.9%,表示该模型正确率为93.9%。检验集表示在用训练集训练好的模型去检验测试集的数据,正确率为93.1%。
四、小结
以上是利用SPSS决策树模型对信用风险识别数据进行分析,首先我们从Kaggle的项目获取数据,然后通过SPSS决策树模型对数据进行分析,最后对得到的分析结果进行解析,可以看到整个分析结果还是非常不错,正确率非常高,也同时说明该模型具有一定的可用性。
作者:独行侠
展开阅读全文
︾
读者也喜欢这些内容:
spss计算变量怎么用 spss计算变量求和
使用SPSS进行统计分析时,常常需要对变量进行转换,以满足进行统计分析的要求。如某些数据可能不服从正态分布,不能进行某些统计分析,可以对这些数据取对数,使之符合正态分布。站在变量管理的角度,可以将这些数据定义为一个变量,使用SPSS的计算变量功能完成对数计算。关于SPSS计算变量怎么用,SPSS计算变量求和如何操作的内容,本文借助实例,向大家作简单介绍。...
阅读全文 >
如何使用SPSS检测问卷效度和信度?
检验问卷的效度和信度是明确分析数据有效性的必要保障。在SPSS中,效度分析采用降维因子分析,信度检验通常采用“可靠性检验”。今天,我就向大家演示一下,使用SPSS检测问卷效度和信度的具体操作步骤。...
阅读全文 >
spss层次聚类分析步骤 spss层次聚类分析结果解读
spss层次聚类分析步骤,层次聚类分析可使用spss的系统聚类分析方法,本文会举例演示分析步骤。spss层次聚类分析结果解读,主要是通过冰柱图与树状图(谱系图)来确定聚类数目,并以此确认各样本的聚类归属。...
阅读全文 >
SPSS的变量类型有哪些 如何界定SPSS的变量类型
基于实验和调研的需求,统计数据中大多包含着多种类型的变量。今天,我就向大家介绍一下,SPSS中数据变量的种类以及界定变量类型的方法。...
阅读全文 >