
发布时间:2021/04/22 11:16:37
IBM SPSS Statistics的聚类分析可以对数据进行一定标准下的分类操作,以便为用户提供更为便捷的分析基础。其中的聚类分析共有三类:快速聚类、系统聚类和二阶聚类,下面我们要介绍的是IBM SPSS Statistics的二阶聚类分析的方法。
一、二阶聚类
使用二阶聚类,SPSS会为用户探索数据间较为自然的一种分类,可以同时处理分类变量和连续变量,也叫作两步聚类。
第一步是构建分类的特征数,将观测点记在某个节点处,然后判断后续观测点与该节点的相似性,若不相似,将构建一个新的节点;第二步是对节点进行分组,分组完成就是二阶聚类分析完成。
SPSS的聚类功能都在“分析”——“分类”菜单下,点击“二阶聚类”,可以进入二阶聚类分析窗口。
二、分析操作
1.数据样本
我们这里选用的是SPSS自带的一份数据样本,各类汽车的参数及销售数据,使用二阶聚类可以将这些个案对象进行分类分析处理。
2.变量设置
将汽车类型“type”移入分类变量窗口,将分类依据的变量移入连续变量窗口,我们这里依据的是价格、宽度、长度、燃料效率等基础参数的变量,可以使用Shift键将这些变量选中后一次性添加。
3.其他设置
距离测量使用对数似然,因为我们这里使用到了分类变量,所以欧氏距离不可用。
聚类数量使用自动确定,最多可以分为15类,当然,也可以自己确定聚类数。
聚类准则使用BIC标准。
4.选项
勾选使用噪声处理离群值,数值使用默认的25%即可,这会将数据的析出节点合并为一个噪声节点,判断后保留特定的节点,不能被归类的观测值会被标记为离群值。
内存分配设置的是聚类过程中的最大空间,超过设定值后会使用硬盘存储数据。
连续变量的标准化这里不需要多加设置,如果已标准化,可以减少右侧窗口内的变量。
5.输出
勾选输出透视表,会输出四个表格:BIC统计表、连续变量的均值和标准差、最终分类的观测个数、最终分类变量的频数统计表。
保持默认已勾选的图表和表格,下面的工作数据文件和XML文件根据需要设置保存及导出位置。
6.完成分析
上图是输出结果的第一个表格,从这个表格中可以分析最佳的聚类数目:较小的BIC值,较大的更该比率,较大的距离度量比率,最佳聚类数目是3类。
在质心和聚类频率表格中可以看到具体的三组分类下各个变量的均值和偏差,频率和百分比情况。
三、小结
以上就是在IBM SPSS Statistics中如何使用二阶聚类方法对数据样本进行分析处理了,聚类分析的操作难度不大,合理选择聚类方法可以找到现有数据的最佳聚类分布,便于后续分析操作的进行。
希望这次分析可以对大家有所帮助!更多软件资讯和案例分享请进入IBM SPSS Statistics中文网站查看!
作者:参商
读者也喜欢这些内容:
spss关联性分析步骤 spss关联性分析结果怎么看
关联性分析或者称为相关分析,在医学,经济学等领域应用广泛,用以探求变量间是否存在关系。我们一般通过专业的统计分析软件进行相关性分析,如IBM SPSS Statistics,spss关联性分析步骤是怎样的,spss关联性分析结果怎么看,本文结合实例向大家做简单的介绍。...
阅读全文 >
SPSS效度分析KMO值意义 SPSS效度分析出现警告怎么解决
效度反映了调查问卷中某维度下问题的一致性,表现为整个问卷全部变量可用几个主成分进行表示。我们一般通过专业的数据分析软件进行问卷分析,如IBM SPSS Statistics,使用SPSS进行问卷效度分析有两个难点,一个是SPSS效度分析KMO值的意义,一个是SPSS效度分析出现警告怎么解决,本文结合实例,向大家作简单说明。...
阅读全文 >
spss聚类分析谱系图怎么画 spss聚类分析谱系图结果解读
spss聚类分析谱系图怎么画?聚类分析谱系图是spss系统聚类的辅助图表之一,软件可自动生成,不用自己画。本文会以实际例子演示spss画谱系图的方法以及进行spss聚类分析谱系图结果解读。...
阅读全文 >
SPSS软件中如何进行神经网络分析 SPSS神经网络为什么无法选择分类
神经网络算法(Nerual Net Works)是一种学习型预测算法,通过大量数据,预测新输入变量与预测结果间的路径,此路径称为神经网络,在这个网络中,每个通路的权重都是基于原有数据计算得出的,原有数据量越充足,权重配比就越合理,预测的结果就越准确,神经网络算法实现一般借助专业的统计分析软件,例如IBM SPSS Statistics,SPSS软件中如何进行神经网络分析,SPSS神经网络为什么无法选择分类,本文将结合实例向大家作简单的解释。...
阅读全文 >