SPSSStatistics培训(三)SPSSChinaLUNCH茶歇时间安排讲师课程指导2午饭SPSSStatistics课程安排3DateSessionSubjectDay1[6H]统计分析简介[1H]1.1统计分析概念1.1.1IntroductiontoStatisticalAnalysis1.2统计分析过程与实例1.2.1统计分析过程1.2.2一个调查研究的实例SPSSStatistics[1H]2.1SPSSStatistics介绍2.1.1IntroductiontoSPSSStatistics2.1.2SPSSStatistics20新特性2.1.3利用SPSS进行数据分析的一般步骤午餐SPSSStatistics数据准备[4H]3.1数据录入与获取3.1.1数据格式,数据录入与引入,数据保存3.2数据管理和变换3.2.1新变量的生成3.2.2变量类型和数据结构的转换3.2.3数据合并、汇总、选择和拆分SPSSStatistics课程安排4Day2[6H]描述统计[2H]4.1数值描述4.1.1定性变量的数值描述4.1.2定量变量的数值描述4.2图形与图表4.2.1图形与图表午餐简单推断[2H]5.1简单推断与方差分析5.1.1简单推断5.1.2方差分析相关分析[1H]6.1相关分析6.1.1相关分析回归分析[1H]6.2一元线性回归分析6.2.1一元线性回归分析SPSSStatistics课程安排5Day3[6H]回归分析[2H]7.1多元线性回归分析7.1.1多元线性回归简介7.1.2SPSS实现7.1.3多重共线性7.1.4模型调整7.1.5回归诊断7.1.6总结7.2Logistic回归分析7.2.1Logistic回归分析的意义7.2.2Logistic回归的种类午餐回归分析[1H]7.2Logistic回归分析7.2.3二项Logistic回归简介7.2.4二项Logistic回归实例数据降维[3H]8.1主成分与因子分析8.1.1主成分分析8.1.2因子分析8.1.3SPSS实现SPSSStatistics课程安排6Day4[6H]细分技术[2H]9.1聚类分析9.1.1聚类分析定义9.1.2系统聚类9.1.3K-means聚类9.1.4两步聚类午餐细分技术[2H]9.2判别分析9.2.1判别分析定义9.2.2常用判别分析方法介绍9.2.3判别效果评估9.2.4SPSS实现9.2.5总结时间序列分析[2H]10.1时间序列分析10.1.1时间序列分析10.1.2时间序列预处理10.1.3时间序列建模SPSS实现10.1.4时间序列模型残差分析10.1.5因果时间序列分析—SPSS实现7第九讲:聚类和判别9.1聚类分析9.1.1聚类分析定义9.1.2系统聚类9.1.3K-均值聚类9.1.4两步聚类目录8俗语说,物以类聚、人以群分当有一个分类指标时,分类比较容易但是多个指标时,进行分类就不是很容易了!•例如,对中国的区县进行分类:•自然条件:降水、土地、日照、湿度等•经济指标:收入水平、教育程度、医疗条件、基础设施等平均的方法?•容易忽视相对重要程度的问题要进行多元分类-聚类分析1.为什么聚类?9.1.1聚类分析定义9一种探索性的数据分析技术基本目标:在数据中寻找某种“自然的”分组结构应用举例•细分市场•消费行为划分•设计抽样方案2.聚类分析基本目标9.1.1聚类分析定义10聚类分析就是要找出具有相似程度的点或类聚为一类如何衡量这个“相似程度”?•根据距离来确定•“距离”含义很广:如欧式距离,马氏距离…,相似系数3.方法原理9.1.1聚类分析定义11根据分析对象:•R型聚类-对变量(指标)进行聚类•Q型聚类-对观测对象(个体、样品)进行聚类根据方法:•层次聚类(HierarchicalClustering)•非层次聚类•K-均值聚类•两步聚类注:没有什么聚类方法,具有绝对优势4.聚类分析分类9.1.1聚类分析定义129.1聚类分析9.1.1聚类分析定义9.1.2系统聚类9.1.3K-均值聚类9.1.4两步聚类目录139.1.2层次聚类1.计算方式可选择适当的距离,计算距离合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用层次聚类法把每个样品看成一类,构成N个类14层次聚类方法可应用多种距离衡量个体/变量的相似性利用哪种距离聚类取决于:•所分析的数据类型•哪种距离对于聚类最具有解释意义类之间的距离定义包括:•最短距离法-NearestNeighbor(SingleLinkage)•最长距离法-FurthestNeighbor(CompleteLinkage)•重心法-CentroidClustering•组间(类)平均法-Between-groupsLinkage•离差平方和法-Ward’sMethod•此外还有中位数距离法(MedianClustering)、类内平均法(Within-GroupsLinkage)等2.距离定义9.1.2层次聚类15优点•聚类变量可以是分类或连续型变量;•既可以对变量聚类,也可以对数据点/记录聚类(市场细分一般都是对记录聚类);•一次运行即可得到完整的分类序列;不足•由于反复计算距离,在样本量太大或变量较多时,分层聚类的运算速度明显较慢(通常,建议样本量不超过200)3.层次聚类法的优缺点9.1.2层次聚类162.数据情况方法:层次聚类数据:聚类分析01_beer.sav从1983年美国的消费者对啤酒的报告中抽取的数据,包含20种啤酒的卡路里含量、盐分、酒精浓度、生产成本、销售等数据1.分析概要3.分析数据集分析-分类-系统聚类4.SPSSStatistics选项变量名称变量含义取值范围beer啤酒名称字符型数据alcohol酒精浓度(单位%)小数点后两位calories卡路里含量(每12液体盎司)整数cost每12液体盎司的生产成本小数点后两位sodium每12液体盎司的Na含量(单位为mg)整数9.1.2层次聚类-SPSS实现176.统计量/绘制子对话框5.设置7.方法子对话框8.保存子对话框9.1.2层次聚类-SPSS实现189.结果输出:相似性矩阵10.结果输出:聚类过程*表示每种啤酒之间的距离“hamms”和“coors”之间距离最短(0.115)“kronenbourg”和“pabstextralight”之间距离最长(33.33)编号啤酒名卡路里含量盐分含量酒精浓度生产价格1117CoorsHamms14013618194.64.40.440.43416KronenbourgPabstExtraLight170687155.22.30.730.38图表上出现的系数为聚类时,被聚在一起的观测/类群之间的距离信息。根据距离的大小,我们可以确定聚类的多少→聚类个数的确定!16阶段和17阶段中的系数大幅增加,因此可以在第16阶段划分聚类结果。表格中的的1号啤酒和9号啤酒不聚为一类,这样最合适的聚类个数为4个。这是关于聚类过程的各个阶段说明的表。第一阶段,11号啤酒17号啤酒组成了一组,第二组类似。这里系数0.115表示两个聚类之间的距离。9.1.2层次聚类-SPSS实现1913.结果输出:所属群集11.结果输出:(类别的决定)垂直冰柱图12.结果输出:(聚类个数的确定)树状图全部20个啤酒最终形成1个群集的过程图表此图表示全部20个啤酒最终行成1个群集的过程。横轴表示观测或群集之间的距离,纵轴表示啤酒,随着距离的增加,行成一个树形结构图表中的1号啤酒和9号啤酒由于距离太大,不聚成一个群,所以最终聚成4个群是最合适的。9.1.2层次聚类-SPSS实现2015.群间的均值比较16.群间的均值比较对话框14.聚类标记CLUn_1:聚为n个群其中CLU4_1:聚为四个群•群1为1,2,3,6,7,8,11,17,18•群2为4,5,14,15•群3为9,10,12,13,20•群4为16,199.1.2层次聚类-SPSS实现2119.输出结果:ANOVA表方差分析(ANOVA表);3个以上的群组之间的平均值比较的检验方法H0;群组之间的平均值相等H1;平均值不相等所有的检验统计量都比0.05小,在0.05的检验水平下,我们拒绝原假设,即群组之间的平均值不相等。17.选项子对话框18.输出结果:群间的均值比较*第1群集;盐分含量最高•第2群集;卡路里含量,生产成本最高*第3群集;酒精浓度较低*第4群集;酒精浓度最低9.1.2层次聚类-SPSS实现229.1聚类分析9.1.1聚类分析定义9.1.2系统聚类9.1.3K-均值聚类9.1.4两步聚类目录23K-均值聚类又叫快速聚类法:首先,确定聚类的类别数(即K),选择n个数值型变量参与聚类分析其次,由分析者指定或由系统自动根据数据结构中心选择k个(聚类的类数)观测值作为聚类的原始中心点第三,逐一计算每一记录到各个类别中心点的距离,把各个记录按照距离最近的原则归入各个类别第四,重新计算每个类中各个变量的均值,以此作为再次次迭代的中心第五,按照新的中心位置重新计算每一记录达到中心的距离,即重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束1.计算方式9.1.3K-均值聚类24优点•K均值聚类的速度快于系统聚类,是处理大型数据集聚类的常用方法•内存占用小不足•只适用于连续型变量;•只能对记录进行聚类,而不能对变量聚类;•对初始聚类中心有一定的依赖性;•由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类2.K-均值聚类法的优缺点9.1.3K-均值聚类252.SPSSStatistics选项1.生成标准化变量3.设置4.保存/选项子对话框9.1.3K-均值聚类-SPSS实现266.输出结果:聚类成员5.输出结果:聚类中心*每个案例分别属于4个不同的聚类类别。4为个聚类中的每一个指定一个初始的聚类中心•按照距离最小的原则把所有观测量分派到各类中•计算每个类中各个变量的均值,以此作为第二次迭代的中心•重复直到中心的迭代标准达到要求重复计算得到的最终的聚类中心最终确定的聚类中心之间的距离9.1.3K-均值聚类-SPSS实现278.输出结果:所属群集7.输出结果:方差分析9.输出结果:保存聚类中心对于各个群的均值相等的原假设,在0.05的显著性水平下,我们拒绝原假设,即4个群的均值不相等。10.结果比较:所属群集啤酒名称系统K-均值Budweiser13Schlitz13Lowenbrau13OldMilwaukee13Augsberger13StrohsBohemianStyle13Coors13Hamms13HeilemansOldStyle13啤酒名称系统K-均值Kronenbourg24Heineken24Becks24Kirin24MillerLight31BudweiserLight31CoorsLight31MichelobLight31SchlitzLight31PabstExtraLight42OlympiaGoldLight429.1.3K-均值聚类-SPSS实现289.1聚类分析9.1.1聚类分析定义9.1.2系统聚类9.1.3K-均值聚类9.1.4两步聚类目录29优点•可有效地分析大型数据集•可处理分类、定量型数据•可自动确定聚类数目(根据一定的统计指标“自动地”建议(理论上)最佳的聚类数量)计算过程•Pre-clusterStep:生成聚类特征树,将记录预聚类•ClusteringStep:进行层次聚类,根据BIC,AIC准则及相邻两步的最小类间距离比确定最终聚类数相关假定•连续型变量不相关,并服从正态分布•分类型变量不相关,并服从多项分布•比较稳健,不满足上述假设时,有时也可以得到很好的结果1.概要9.1.4两步聚类302.数据集方法:两步聚类SPSS实现:分析分类两步聚类示例数据:聚类分析02