聚类分析Leo2019/07/301.简单介绍2.应用实例3.操作流程4.结果探讨CONTENTS简单介绍概念及特点4将研究对象分为相对同质的群组(clusters)的统计分析技术。具有如下特点:1.区别于分类分析,所要求划分的类是未知的,属于探索性分析;2.聚类分析将数据分类到不同的类或者簇(cù),同一个簇中的对象有很大的相似性,不同簇间的对象有很大的相异性;3.k均值聚类算法(k-meansclusteringalgorithm)是最常见的聚类分析算法,步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。通过多次计算,使误差平方和达到最小,则为最终结果。注意事项5聚类分析过程中,主要注意以下两点:1.聚类变量的测量尺度不同,需要事先对变量标准化;2.一般聚类个数在4-6类,不宜太多,或太少。变量标准化👉通过将变量数据转换为Z分数实现。z分数(z-score),也叫标准分数(standardscore),是一个数与平均数的差再除以标准差的过程。例子:将1,1,2,2,3,3,4,4,5,5转化为Z分数形式1、计算出均值=3,标准差s=√2≈1.4142、Z分数计算公式如右:3、将原数列转化为Z分数结果为-1.4,-1.4,-0.9,-0.9,0,0,0.9,0.9,1.4,1.4聚类分析注意事项Z分数:变量标准化Z分数转化实例标准差公式Z分数分布6Z=-3-2-10123应用实例——中医院消费者需求调研报告8发现及建议人群画像-Ⅰ类人群-中医馆中高端人群人群占比年龄在31-50岁的比例为57.8%。中壮年为主女性比例53.3%。女性稍多个人月收入在16000元以上的比例为88.9%,均值为18911元。个人月收入高专业技术人员比例达35.6%。专业技术人员多亟需解决亚健康困扰(71.1%),肩颈腰腿(73.3%)和骨关节问题(57.8%)。亟需改善亚健康状态过去一年内平均去过11.4次中医馆,身体有疼痛倾向于先去中医馆(93.3%)。常去中医馆在中医馆做一次调理治疗能够接受的价格平均在350元。愿意花较多钱调理9发现及建议人群画像-Ⅱ类人群-中医馆大众人群人群占比年龄在31-50岁的比例为64.1%。中壮年为主男女比例均为50%。性别均衡个人月收入在16000元以下的比例为98.4%,均值为11875元。中等个人月收入企事业单位/政府部门、机关单位职员比例达46.9%。普通员工多亟需解决亚健康困扰(70.3%),肩颈腰腿(78.1%)和骨关节问题(53.1%)。亟需改善亚健康状态过去一年内平均去过9.6次中医馆,身体有疼痛倾向于先用简便方法缓解疼痛(51.6%)。常去中医馆在中医馆做一次调理治疗能够接受的价格平均在218.8元。较难承受过高价格10发现及建议人群画像-Ⅲ类人群-偶尔去中医馆的人群人群占比年龄在25-40岁的比例为66.7%。年龄偏小女性稍多个人月收入分布较为分散,收入在20000元以上的比例为26.7%,均值为16133元。中高个人月收入亟需解决肩颈腰腿困扰(73.3%),其次是亚健康问题(63.3%)和骨关节问题(43.3%)。亟需解决肩颈腰腿问题过去一年内平均去过1.8次中医馆(63.3%没去过),身体有疼痛倾向于先用简便方法缓解疼痛(93.3%)。偶尔去中医馆在中医馆做一次调理治疗能够接受的价格平均在295.8元。能承受中等价格女性比例53.3%。专业技术人员比例达26.7%。专业技术人员多11发现及建议人群画像-Ⅳ类人群-一年内不去中医馆的高端人群人群占比年龄在51-60岁的比例为54.6%。老年居多男性居多个人月收入在16000元-18000元的比例为36.4%,均值为15727元。中高个人月收入过去一年内没去过中医馆,身体有疼痛倾向于直接去医院解决(63.6%)。一年内不去中医馆假如在中医馆做一次调理治疗,能够接受的价格平均在454.5元。能承受高价格治疗男性比例63.6%。企事业单位/政府部门、机关单位管理层比例达45.5%。管理层人员多亟需改善亚健康状态亟需解决亚健康困扰(36.4%),肩颈腰腿(36.4%)、肠胃功能(27.3%)和骨关节问题(27.3%)。操作流程操作流程13选择变量标准化处理数据聚类交叉分析01020304选择变量(一)14由于采取最常用的k均值聚类算法进行聚类分析,变量必须是连续或离散变量。1.分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;2.离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数等;3.连续变量在一定区间内可以任意取值,数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如人体测量的身高、体重。年龄个人月收入选择变量(二)15到馆次数中西医倾向到馆次数1.选“其他”的被访者忽略不计;2.选项1-3分别视为“倾向于中医”、“中立”、“倾向于西医”。标准化处理16分析→描述统计→描述数据聚类17分析→分类→K-均值聚类交叉分析(一)18在聚类分析时,保存聚类分组结果。交叉分析(二)19以聚类分组结果为表头。结果探讨Thanks.