环境数据处理与数学模型环境数据分析方法董欣环境系统分析教研所2015年4月7日01020304基本概念数据处理与展示描述性统计二总体的假设检验05060708回归分析主成分分析聚类分析时间序列分析数据挖掘/大数据介绍(邀请讲座,待定)简介07聚类分析基本概念系统聚类K均值聚类模糊聚类简介聚类分析的基本思想样品或指标之间存在着程度不同的相似性根据一批样品的多个观测指标,具体找出一些能够度量样品或者指标之间的相似程度的统计量以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类关系密切的聚成一小类,关系疏远的聚成一大类表示所有样品(或指标)见的亲疏关系简介聚类分析的基本思想北京、上海、天津两个主成分都大经济效益好江苏、浙江、安徽、福建、山东、湖北、广东第一主成分大经济效益也比较好经济效益较差简介聚类分析的定义与用途聚类分析(Clusteranalysis):依照某种准则对个体(样本或变量)进行分类的一种多元分析方法,又称聚簇分析、群分析、类分析对样本进行聚类——Q型聚类对变量进行聚类——R型聚类心理学:性格分类……考古学:艺术品分类……环境科学:污染类型、采样点分类、生态区划……简介聚类分析的目的将个体或对象分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强类间对象的同质性最大化类与类间对象的异质性最大化基本概念聚类分析的一般步骤step1:针对要聚类的个体/变量,定义一种能够反映个体/变量之间亲疏程度的量对样本之间可以定义各种距离;对变量之间可以定义各种相似系数step2:把相似程度大的个体/变量聚合为一类,把另一些相似程度大的个体/变量聚合为另一类动态过程;n个样本,最少可聚成一类,最多可聚成n类step3:按聚类过程把不同的分类罗列出来,形成一个由小到大的分类系统用聚类图或谱系图表示整个聚类过程,表示个体/变量之间的亲疏关系相似性度量聚类算法选择聚类描述基本概念样本相似性度量样本xi和xj的距离dij反映两样本的亲疏程度距离越大,样本越不相似又称“非相似度”每个样本有p个指标p维空间中的一个点n个样本p维空间中的n个点基本概念样本相似性度量绝对值距离1pijikjkkdxx欧式距离21pijikjkkdxx切比雪夫距离1maxijikjkkpdxx明考斯基距离1/1qpqijikjkkdxxq=1q=2q=∞标准化欧式距离221[]pijikjkkkdxxS11pikjkijkikjkxxdpxx兰氏距离基本概念样本相似性度量名义级的变量怎么测度距离?X1=(V,Q,S,T,K)X2=(V,M,S,F,K)两个样本第一个变量都是V,称为配合的两个样本第二个变量一个是Q,另一个是M,称为不配合的记配合的变量数为m1,不配合的变量数为m2两样本的距离定义为:21212mdmm基本概念变量相似性度量使用相似系数进行度量相似系数越大,表明变量越相似夹角余弦1122211nikjkkijnnikjkkkxxCxx相关系数向量(x1i,x2i,…,xni)与向量(x1j,x2j,…,xnj)之间的夹角余弦1122211nikijkjkijijnnikijkjkkxxxxCrxxxx212(1)ijijijijdCdC也可以写成距离!基本概念聚合算法选择聚合法(Agglomerative)聚类开始时每个个体自成一类,然后将距离最近的类进行合并,使类的数目减少一个然后再将距离最近的类进行合并,使类的数目又减少一个如此做下去直至所有的个体都聚合成一类为止分裂法(Splitting)与聚合法相反,开始时将全部个体看成一类然后依据某种准则将其进行逐步分裂,直至分裂成所需要的分类数为止基本概念聚合算法选择用G表示类,设G中有k个元素,这些元素用i,j表示T为一给定的阈值,如果对于任意的i,j∈G,有dij≤T(dij为i和j的距离),则称G为一个类对阈值T,如果对每个i∈G,有11ijjGdTk则称G为一个类第一个定义要求最高符合第一个定义的,肯定符合第二个定义!基本概念聚合算法选择类的常用特征类G的元素用x1,x2,…,xm表示,m为G内的样本数均值(G的重心)样本离差阵及协方差阵直径11mGiixxm1()()'11mGiGiGiGGLxxxxLn,maxGijijGDd1()'()()mGiGiGGiDxxxxtrL基本概念聚合算法选择类之间的距离设Gp和Gq中分布有k个和m个样本,重心分别是和,之间的距离用D(p,q)最短距离法最长距离法类平均法重心法离差平方和法(,)min{|j,l}kjlpqDpqdGG𝑥𝑝𝑥𝑞(,)max{|j,l}kjlpqDpqdGG1(,)PqGijiGjGDpqdlk(,)pqcxxDpqd2()'()()'()1()'()(,)pqpqpqpipipqjqjqiGjGpqiiiiGGiGGwpqpqDxxxxDxxxxDxxxxxxkmDpqDDD基本概念聚合图反映聚类过程系统聚类系统聚类法介绍系统聚类法(Hierarchicalclusteranalysis)最常用的聚类方法必须计算类与类之间的距离Dpq根据Dpq的定义不同,系统聚类法有多种类型•最短距离法•最长距离法•重心法•类平均法(组内联结法)•离差平方和法(Ward法)系统聚类最短距离法x1x2x3x4x5x6x7X8辽宁1772.14568.25298.66352.20307.21490.83364.28202.50浙江2752.25569.95662.31541.06623.05917.23599.98354.39河南1386.76460.99312.97280.78246.24407.26547.19188.52甘肃1552.77517.16402.03272.44265.29563.10302.27251.41青海1711.03458.57334.91307.24297.72495.34274.48306.45x1食品支出(元/人)x2衣着支出(元/人)x3家庭设备、用品及服务支出(元/人)x4医疗保健支出(元/人)x5交通和通讯支出(元/人)x6娱乐、教育和文化服务支出(元/人)x7居住支出(元/人)x8杂项商品和服务支出(元/人)例20:系统聚类最短距离法5个省份之间的欧氏距离矩阵D00123451021220.1303457.911580.6904284.601390.71356.8005195.141284.71452.80208.900辽宁浙江河南甘肃青海D距离越小,表明两省城镇居民的消费水平越接近将1,5合并成新类6,然后计算G6与G2,G3,G4的距离62346123401220.130452.801580.690208.901390.71356.800GGGGGDGGGG6和G4合并,1,4,5成一类G7系统聚类最短距离法辽宁青海甘肃河南浙江也可用于对变量分类,如果使用相似系数分类时,找到最大的相似系数,把相应的两类合并因为类与类之间的距离为所有距离中的最短值,两类合并后,与其他类的距离缩小了,这样容易形成一个比较大的类,大部分样本被聚集在一起系统聚类分类数的确定系统聚类的结果:聚类图确定分类数是聚类分析中尚未完全解决的问题之一分类原则任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大各类所包含的元素都不应过多分类的数目应该符合使用的目的若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类构造统计量,利用统计量的变化趋势来确定系统聚类分类数的确定构造统计量,利用统计量的变化趋势来确定R2统计量R2=1-PG/T•其中PG为分类数为G个类时的总类内离差平方和,T为所有变量的总离差平方和•R2越大,说明分为G个类时每个类内的离差平方和都比较小,也就是分G个类是合适的•但显然分类越多,每个类越小,R2越大•只能取G使得R2足够大,但G本身比较小,而且R2不再大幅度增加系统聚类分类数的确定构造统计量,利用统计量的变化趋势来确定伪F统计量F=[(T-PG)/(G-1)]/[PG/(n-G)]•其中PG为分类数为G个类时的总类内离差平方和,T为所有变量的总离差平方和,n为样本个数•如果分为G个类合理,则内类离差平方和(分母)应该较小,类间离差平方和(分子)相对较大,所以应该取伪F统计量较大而类数较小的聚类水平系统聚类系统聚类法的特性单调性设Dr为系统聚类中第r次并类时的距离若一个系统聚类能够保证Dr严格单调上升,则称其具有单调性单调性符合聚类的思想:先结合的类关系较近,后结合的类关系较疏远最短距离法、最长距离法、类平均法及离差平方和法均具有单调性重心法不具有单调性系统聚类系统聚类法的特性空间的浓缩与扩张不同的方法,并类距离(聚类图的横坐标)范围相差很远范围小浓缩,范围大扩张最短距离法的范围较小,最长距离法的范围较大,类平均法则介于两者之间范围小的灵敏度差,范围大的灵敏度过高,适中为好最短距离法≤类平均法≤最长距离法重心法≤类平均法≤离差平方和法许多书推荐类平均法,不太浓缩,也不太扩张k均值聚类基本概念K-meanscluster,也称“快速聚类法”是一种非谱系聚类法根据各类中样本的均值进行聚类划分的一种聚类分析算,利用各聚类中样本均值所获得的“类中心”来计算聚类相似度输入n个样本数据,聚类个数k输出k个聚类同一类中的对象相似度高;不同类中的对象相似度小k均值聚类聚类流程Step1:从n个样本中或样本范围内任意选择k个样本作为初始聚类中心(种子、初始类中心)Step2:根据各样本距离初始聚类中心的距离(欧式距离),将n个样本初始分类(离哪个中心近,进入哪一类)Step3:根据每个聚类中样本的各变量均值,确定迭代类中心Step4:计算每个样本与这些迭代类中心的距离,并根据各样本到类中心的最小距离重新对相应样本进行划分Step5:循环step3和4,直到每个聚类不再发生变化为止,或者达到终止迭代的判据要求为止k均值聚类聚类流程k均值聚类算例SubjectAB11.01.021.52.033.04.045.07.053.55.064.55.073.54.5IndividualCentroidCluster11,2,3(1.8,2.3)Cluster24,5,6,7(4.1,5.4)IndividualDistancetocentroidofcluster1Distancetocentroidofcluster211.55.420.44.332.11.845.71.853.20.763.80.672.81.1例21:k均值聚类算例IndividualCentroidCluster11,2(1.3,1.5)Cluster23,4,5,6,7(3.9,5.1)IndividualDistancetocentroidofcluster1Distancetocentroidofcluster211.55.420.44.332.11.845.71.853.20.763.80.672.81.1迭代至聚类不改变样本最终的聚类依赖于最初的划分为检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法,如果最终分类一样,则不必再行计算模糊聚类基础知识特征函数对于集合A,空间中任一元素x,要么x∈A,要么x∉A,则有称A(x)为集合A的特征函数隶属函数k个聚类把特征函数推广到[0,1]闭区间上,用区间内的一个数进行特