环境统计学授课教师:林红军授课时间:2010学年第二学期(EnvironmentalStatistics)环境科学系办公地点:校8幢123室,17幢616室E-mail:hjlin@zjnu.cn,linhonjun@163.comCell:15958459856,679856环境统计学第1章绪论第2章概率统计基础第3章环境一元线性回归分析第4章环境多元线性回归分析第5章环境系统聚类分析第6章环境判别分析第7章环境主成分分析第8章人工神经网络基本概念基本原理常用的统计学术语随机事件概率数学特征概率分布统计推断回归模型最小二乘法显著性检验回归模型最小二乘法SPSS求解显著性检验环境应用聚类要素的数据处理距离的计算聚类分析常用方法SPSS求解环境应用距离判别法Fisher判别法Bayes判别法主成分分析概述主成分分析计算原理主成分分析性质SPSS求解和环境应用环境因子分析环境因子分析一般认为因子分析是从CharlesSpearman在1904年发表的文章《对智力测验得分进行统计分析》开始,他提出这种方法用来解决智力测验得分的统计方法。目前因子分析在心理学、社会学、经济学等学科中都取得了成功的应用,是多元统计分析中典型方法之一。因子分析(factoranalysis)也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。1概述1概述考试的例子物理数学化学语文地理历史理科文科1概述商店形象员工人数商品种类资产规模广告投入年营业额净利润......商店的环境商店的服务商品的价格因子分析就是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。通过因子分析,这15个方面可以归结为应聘者的外露能力、讨人喜欢的程度、经验、专业能力和外貌这五个因子。适应性交际能力潜力理解能力抱负积极性经验推销能力诚实精明自信心讨人喜欢专业能力外貌申请书的形式::::::::::::::1514131211109876:54321xxxxxxxxxxxxxxx公司老板对48名应聘者进行面试,并给出他们在15个方面所得的分数,这15个方面是:1概述1概述中国大学100强排名出炉排名校名总得分人才培养科学研究分省排名得分研究生培养本科生培养得分自然科学研究社会科学研究1清华大学190.2177.5554.8022.75112.6694.3218.34京12北京大学189.4378.6353.9024.73110.8073.1437.65京23浙江大学189.2876.2653.7622.50113.0397.7515.27浙14上海交通大学153.6361.8043.4218.3891.8484.207.63沪15复旦大学122.1450.9135.2115.7071.2349.9821.25沪26南京大学111.1446.7131.0015.7164.4344.3320.10苏17武汉大学103.9549.5830.0619.5354.3734.7119.66鄂18华中科技大学101.1348.7530.0518.7052.3844.358.03鄂29中山大学96.8942.8727.8914.9854.0239.9814.04粤110四川大学96.4646.9428.2318.7149.5240.319.21川111哈尔滨工业大学94.2443.2927.9815.3150.9549.161.79黑112吉林大学89.5145.5527.1118.4443.9633.8210.15吉113中国科学技术大学84.3834.9924.2310.7649.3947.332.06皖114西安交通大学83.3639.0423.6315.4144.3235.269.06陕115山东大学83.0842.0922.9619.1340.9830.7210.26鲁116南开大学72.9033.2420.7112.5339.6622.3217.34津117中南大学72.3135.6121.1914.4236.7033.293.41湘118东南大学67.4632.7218.4914.2334.7530.364.39苏219中国人民大学65.7132.3317.8614.4733.381.6231.76京320北京师范大学65.2930.4418.2912.1534.8516.0418.81京41概述1概述-基本思想于是,原始观测的随机变量X可分解为不可观测(或未做观测)的两个随机向量的线性组合:一是对整个X有影响的公共因素——公因子;二是只对各个对应分量有影响的特殊因素——特殊因子对于直接可观测的随机变量,根据其相关性大小,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公因子1概述-基本任务建立因子载荷矩阵给出各公共因子的合理解释及命名若有必要(当难以招到合理解释的公共因子)时,进一步作因子旋转1概述-分类因子分析R型因子分析Q型因子分析R型的因子分析是对变量作因子分析Q型因子分析是对样品作因子分析主成分分析:原始变量的线性组合表示新的综合变量,即主成分;),,,,(321nxxxxX1x2x3xnx···n个指标或变量n个综合指标或变量y1y2y3yn···ntttt11312111x2x3xnxnnxtxtxtxt2323222121nnxtxtxtxt3333232131nnnnnnxtxtxtxt332211计算y1…yn的贡献大小,进行取舍与主成分分析比较主成分分析的一般目的:定义主成分分析:是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法变量的降维主成分的解释17个变量国民经济指标3个变量雇主补贴纯公共支出股息生产指数利息净增库存消费资料外贸盈余人口总收入F1总收入变化率F2经济发展趋势F3国民经济指标主成分分析例子样本x1x2CODBODSS浊度pH色度氨氮因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。),,,,(321nxxxxX1x2x3xnx···n个指标或变量ntttt1131211nnftftftft33332321311f3f2fnfnnftftftft2323222121nnnnnnftftftft332211),,,,(321nffffX因子分析的目的是,用几个不可观测的隐变量来解释原始变量间的协方差关系。因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义;回归分析:一个结果(变量)与多个变量的关系水域SSBODCODnnnnnnnftftftftx332211因子分析:一个变量与多个假定的因子(变量)的关系),,,,(321nffffX抽象的概念与回归分析比较与回归分析比较回归分析因子分析由因索果执果析因因果这十项全能项目为:100米跑,跳远,铅球,跳高,400米跑,110米跨栏,铁饼,撑杆跳远,标枪,1500米。对经标准化后所作的因子分析表明,十项得分基本上可归结于他们的短跑速度,爆发性臂力、爆发性腿力和耐力,每一方面都称为一个因子。1x2x3x4x5x6x7x8x9x10x1021,,,xxx例1林登(Linden)根据他收集的来自139名运动员的比赛数据,对第二次世界大战以来奥林匹克十项全能比赛的得分作了因子分析研究。十项全能例104103102101103343332312242322211141312111500100耐力爆发性腿力爆发性臂力短跑速度米耐力爆发性腿力爆发性臂力短跑速度铅球耐力爆发性腿力爆发性臂力短跑速度跳远耐力爆发性腿力爆发性臂力短跑速度米跑,,,,aaaaaaaaaaaaaaaa因子模型因子得分计算公式ssssssssssssxxxxxxxxxxxx10104242141101032321311010222212110101212111,,,,耐力爆发性腿力爆发性臂力短跑速度十项得分与这四个因子之间的关系可以描述为如下的因子模型:10,,2,1,44332211ifafafafaxiiiiiii其中表示四个因子,称为公共因子(commonfactor),称为在因子上的因子载荷(loading),是的均值,是不能被四个因子解释的部分,称之为特殊因子。4221,,,ffffijaixiixiix10,,2,1,44332211ifafafafaxiiiiiii公共因子因子载荷特殊因子均值原始观测的随机变量可分解成不可观测的两个随机向量的线性组合2因子分析模型及求解城市环境质量评价指标有:COD、BOD5、NH3、TSP、SO2和NOX,现有100个样本,用来表示。)100,,2,1()',,,(621)(lxxxXllll172.063.009.009.000.0157.015.016.009.0114.016.009.0157.063.0172.01RCOD、BOD5、NH3、TSP、SO2、NOXCOD、BOD5、NH3、TSP、SO2、NOX水环境因素大气环境因素1f2f121211111fafaxCOD指标第指标ixiiiiifafax2211第指标ixiiiiifafax2211626216166525215155424214144323213133222212122121211111fafaxfafaxfafaxfafaxfafaxfafaxUAFX)',(,)',,,()(,)',,,(2162126621ffFaAxxxXij)',,,,(U6321通常先对X作标准化处理,使标准化得到的新变量均值为0,方差为1.这样就有则称X为具有k个公共因子的因子模型ikikiiifafafax2211UAFX2因子分析模型及求解如果满足(1)fi的均数为0,方差为1;(2)i的均数为0,方差为δi;(3)fi与i相互独立.(4)fi与fj相互独立(i≠j)则称该因子模型为正交因子模型。E(F)=0,Cov(F)=Ik),,()(,0)(221pdiagUCovUECov(F,U)=0ikikiiifafafax2211正交因子模型的统计意义:X的方差可表示为设iikiiiaaaxVar222211)(222212ikiiiaaah(1)hi2是k个公共因子对第i个变量的贡献,称为第i个共同度(communality)或共性方差,公因子方差(commonvariance)(2)δi称为特殊方差(specificvariance),是不能由公共因子解释的部分ikikiiifafafax2211估计因子载荷求原始变量相关矩阵;求相关矩阵的特征根(因子的贡献),并排序计算所有特征根对应的所有线形无关的特征向量;特征向量转置,乘以特征根的平方根,即得到因子载荷。)C(Varba)f,x(Corr)C,x(Corrjjiijjiji因子载荷(负荷)aij是随机变量xi与公共因子fj的相