§5定量分析方法§5.1多元分析法§5.2时间序列分析法§5.1多元分析法•变量之间本身具有某种关系(如线性关系),但因各种误差使之不具备该关系,通过回归,使之恢复该关系。•变量之间本身不具有某种关系,通过回归,抓主要矛盾,使之近似具有某种关系。5.1.1回归分析回归分析可能应用的领域处理两个或两个以上变量之间的相关关系样本观察(散点图)选择恰当的模型确定模型参数回归效果检验预测和控制数据采集一元线性回归分析•一元线性回归方程参数的求解有联系的两个变量:X与Y由观察和实验得到n对数据:(x1,y1),(x2,y2),······,(xn,yn)用散点图描述收集到的点:两变量之间大致成线形关系:bxayˆ数学公式表达yx0方法和过程设nttbxatybaQ12,可得02tbxatyaQ02txtbxatybQ•一元线性回归方程参数的求解由此得出回归方程:bxayˆ求解得222ˆˆyyyyyytttt分析可表示为lyy=U+Q通过x对y的线性相关关系而引起的分散性剩余部分引起的y的分散性•回归方程效果的检验1)平方和分解公式2nQUFF体现了x与y的线性相关关系的相对大小F值相当大F值比较小x与y有线形相关关系x与y没有线形相关关系2)F检验F检验的一般程序计算U、Q,得出F值对给定的检验标准α,查自由度为1,n-2的F分布临界值表,得临界值λ:P(Fλ)=α比较F值与λ值的大小FλFλx,y间具有线性相关关系x,y间不具有线性相关关系2nQlbtxxt服从自由度为n-2的T分布3)t检验t检验的一般程序计算t值对给定的检验标准α,查自由度为n-2的t分布临界值表,得临界值λ:P(tλ)=α比较t值与λ值的大小tλtλx,y间具有线性相关关系x,y间不具有线性相关关系•可线性化的非线性回归指数函数模式幂函数模式双曲线模式对数函数模式bxaeyˆ线性化xbayˆ•可线性化的非线性回归指数函数模式两边取对数,并令a’=lnab’=byyˆlnˆbaxyˆ线性化两边取对数,并令a’=lnax’=lnxyyˆlnˆxbayˆ幂函数模式xbay/ˆ/1线性化xbayˆ双曲线模式令yyˆ/ˆ1x/x1xbaylnˆ线性化令x’=lnxxbayˆ对数函数模式设y与x1,x2,…,xk有线性关系,通过观测或实验得到n组数据:(x11,x21,…,xk1,y1)(x12,x22,…,xk2,y2)…………(x1n,x2n,…,xkn,yn)则它们之间的线性关系可表示成:(对于某些非线性的关系,可通过适当的变换化为形式上的线性模式。)kkxbxbby110ˆ多元线性回归分析•多元线性回归方程参数的求解设Q(b0,b1,…,bk)=∑[yt-(bo+b1x1t+…+bkxkt)]2为了使Q达到最小值,应满足:00010kbQbQbQ由上式可以推得:其中,lyy=Q+U•回归方程效果的检验1)平方和分解公式2yyltyy2ˆttyyQ2yyUtˆ1knQkUFF服从自由度为k,n-k-1的F分布。F检验的一般程序如下:①计算F值;②对于给定的检验标准α,查自由度为k,n-k-1的F分布临界值表,得临界值λ:P(Fλ)=α;③比较F值与λ值的大小。如果Fλ,则认为线性回归方程效果是显著的;反之,则认为是不显著的。2)F检验3)各自变量影响程度大小的判别在实际的信息分析工作中,我们还经常会关心在y对x1,x2,…,xk的线性回归中,哪些因素很重要,哪些因素不太重要。这就需要对回归方程的每个自变量都进行显著性检验。关于xi变量显著性检验的一般程序:①计算ti值;②对于给定的检验标准α,查自由度为n-k-1的t分布临界值表,得临界值λ:P(tλ)=α;③比较ti值与λ值的大小。如果tiλ,则说明xi对y的影响显著,必须保留xi在回归方程中;否则,应去掉xi重新建立回归方程。3)各自变量影响程度大小的判别•回归分析的实际应用例:已知某年中国各地区城镇居民平均每人全年可支配收入和消费性支出两个变量,试利用社会科学统计分析软件SPSS对上表中的数据进行回归分析。(1)作散点图可支配收入1100010000900080007000600050004000消费性支出9000800070006000500040003000(2)方差分析查自由度为1,29的F分布临界值表得λ=7.60(α=0.01)F=862.5017.60,所以可支配收入与消费性支出之间具有强线性相关关系。回归方程为消费性支出=0.772×可支配收入+126.005Coefficientsa126.005160.213.786.438.772.026.98429.368.000(Constant)可支配收入Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:消费性支出a.(3)预测值与残差通过SPSS,可以按要求输出消费性支出的预测值、残差和标准化残差。(3)预测值与残差通过SPSS,可输出消费性支出的预测值、残差和标准化残差。5.1.2聚类分析聚类是把一组个体按照相似性归成若干个类别,即物以类聚。其目的是使得属于同一类别的个体之间的距离尽可能地小,而不同类别上的个体间的距离尽可能地大。聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数。距离或相似系数代表样品或变量之间的相似程度。例如,在分层聚类中,按相似程度的大小,将样品或变量逐一归类,关系密切的样品或变量聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的样品或变量聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,形成一个表示亲疏关系的谱系图,再对谱系图进行分析,并按照要求对样品或变量进行分类。相似性程度是聚类所依据的标准,样品间的相似性通常用距离进行度量,而变量间的相似性通常用相似系数进行度量。分层聚类——HierarchicalClusterAnalysis分层聚类一开始将每个样品看成是一类或一簇(cluster),然后从低到高创建一个聚类的层次。其中,最低层次的簇合并在一起创建下一个较高层次的簇;这一层次的簇再合并在一起,进一步创建更高层次的簇。用分层聚类法聚类时,聚多少类为合适是一个很实际的问题。一个较好的聚类应该在类内各样品尽可能相似的前提下,使得类的个数尽可能少。对于相同的样品对象,分层聚类在具体操作中,可采取不同的类间距离进行计算,并得到不同的分类结果。哪个结果更能反映样品对象本身的客观分类,这种判断的正确与错误将直接决定分层聚类法在实际应用中的价值。例:表中显示的是某年度20个代表性地区农村居民家庭平均每人生活消费现金支出情况。试用SPSS进行分层聚类。在层次聚类的参数选择中,选择按样品聚类;聚类指标为食品、衣着、居住、家庭设备及服务、医疗保健、交通和通讯、文教娱乐用品及服务、其他商品及服务;样品间的距离采用欧式距离;类间距离分别采用最短距离、最长距离和重心距离,不同的类间距离算法适合不同的聚类形状,在不了解聚类形状之前,可尝试多种类间距离算法并对不同的分类效果进行比较分析。①最短距离法谱系图聚类过程②最长距离法谱系图聚类过程③重心距离法谱系图聚类过程主要特征——可以根据需要预先确定k个聚类。根据选定的k值,聚类可以产生两个完全极端的结果。如果设k等于1,就可能会得到一个没有意义的结果,因为所有的数据会归类到一个节点中。另一个极端是设k等于样品数,同样也会得到一个毫无意义的结果。任何其他的聚类个数取决于k值,对于k值的选取没有一个固定的规则,常常需要对各种取值进行反复试验。快速聚类——K-meansClusterAnalysis快速聚类示意图例:对上例表中显示的某年代20个代表性地区农村居民家庭平均每人生活消费现金支出情况,用SPSS进行快速聚类。在降维思想指导下产生的一种有效处理高维数据的方法。在实际问题研究中,往往会涉及众多相关的变量。虽然所涉及的每个变量都提供了一定的信息,但其重要性不同,且在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。信息的重叠越大,变量间的相关性也越大。如何对这些变量加以“改造”,用为数较少的、互不相关的、不可直接测量的新变量来反映原变量所提供的绝大部分信息,并通过对新变量的分析达到解决问题的目的,是基于主成分的因子分析法核心思想。5.1.3主成分分析实践中,反映某个问题的可直接测量的变量很多(例如国家信息化测评指标),并且这些变量之间存在相关性。因此,该方法的应用极其广泛。通常,在分析过程中,选取m(mp)个主成分,使前m个主成分的累计贡献率达到较高的比例(如80%~90%)。这样,用前m个主成分Z1,Z2,…,Zm代替原始变量X1,X2,…,Xp,不但使变量维数降低(在原始变量反映信息重叠较多的情况下,基于主成分的因子分析往往可以只取1~3个主成分来代替十多个甚至数十个原始变量),而且也不致于损失原始变量中太多的信息。国家信息化测评指标每千人广播电视播出时间人均带宽拥有量人均电话通话次数长途光缆长度微波占有信道数卫星站点数每百人拥有电话主线数每千人有线电视台数每百万人互联网用户数每千人拥有计算机数每百户拥有电视机数网络资源数据库总容量电子商务交易额企业信息技术类固定投资占同期固定资产投资的比重信息产业增加值占GDP比重信息产业对GDP增长的直接贡献率信息产业研究与开发经费支出占全国研究与开发经费支出总额的比重信息产业基础设施建设投资占全部基础设施建设投资比重每千人中大学毕业生比重信息指数例:表中显示了某年省会城市和计划单列市的主要经济指标,通过主成分分析,试图得出各城市的综合经济得分并排列名次。§5.2时间序列分析法时间序列分析方法的类型移动平均法是对简单平均法的改进。简单平均法不能反映时间序列中的高数点和低数点,也不能反映变量的发展过程和变化趋势。5.2.1移动平均法一次移动平均基本公式和递推公式nyyyMntttt111nyyMMntttt111nMMMMntttt111112nMMMMntttt11212二次移动平均基本公式和递推公式TbayttTtˆ212ttttMMya2112tttMMnb模型建立与预测在移动平均方法中,n值是关键参数,n值越大,波动曲线的“修匀”效果越显著,但对变化反映的灵敏度降低,对趋势反映滞后大。一次指数平滑1)基本公式5.2.2指数平滑法1111tttSyS2)平滑指数α的含义及取值当α=0时,即平滑值维持不变;当α=1时,即平滑值等于最新的观察值。通常,α选得小一些,预测值趋向就较平稳,“修匀”效果越显著;α选得大一些,近期数据所占的比重越大,对变化的反映越灵敏,但“修匀”的效果越不明显。α的取值反映新旧数据的分配比例直接影响预测结果依赖于影响程度远期近期未来预测结果对α的依赖性α值越小,“修匀”效果越显著。即:在实际应用中,一般取12nn1α值与n值的关系α的选择影响预测效果。一般根据时间序列的特点和经验确定:α取值的经验选择1)如果时间序列的长期趋势较稳定,应取较小值,如0.05~0.202)如果时间序列具有迅速明显的变动趋向时,应取较大值,如0.3~0.7当实际数据较多(50个以上)时,初始值的影响将逐步被平滑而降低到很小,此时,可取最早的数据作初始值,即:当实际数据较少(20个以内)时,初始值影响较大,可以取最初几个实际