高级统计学哈尔滨工业大学管理学院葛虹高级统计学研究的对象多指标或多变量数据企业管理:产值、单位成本、原材料消耗、工资、劳动生产率、销售收入、利润、全要素生产率居民家庭消费:家庭收入、家庭人口、阶层、中高档消费品支出等等必备知识概率论与数理统计统计学——点估计——区间估计——假设检验研究内容简化数据结构(DataReduction)箱式数据平面数据变换主成分分析PrincipleAnalysis因子分析FactorAnalysis按观测点分类或按变量分组分类比较是一切科学比较的基础和开端对观测点分类:银行发放贷款对各企业财务指标、信用状况进行分析对变量分组:股票市场是宏观经济的晴雨表经济指标与股票市场各种指标间的群组关系聚类分析判别分析ClusterAnalysisDiscriminantAnalysis回归分析RegressionAnalysis结构方程StructuralEquationModel变量间的依存关系+关系的强弱分析寻找变量间的依存关系是一切科学研究的主要内容寻找一般的规律:预测、控制内容提要回归分析1定性数据的建模2聚类分析3判别分析4主成分分析5因子分析6结构方程7教学内容结构回归分析OneTwoThree定性数据建模聚类分析判别分析主成分分析因子分析高级统计学结构方程预测回归分析定性数据建模分类聚类分析判别分析判别主成分分析因子分析结构方程关联性分析综合评价统计学方法的应用以及内容之间的逻辑关系应用范围教学内容参考书多元统计分析(第二版)何晓群编著中国人民大学出版社应用统计陆璇编著清华大学出版社高级统计学评分100分平时分数30分读书报告3份15分实验报告3份15分考试分数70分闭卷考试,卷面分数70分预备知识ONETWO随机向量及其分布随机向量的数字特征THREEFOUR随机向量的样本及其数字特征多元正态分布随机向量及其分布P维随机向量:联合分布函数:联合密度函数:),,,(21pXXX),,,(),,,(221121pppxXxXxXPxxxF12212121212121),,,(),,,()3(1),,,()2(0),,,()1(xxxpppppppdxdxdxxxxfxxxFdxdxdxxxxfxxxf随机向量的数字特征随机向量的数学期望随机向量的方差阵))(,),(),(()(21pXEXEXEE),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov(),cov())(()(212221212111ppppppXXXXXXXXXXXXXXXXXXEEED随机向量的相关系数阵11121212121,,,,,,XXXXXXXXXXXXppppR)()(),cov(,jijiXXXDXDXXji随机向量的样本及其数字特征P维随机向量的一个容量为n的样本:),,,(21pXXXpnnnppxxxxxxxxx212221212111,,,的样本1X的样本的样本2XpX样本均值pnnnppxxxxxxxxx212221212111,,,nipiniiniipxnxnxnXXX1121121111样本离差阵与样本方差阵nippiniippiniippinippiiniiniiinippiiniiiniiXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxS12122111122122211122111122111211)())(())(())(()())(())(())(()(SnV1样本离差阵样本方差阵样本相关系数阵1)()())(()()())(()()())((1)()())(()()())(()()())((122222221121122222221122211222211112222112211XxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxXxRippiippiippiippippiippiiiiiippiippiiiiii与的样本相关系数1XpX相关系数阵计算的SPSS实现2(2)12rttnrn0),(:0YXH多元正态分布定义1q维标准正态分布设独立同分布于,则称随机向量服从q维正态分布,记Y~密度函数:qYYY,,,21)1,0(N),,,(21qYYYY),(qqN)21exp()2(1)](21exp[)2(1),,,(222221221yyyyyyyyfqqqqY定义2p维一般正态分布设,B为实数矩阵,为维实数向量,则是维正态随机向量,记为:其中为非负定阵。),(qqNYqpp11qqppYBXp),(ppNXBBX定理1若服从,则(1),(2)密度函数:定理2与分别是和的无偏估计,即),(pNEXDX)()(21exp)2(1),;(1212xxxfpXSn11)(XE)11(SnE回归分析一元回归模型的建立1回归模型的诊断以及SPSS实现2回归模型的矩阵表示3多元回归模型的建立4多元回归模型的诊断以及SPSS实现5为什么要建立线性模型一般函数线性化…特殊函数线性化…简单易分析…相关性=线性性…线性模型一元回归的SPSS实现观察散点图GraphsScatter点击1点击2点击1点击2点击3点击4点击执行回归过程AnalyzeRegressionLinear点击1点击2点击3点击4点击5点击1点击2点击3点击1点击5点击2点击3点击4点击6点击点击2可选点击1ModelSummary.638a.407.3877.62989Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),Heightofwifea.越靠近1越好越小越好模型检验部分42.7600.8031HeightofhusHeightofwifeANOVAb1197.42111197.42120.569.000a1746.4543058.2152943.87531RegressionResidualTotalModel1SumofSquaresdfMeanSquareFSig.Predictors:(Constant),Heightofwifea.DependentVariable:Heightofhusb.0.05=回归方程显著Coefficientsa42.76029.3961.455.156.803.177.6384.535.000(Constant)HeightofwifeModel1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:Heightofhusa.0.05=回归系数显著基本满足正态性假设模型诊断部分基本满足独立同分布假设一元回归模型的建立观察由n个样本构成的散点图或计算样本相关系数,若呈现明显的相关性,建立数学模型~其中是未知参数,需要利用样本对它们进行估计.),(,),,(),,(2211nnyxyxyxxy10),0(2N210,,散点图(1)xyxy10ixiyi参数的最小二乘估计(1)模型1最小二乘解:10,),0(...,,,22110Ndiixyniiiniiniiixxyyxxxy021110)())((ˆˆˆ矩阵偏导数与样本矩阵表达nyyyY21nxxxX1112121n21AxxAxx2uxxu模型2最小二乘解:(1)为y关于x的回归方程(2)称为方程的回归系数()(3)称为残差,为残差向量(4)称为残差平方和),(),(22nnnnXNYNXYYXXX1)(ˆxy10ˆˆˆ)ˆ,ˆ(ˆ10iiiyyˆˆ)ˆ()ˆ(ˆˆYYYYSEYYˆˆˆˆXY参数的最小二乘估计(2)10,散点图(2)xyxy10ˆˆˆixiyiyˆiiiiixyyy10ˆˆˆˆ与的性质性质1~‾~~ˆESˆ))(,(122XXN0ˆ))(,(2220xxxNii))(1,(221xxNi1ˆ00c11c‾性质2~‾,且即的无偏估计是性质3与相互独立2ES22n2))2((nSEE2)2(ˆ2nSEESˆ性质4若,则~于是的置信区间是:iSiiˆˆ2ntiicSiˆˆi)%1())2(ˆ,)2(ˆ(ˆ2ˆ2iiStStnini的样本标准差iˆ一元回归模型的显著性决定系数法RSquare+Adjusted-RSquare回归方程的显著性检验方差分析=F-检验决定系数法总平方和分解决定系数222)ˆ()ˆ()(iiiiyyyyyyERTSSSTETRSSSSR12TESSnnRAdj2112总平方和回归平方和残差平方和df=n-1df=n-2df=1方差分析法(回归方程的显著性检验)零假设检验统计量0:10H含义?)2(nSSFER)2,1(nF~拒绝域(临界值法):)2,1(nF))2,1((nFFP)2,1(nFF→回归方程显著P值法:()(2)RESPFpSnRESS(n-2)P0.05→回归方程显著方差分析表(ANOVA)AnalysisofVarianceModeldfSSMSFresidualTotalregression12n1nRSESTSRS)2(nSE)2(nSSER回归系数的显著性检验(1)零假设检验统计量0:00H含义?0ˆ0ˆST2nt~拒绝域(临界值法))2(2nt)2(2nt)2(2ntT2))2((2ntTP2))2((2ntTP→常数项显著P值法0ˆ0ˆ()PTSp00ˆˆS00ˆˆSP0.05→回归系数显著回归系数的显著性检验(2)零假设检验统计量0:10H1ˆ1ˆSt2nt~2t~)2,1(nF一元回归模型的诊断i前提假设等方差性独立性正态性),0(...2Ndiii误差的估计残差与残差图)ˆˆ(ˆˆ10iiiiixyyyni,,2,1iˆiyˆ残差图(独立、等方差)残差图