朱连华多元统计模型与SAS软件参考书目黄燕、吴平.SAS统计分析及应用,机械工业出版社.陈杰.Matlab宝典,电子工业出版社.张文彤等.SPSS11.0统计分析教程,北京希望电子出版社.薛益、陈立萍.统计建模与R软件,清华大学出版社.主要内容统计软件介绍(SAS软件安装与基本操作)描述统计分析(常用统计指标介绍)随机数生成与分布检验相关与回归分析统计软件介绍统计分析建模过程统计数据类型常用统计方法介绍常用统计软件介绍SAS软件介绍初始数据样本数据总体数据描述统计概率论推断统计总体内在数量规律统计分析建模过程统计数据类型统计数据分类按计量层次分类的数据顺序的数据数值型数据按时间状况截面的数据时序的数据按收集方法观察的数据实验的数据统计方法适用领域研究现象之间相互关系;主要方法:相关分析、偏相关分析、典型相关分析等构建模型和利用模型进行外推;主要方法:描述模型、预测模型--回归分析等简化系统结构:对多个变量进行降维处理主要方法:主成分分析、因子分析、对应分析等。对现象进行分类研究、分类处理、构造分类模式;主要方法:聚类分析、判别分析等统计软件介绍SASGaussSPSSMinitabExcelFortranRC/C++MatlabEviewsOriginSAS软件介绍SAS系统概述初识SASSAS程序的使用常识SAS数据步SAS过程步SAS数据集操作一、SAS系统概述SAS系统全称为StatisticsAnalysisSystem,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的版本为9.1版,大小约为1.5G。经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在96~97年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。在此仅举一例如下:在以苛刻严格著称于世的美国FDA新药审批程序中,新药试验结果的统计分析规定只能用SAS进行,其他软件的计算结果一律无效!哪怕只是简单的均数和标准差也不行!由此可见SAS的权威地位。SAS系统是集数据分析、生成报表于一体的一种集成软件系统。它由基本部分和外加模块组成:基本部分:BASESAS部分;统计分析计算部分:SAS/STAT;绘图部分:SAS/GRAPH;矩阵运算部分:SAS/IML;运筹学和线性规划:SAS/OR;经济预测和时间序列分析:SAS/ETS;质量控制模块:SAS/QC快速数据处理的交互式菜单系统模块:SAS/FSP交互式全屏幕软件应用系统模块:SAS/AF二、初识SAS安装SAS9.1几个注意点:修改系统时间到2006年12月31日前选择许可软件启动SASSAS有三个最重要的子窗口:程序窗口(PROGRAMEDITOR)、运行记录窗口(LOG)、输出窗口(OUTPUT)简单运行样例假设我们有一个班学生的数学成绩和语文成绩,数学满分为100,语文满分为120,希望计算学生的平均分数(按百分制)并按此排名,可以在程序窗口输入此程序:title'0901班学生成绩排名';libnameahualian‘d:\yan’;/*环境设置语句*/dataAHUALIAN.STU01;inputname$1-10sex$mathchinese;avg=math*0.5+chinese/120*100*0.5;cards;李明男9298张红艺女89106王思明男8690张聪男98109刘颍女80110;run;procprint;run;procsortdata=a.c0901;bydescendingavg;/*按平均成绩降序排序*/run;procprint;run;运行后,输出窗口出现如下结果:0901班学生成绩排名Obsnamesexmathchineseavg1李明男929886.83332张红艺女8910688.66673王思明男869080.50004张聪男9810994.41675刘颍女8011085.8333运行记录窗口则记录每段程序的运行情况、所用时间、生成数据保存情况。如果有错误还会用红色指示错误。描述统计分析描述统计量图形展示分布检验数据分布的特征集中趋势(位置)偏态和峰态(形状)离中趋势(分散程度)偏态与峰态分布的形状扁平分布尖峰分布偏态峰态左偏分布右偏分布与标准正态分布比较!数据分布特征和描述统计量数据分布特征集中趋势离散程度分布形状中位数平均数异众比率四分位差极差偏态系数平均差方差或标准差峰态系数众数离散系数数据类型及图示数据类型品质数据数值型数据汇总表原始数据分组数据时序数据多元数据条形图饼图茎叶图箱线图直方图折线图线图散点图气泡图雷达图环形图分组数据的图示(直方图的绘制)140150210某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240未分组数据—茎叶图(例题分析)某电脑公司销售量分布的茎叶图未分组数据—单批数据箱线图(例题分析)最小值141最大值237中位数182下四分位数170.25上四分位数197140150160170180190200210220230240某电脑公司销售量数据的Median/Quart./Rang箱线图未分组数据—多批数据箱线图(例题分析—Median/Quart./Range)Min-Max25%-75%Medianvalue455565758595105英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础8门课程考试成绩的Median/Quart./Range箱线图多变量数据—雷达图(例题分析)05101520253035404550食品衣着家庭设备用品及服务医疗保健交通通讯教育文化娱乐服务居住杂项商品与服务城镇居民农村居民分布检验经验分布函数上α分位点分布检验t检验法nxxx,,,21值为步骤小结:设样本观察,:,:101000HH写出检验假设,200nSXT取检验统计量nsxtxnxnii010,13和计算).1()1(),10(420ntnt分布表得上分位点查对于给定的显著性水平。接受时当拒绝时当0/20/20,)1(;,)1(t5HnttHnt利用P值进行决策双侧检验的P值/2/2Z拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2P值1/2P值画图(qq图)par(mfrow=c(1,3))y-rt(200,df=5)qqnorm(y);qqline(y,col=2)#和正态分布比qqplot(y,rt(300,df=5));#和t(5)分布比data(precip)qqnorm(precip,ylab=Precipitation[in/yr]for70UScitie);qqline(precip,col=3)#和正态分布比par(mfrow=c(1,1))-3-2-10123-4-2024NormalQ-QPlotTheoreticalQuantilesSampleQuantiles-4-2024-2024yrt(300,df=5)-2-1012102030405060NormalQ-QPlotTheoreticalQuantilesPrecipitation[in/yr]for70UScities线性回归模型可转化为线性的回归模型回归分析一:一元回归:预测变量(X)响应变量(Y)Y_xY10ˆˆˆ总变异回归阐明部分回归未阐明部分xY10SST=SSR+SSEniiniiniiyyyyyy121212ˆˆ总平方和(SST){回归平方和(SSR)残差平方和(SSE){{误差平方和的分解1.回归平方和占总误差平方和的比例2.反映回归直线的拟合程度3.取值范围在[0,1]之间4.R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差判定系数R2(拟合优度)(coefficientofdetermination)修正拟合优度SSTSSESSTSSRR12MSTMSESST/nSSR/kMSTMSRAdj-R112多元线性回归模型:表现在线性回归模型中的解释变量有多个。一般表现形式:ikikiiiXXXY22110i=1,2…,n其中:k为解释变量的数目,j称为回归参数(regressioncoefficient)。习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样:模型中解释变量的数目为(k+1)二、多元线性回归模型总体回归模型n个随机方程的矩阵表达式为μXβY其中)1(212221212111111knknnnkkXXXXXXXXXX1)1(210kkβ121nnμ参数的最小二乘法2.求解各回归参数的标准方程如下)21(00ˆˆ000kiQQiii,,,1.使因变量的观察值与估计值之间的离差平方和达到最小来求得。即kˆ,,ˆ,ˆ,ˆ210YXXX1)(ˆ若X列满秩,即列秩为k+11.提出假设H0:12k=0线性关系不显著H1:1,2,k至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度k、分母自由度n-k-1找出临界值F4.作出决策:若FF,拒绝H0线性关系检验1.提出假设H0:i=0(自变量xi与因变量y没有线性关系)H1:i0(自变量xi与因变量y有线性关系)2.计算检验的统计量t3.确定显著性水平,并进行决策tt,拒绝H0;tt,不拒绝H0回归系数的检验dataahualian.sale;inputyx1x2;cards;162274245012018032542233753802131205283867862347169266378281983708192330245011619521375553256025243040202323724427144236266010315720882123702605;procreg;/*调用reg过程*/modely=x1x2;/*自变量是x1和x2,因变量是y*/run;实例:销售量数据1、倒数模型、多项式模型与变量的直接置换法例如,描述税收与税率关系的拉弗曲线:抛物线s=a+br+cr2c0s:税收;r:税率设X1=r,X2=r2,则原方程变换为s=a+bX1+cX2c0三、可线性化的非线性模型2、幂函数模型、指数函数模型与对数变换法例如,Cobb-Dauglas生产函数:幂函数Q=AKLQ:产出量,K:投入的资本;L:投入的劳动方程两边取对数:lnQ=lnA+lnK+lnL3、复杂函数模型与级数展开法方程两边取对数后,得到:eLKAQ1)(21(1+2=1)Q:产出量,K:资本投入,L:劳动投入:替代参数,1、2:分配参数)(211LKLnLnALnQ例如,常替代弹性CES生产函数将式中ln(1K-+2L-)在=0处展开台劳级数,取关于的线性项,即得到一个线性近似式。如取0阶