沈阳理工大学理学院I成绩评定表学生姓名王青松班级学号1009010215专业信息与计算科学课程设计题目合金强度与碳含量的回归分析评语组长签字:成绩日期2012年06月28日沈阳理工大学理学院II课程设计任务书学院理学院专业信息与计算科学学生姓名王青松班级学号1009010215课程设计题目合金强度与碳含量的回归分析实践教学要求与任务:通过该课程设计,使学生进一步理解概率论与数理统计的基本概念、理论和方法;初步掌握Excel统计工作表在随机模拟中是应用,MATLAB统计软件包对数据进行统计检验和统计分析;具备初步的运用计算机完成数据处理的技能,使课堂中学习到理论得到应用。1.数据整理:收集数据,录入数据,画出相应图形;建立数学模型,数据的输入与整理,各种数据的图形显示。2.假设检验:MATLAB绘制出直方图,做数据分布的推测;参数估计,假设检验,绘制概率密度图。3.单因素、多因素方差分析:正态总体的方差分析问题;MATLAB统计软件中关于方差分析的相关命令,做出方差分析表,box图,能对结果进行简单分析。4.一元、多元线性回归模型:回归系数的估计与检验,数据散点与回归直线的图示,残差图。运用MATLAB统计软件,对给定的数据拟合回归方程。工作计划与进度安排:周三1~2节:选题,设计解决问题方法周三3~8节:调试程序周四1~4节:完成论文,答辩指导教师:张玉春2012年6月28日专业负责人:2012年7月8日学院教学副院长:2012年7月19日沈阳理工大学理学院III摘要数理统计是具有广泛应用的数学分支,而区间估计和假设检验问题在其中占有很重要的地位。对于正态总体期望和方差的区间估计和假设检验问题已有完备的结论;对于非正态总体期望和方差的区间估计和假设检验问题,在大样本的情况下,可利用中心极限定理转化为正态总体来解决。但实际问题中常常碰到非正态总体,而且是小样本的情况,因此对它的区间估计和假设检验是一个值得研究的问题。本文利用概率纶与数理统计中的所学的回归分析知识,对合金强度与碳含量之间的关系建立数学模型,利用这些数据做出碳含量x关于合金强度y的线性回归方程,并MATLAB与EXCEL软件对验数据进行分析处理,得出线性回归系数与拟合系数等数据,并用F检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题,得出了碳含量x关于合金强度y的线性关系显著,并进行了深入研究,提出了小样本常用分布参数的置信区间与假设检验的解决方法。关键词:统计量法;置信区间;假设检验;线性关系;回归分析沈阳理工大学理学院IV目录1设计目的······················································································12设计原理······················································································12.1模型回归系数的估计·······························································12.2回归方程显著性检验·······························································22.3回归系数的置信区间·······························································32.4利用模型预测········································································33设计问题······················································································43.1用matlab处理数据·································································43.2excel处理数据·······································································74设计总结····················································································12参考文献·························································································12沈阳理工大学理学院11设计目的了解一元回归方程,回归系数检验方法及应用一元回归方程进行预测的方法;学会应用MAATLAB软件进行一元回归实验的分析方法。2设计原理在实际问题中,经常会遇到两个变量之间的相关关系的(即直线型),而是非线性的(即曲线形)。设其中有两个变量X与Y,我们可以确定一个函数关系式:y=(x)大致的描述Y与X的相关关系,函数(x)称为Y关于X的回归函数,方程方程y=(x)称为Y关于X的回归方程。一元回归处理的是两个变量x与y之间的线性关系,可以设想y的值有两部分构成:一部分是自由变量x的线性影响所致,表示x的线性函数a+bx;另一部分只有众多其他因素,包括随机因素影响所致,这一部分可以视为随机误差项,记为,可以得到一元线性回归模型y=a+bx+······(1)式中,自变量x是可以控制的随机变量,由于是随机误差,可根据中心极限定理,假定~N(0,2),2是未知参数。确定Y与X的关系前,可根据散点图的形状,选择适当的曲线回归方程,而这些方程往往可以化为线性方程或者就是线性方程:y=a+bx大致描述变量Y与X之间的关系。2.1模型回归系数的估计为了估计回归系数,假定得到两个变量x与y的n个数据对(xi,yi),i=1,2,,···,n我们将这n对观测值带入(1)式,得yi=a+bxi+i,i=1,2,,···,n这里1,2,···,n是相互独立的随机变量,均服从正态分布即~N(0,2),i=1,2,3,···,n在一定意义下“最佳地”表现变量Y与X之间的相关关系,解决该问题,沈阳理工大学理学院2可以利用所谓的最小二乘法,即要求选取的a,b的值使得随机误差的平方和最小,即求使得函数Q(a,b)=nii12=niiibxay12)(取得最小值时的a,b。由于Q(a,b)是a,b的二元函数,利用函数存在极值的必要条件,Q(a,b)分别对求a,b偏导数,并令其为0,构成二元一次方程组niiibxay00)(,010)(iiiiixbxay,这里得到以下方程组,)(11niniiiybxnaa.)()(1112niiininiiiyxbxax解此方程组得参数a,b的估计值iixnbnay1ˆ1ˆ,22)(ˆiiiiiixxnyxyxnb由观测数据ix和iy(i=1,2,,····,n)得到回归方程xbayˆˆ带入ix,得到iy称为回归预测值。方程的直线称为回归直线。2.2回归方程显著性检验建立一元线性回归方程当且仅当变量之间存在线性相关关系时才是有意义的,因此必须对变量之间的线性相关的显著性进行检验,即对建立的回归模型进行显著性检验。我们首先引入几个概念:niTyySS1i2)(,称为TSS总偏差平方和,它表示观测值iy总的分散程度;niRyySS1i2)ˆ(,称RSS为回归平方和,它是由回归变量x的变化引起的,放映了回归变量x对变量y线性关系的密切程度;niiEyySS1i2)ˆ(,称ESS为残差(剩余)平方和,它是由观测误差等其他因素起误差,它的值越小说明回归方程与原数据拟合越好。沈阳理工大学理学院3可以证明下列关系成立ERTSSSSSS即niyy1i2)(=niyy1i2)ˆ(+niiyy1i2)ˆ(我们主要考虑回归平方和在总偏差和中所占的比重,记(0=R=1),称R为复相关系数,用R的大小来评价模型的有效性,R越大,则反映回归变量与相应变量之间的线性函数关系越密切。引入F统计量。定义,可知F~F(1,n-2).对于给定的显著水平a(一般这里取0.05或0.01),查表可得临界值Fa(1,n-2)如果FF(1,n-2),则认为y与x之间的线性关系显著;如果F=F(1,n-2),则认为y与x之间的线性关系不显著,或者不存在线性关系,在实际应用中也可以通过F对应的概率P来说明y与x之间的线性相关性显著。2.3回归系数的置信区间回归方程(1)的回归系统^a,^b是一个点估计值,给定置信水平1-后,可得到他们对应的置信区间,并且回归区间越短越好,如果摸个回归系数的置信区间包含0点,则说明该回归变量的影响不显著,需要进一步地修改回归方程,尽量是每个回归系数的置信区间都不包含0点。2.4利用模型预测在对所建立的回归模型进行相关程度检验与分析之后,如果预测变量y与相关变量x的每一个给定值x0,带入回归模型,就可以求得一个相对应的回归预测值0^y,0^y称为模型的点估计值。2nSSSSFERTRSSSSR2沈阳理工大学理学院43设计问题某合金强度与碳含量有关,研究人员在生产试验中收集了该合金的强度y与碳含x的数据如下表3.1。检测模型的可行度,检查数据中有无异常点。表3.1合金的强度y与碳含x的数据x0.100.110.120.130.140.150.160.170.180.190.200.23y42.041.540.145.545.047.549.055.050.055.055.560.53.1用matlab处理数据其实现MATLAB程序代码如下:y=[42.041.540.145.545.047.549.055.050.055.055.560.5];x=[0.100.110.120.130.140.150.160.170.180.200.210.23];plot(x,y,'+');n=length(y);X=[ones(n,1),x'];[b,bint,r,rint,s]=regress(y',X);b,bint,s运行结果:b=25.0168150.7361bint=19.652230.3814117.8538183.6184沈阳理工大学理学院5s=0.9125104.32630.00004.0437整理结果如下:回归系数回归系数估计值回归系数置信区间025.0168[19.6522,30.38141150.7361[111.8538,183.6184]R2=0.9125F=104.3263P=0.00000.05结果表明,回归模型y=25.0168+150.7361x成立。散点图如下:图3.1散点图沈阳理工大学理学院6残差效果图代码如下:y=[42.041.540.145.545.047.549.055.050.055.055.560.5];x=[0.100.110.120.130.140.150.160.170.180.200.210.23];[b,bint,r,rint,s]=regress(y',X);rcoplot(r,rint);从几个方面都可以检验模型是有效的:F检验P-接近于0;1的置信区间不含零点;p;用MATLAB命令finv(0.95,1,10)计算得到FF9646.410,195.0,F为统计量观测值,所以X与Y的相关性显著。残差图截图如图3.2图3.2残差图沈阳理工大学理学院7所谓残差是指实际观察值与回归估计值的差,残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。从残差图可以看出,数据的残差离零点较近,且残差的置