摘要数理统计是具有广泛应用的数学分支,而区间估计和假设检验问题在其中占有很重要的地位。对于正态总体期望和方差的区间估计和假设检验问题已有完备的结论;对于非正态总体期望和方差的区间估计和假设检验问题,在大样本的情况下,可利用中心极限定理转化为正态总体来解决。但实际问题中常常碰到非正态总体,而且是小样本的情况,因此对它的区间估计和假设检验是一个值得研究的问题本文利用概率纶与数理统计中的所学的回归分析知识,对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,利用这些数据做出刀具厚度x关于时间y的线性回归方程,并MATLAB与EXCEL软件对验数据进行分析处理,得出线性回归系数与拟合系数等数据,并用F检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题,得出了刀具厚度x关于时间y的线性关系显著,并进行了深入研究,提出了小样本常用分布参数的置信区间与假设检验的解决方法。关键词:统计量法;置信区间;假设检验;线性关系;回归分析1目录一.设计目的............................................................................2二.设计问题............................................................................2三.设计原理............................................................................2四.方法实现............................................................................6五.设计总结..........................................................................16参考文献....................................................................................16致谢.....................................................................................172一.设计目的了解一元回归方程,回归系数的检验方法及应用一元回归方程进行预测的方法;学会应用MATLAB软件进行一元回归实验的分析方法。同时更好的了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合Excel对数据的处理解决实际问题。本设计是利用一元线性回归理论对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,并用Excel分析工具库中的回归分析软件进行解算。二.设计问题用切削机床进行金属加工时,为了适当地调节机床,需要测定刀具的磨损速度。在一定时间(例如每隔一小时)测量刀具的厚度,得到数据如下:切削时间hxi刀具厚度cmyi切削时间hxi刀具厚度cmyi030.01524.8129.11624.0228.41723.7328.11823.1428.01922.9527.72022.6627.52122.3727.22222.1827.02321.7926.82421.51026.52521.31126.32621.01226.12720.61325.72820.31425.32920.1由此,我们利用这些数据做出刀具厚度x关于时间y的线性回归方程。三.设计原理在实际问题中,经常会出现两个变量之间的相关关系不是线性的(即直线3型),而是非线性的(即曲线型)。设其中有两个变量x与y,我们可以用一个确定函数关系式:)(xyx大致的描述y与x之间的相关关系,函数)(xu称为y关于x的回归函数,方程)(xuy成为y关于x的回归方程。一元线性回归处理的是两个变量x与y之间的线性关系,可以设想y的值由两部分构成:一部分由自变量x的线性影响所致,表示x的线性函数bxa;另一部分则由众多其他因素,包括随机因素的影响所致,这一部分可以视为随机误差项,记为。可得一元线性回归模型bxay(1)式中,自变量x是可以控制的随机变量,成为回归变量;固定的未知参数a,b成为回归系数;y称为响应变量或因变量。由于是随机误差,根据中心极限定理,通常假定),0(~2N,2是未知参数。确定y与x之间的关系前,可根据专业知识或散点图,选择适当的曲线回归方程,而这些方程往往可以化为线性方程或者就是线性方程,因此我们可以用线性方程:bxay大致描述变量y与x之间的关系;1)模型回归系数的估计为了估计回归系数,假定试验得到两个变量x与y的n个数据对,3,2,1,,niyxii我们将这n对观测值代入式(1),得nibxaynii,3,2,1,这里n,,,21互独立的随机变量,军服从正态分布,即4n,1,2,3i),~N(0,2回归系数估计的方法有多种,其中使用最广泛的是最小二乘法,即要求选取的a,b,的值使得述随机误差ε的平方和达到最小,即求使得函数niiiniibxaybaQ1221,取得最小值的a,b。由于baQ,是a,b的二元函数,利用微积分中的函数存在极值的必要条件,分别对baQ,求a,b偏导数,并令其为0,构成二元一次方程组niiibxay00)(,010)(iiiiixbxay,化简后得到如下正规方程组,)(11niniiiybxnaa.)()(1112niiininiiiyxbxax解方程组得到总体参数ba,估计量iixnbnay1ˆ1ˆ,22)(ˆiiiiiixxnyxyxnb这里,)2,1(和niyxii均已有的观测数据。由此得到回归方程xbayˆˆ带入观测ix,得到值iy称为回归预测值。方程的直线称为回归直线。52)回归方程显著性检验建立一元线性回归方程当且仅当变量之间存在线性相关关系时才是有意义的,因此必须对变量之间的线性相关的显著性进行检验,即对建立的回归模型进行显著性检验。我们首先引入几个概念:(1)niTyySS1i2)(,称为TSS总偏差平方和,它表示观测值iy总的分散程度;(2)niRyySS1i2)ˆ(,称RSS为回归平方和,它是由回归变量x的变化引起的,放映了回归变量x对变量y线性关系的密切程度;(3)niiEyySS1i2)ˆ(,称ESS为残差(剩余)平方和,它是由观测误差等其他因素起误差,它的值越小说明回归方程与原数据拟合越好。可以证明下列关系成立ERTSSSSSS即niyy1i2)(=niyy1i2)ˆ(+niiyy1i2)ˆ(我们主要考虑回归平方和在总偏差和中所占的比重,记TRSSSSR2。(0=R=1),称R为复相关系数,用R的大小来评价模型的有效性,R越大,则反映回归变量与相应变量之间的线性函数关系越密切。引入F统计量。6定义)2(nSSSSFER,可知F~F(1,n-2).对于给定的显著水平a(一般这里取0.05或0.01),查表可得临界值Fa(1,n-2)如果FF(1,n-2),则认为y与x之间的线性关系显著;如果F=F(1,n-2),则认为y与x之间的线性关系不显著,或者不存在线性关系,在实际应用中也可以通过F对应的概率P来说明y与x之间的线性相关性显著。3)回归系数的置信区间回归方程(1)的回归系统^a,^b是一个点估计值,给定置信水平1-后,可得到他们对应的置信区间,并且回归区间越短越好,如果摸个回归系数的置信区间包含0点,则说明该回归变量的影响不显著,需要进一步地修改回归方程,尽量是每个回归系数的置信区间都不包含0点。4)利用模型预测在对所建立的回归模型进行相关程度检验与分析之后,如果预测变量y与相关变量x的每一个给定值x0,带入回归模型,就可以求得一个相对应的回归预测值0^y,0^y称为模型的点估计值。四.方法实现(1)输入数据,并输入作散点图命令:y=[3029.128.428.128.027.727.527.227.026.826.526.326.125.725.324.824.023.723.122.922.622.322.121.721.521.321.020.620.320.1];x=[01234567891011121314151617181920212223242526272829];plot(x,y,'*')生成图(1),可以看出x和y大体成线性关系。7图1散点图(横轴:X纵轴Y)(2)作一元回归分析,输入:n=length(y);X=[ones(n,1),x'];[b,bint,r,rint,s]=regress(y',X);b,bint,sb=29.5501-0.3329bint=29.332629.7676-0.3458-0.3200s=1.0e+003*0.00102.801900.00018这个结果可整理成表1的形式。回归系数回归系数估计值回归系数置信区间029.5501[29.3326,29.7676]1-0.3329[-0.3458,-0.3200]12R9.2801F001.0p表1MATLAB回归分析结果表一元回归方程为:xy3329.05501.29从几个方面都可以检验模型是有效的:F检验P-接近于0;1的置信区间不含零点;p;用MATLAB命令finv(0.95,1,28)计算得到FF1960.428,195.0,F为统计量观测值,所以X与Y的相关性显著。残差及其置信区间作图代码输入:rcoplot(r,rint)结果如图2所示:51015202530-1-0.8-0.6-0.4-0.200.20.40.60.81ResidualCaseOrderPlotResidualsCaseNumber图2残差图(横轴:削磨时间纵轴:残差分析值)所谓残差是指实际观察值与回归估计值的差,残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。从残差图可以9看出,数据的残差离零点较近,且残差的置信区间均包含零点,这说明回归模型xy3329.05501.29能很好的符合原始数据。(3)讲上面的回归系数估计值5501.29ˆ0,3329.0-ˆ1带入回归方程,刀具磨损速度的测试中,对时间间隔为30/h的刀具厚度进行预测,得到19.5631ˆ0y。在05.0,刀具的厚度预测区间简化为suysuy210210ˆ,ˆ,输入计算指令:t1=19.5631-norminv(0.0975,0,1)*sqrt(sum(r.^2)/16)t1=20.0742t2=19.5631+norminv(0.0975,0,1)*sqrt(sum(r.^2)/16)t2=19.0520即时间间隔为30/h的刀具磨损速度测试中,刀具厚度的置信度为0.95的预测区间为0742.20,0520.19。也可以用命令:y=[3029.128.428.128.027.727.527.227.026.826.526.326.125.725.324.824.023.723.122.922.622.322.121.721.521.321.020.620.320.1];x=[01234567891011121314151617181920212223242526272829];polytool(x,y,1,0.05)作出散点图及拟合曲线,并对30x时的y进行预报,结果如图3所示。10图3散点