事故预测技术目录

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1概述1.1事故的基本概念1.2导致事故的危险因素1.3事故的预防与预测1.4预测的概念及常用预测方法2定性预测方法2.1调查预测法2.2专家预测法2.3主观概率法3时间序列平滑预测法3.1时间序列概述3.2移动平均法3.3指数平滑法4一元线性回归预测法4.1引言“回归”这个概念,是1877年美国遗传学家高尔顿(F•Gaolton)提出来的。他是在研究了人类身高的遗传性时,发现父母身高在子女身高遗传上有回归现象。在1889年发表的著作《自然的遗传》中,高尔顿发现,虽然有一个趋势,父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。此后,回归的含义被进一步扩大,回归的现代涵义与过去大不相同。现被广泛应用于变量间的数量关系分析。一般说来,回归是研究因变量随自变量变化的关系形式的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。回归分析方法是一种应用非常广泛地分析方法。通过本章及后两章的学习,要了解一元线性回归模型估计的基本原理、多元线性回归模型预测、非线性回归模型预测,掌握一元线性回归模型的建立、应用和回归参数的检验方法,并能够根据模型进行预测。回归分析是对具有相关关系的变量之间的数量变化规律进行测定,研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动关系,建立变量间的数量关系近似表达的函数方程,并进行参数估计和显著性检验以后,运用回归方程式对因变量进行估计和预测的分析方法。由回归分析求出的关系式,称为回归模型。下边对回归模型预测的步骤进行了归纳:1、选定预测的变量及主要的影响因素(原因变量—自变量);2、收集历史数据(或通过市场调查);3、分析变量间的关系建立回归模型;4、参数估计:最小二乘法;5、回归预测模型的显著性检验;6、利用回归模型进行预测。4.2一元线性回归模型及其假设条件4.2.1.一元线性回归模型一元线性回归预测是是指成对的两个变量数据分布大体上呈直线趋势时,运用合适的参数估计方法,求出一元线性回归模型,然后根据自变量与因变量之间的关系,预测因变量的趋势。很多社会经济现象之间都存在相关关系,因此,一元线性回归预测有很广泛的应用。进行一元线性回归预测时,必须选用合适的统计方法估计模型参数,并对模型及其参数进行统计检验。假定变量x与y之间存在某种呈线性关系,其中,x为可控制或可精确观测的普通变量,y是随机变量。对于x的一组不全相同的值x1,x2,…,xn进行独立试验,得到随机变量y的观测值y1,y2,…yn,如此构成n对数据(x1,y1),(x2,y2),…,(xn,yn),称之为一组容量为n的样本,作出相应的散点图,若从图上可以看出点(xi,yi)(i=1,2,…,n)大致分布在一条直线附近,即可假设x与y之间大致存在线性相关关系。假定一元线性回归模型结构为:yi=b0+b1xi+ξi(4-1)式中,yi表示第i名个体在因变量Y(也称结果变量、反应变量或内生变量)上的取值,Y是一个随机变量。xi表示第i名个体在自变量X(也称解释变量、反应变量或外生变量)上的取值。注意,与Y不同,X虽然被称作变量,但它的各个取值其实是已知的,只是其取值在不同的个体之间变动。b0和b1是模型的参数,通常是未知的,需要根据样本数据进行估计。ξ是随机误差项,也是随机变量,代表了X与Y关系模型之外的其他影响。4.2.2.一元线性回归模型的假设条件用最小二乘法进行模型参数的估计时,要求满足一定的假设条件:1)ξi是一个随机变量;2)ξi的均值为零,即E(ξi)=0;3)在每一个时期中,ξi的方差为常量;4)各个ξi相互独立;5)ξi与自变量无关。4.3模型参数的估计及检验接下来的问题便是如何估计回归方程中的截距系数b0和斜率系数b1。4.3.1模型参数的估计1.最小二乘法为了找到好的b0和b1估计量,我们采用最小二乘法(ordinaryleastsquares,简称OLS)。该方法的基本思路是:根据从总体中随机抽出的样本,在平面直角坐标系中找到一条直线=a+bxi,使得观测值yi和拟合值i之间的距离最短,即两者之间残差(ui=y-i)的平方和(记为D)最小。数学上,我们可以讲残差平方和表示为:niiiniiiniixyyyu121212)ba()ˆ(D根据微积分知识。我们知道,要想使公式取得最小值,须满足以下两个条件:0bx-a-y2-an1iii)(D(4-2)0yx2bn1ii)(iibxaD(4-3)进一步将公式和加以整理得到以下正态方程:niniiiyxbna11(4-4)n1112ixaininiiiyxxb(4-5)求解公式和组成的正态方程组,我们可以得到:222iiiiiixxnyxxyxa(4-6)222bxxyyxxxxnyxyxniiiiiiii(4-7)这样我们就得到了回归系数的最小二乘估计。xbyxxnyxyxnbniniiiniiniiniiiˆaˆˆ1212111(4-8)请注意“最小平方和”并不是“最佳估计”的唯一标准。直观地看,如果仅仅表示观测值和预测值之间距离最短,那么计算两者间距离绝对值的最小和似乎会是一种更好的估计。实际上,用距离绝对值的最小和做标准可以得到具体有更好统计性质的估计值。但是,最常用的估计法还是最小二乘法,因为这种方法的公式简单,计算仿版,得到的回归系数a和b具有更好的统计性质。2.极大似然估计法极大似然估计法是利用总体的分布密度或概率分布的表达式及其样本所提供信息建立起来求未知数参数估计量的一种方法。当总体X为连续性分布时,设其分布密度组为{f(x,θ),θ∈Φ},假设总体X的一个独立同分布的样本为X1,X2…,Xn。其似然函数为niinxfxxx121);(,....,,;L对连续随机变量,似然函数就是样本的联合分布密度函数,对离散型随机变量,似然函数就是样本的联合概率函数。极大似然估计应在一切θ中选取使随机样本(X1,X2…,Xn)落在点(X1,X2…,Xn)附近的概率最大的为未知参数θ真值的估计值。即选取满足),...,,;(maxx...xxˆL21n21nxxxL,,,;对于一元线性回归模型参数的极大似然估计,我们如果已经得到样本观测值(xi,yi),其中,xi为非随机变量,y1,y2,…,yn为随机样本。那么假设,则εi~N(0,σ2)时,yi服从如下正太分布yi~N(a+bxi,σ2),yi的分布密度为nibxayii,...,2,1,)(21exp21yf22ii于是y1,y2,…,yn的似然函数为niniiiiibxayyfbaL112222221exp2,,由于L的极大化与In(L)的极大化是等价的所以取对数似然函数为2122212ln2lnniiibxaynL求式的极大值,等价于对niibxay1i2求极小值,到此又与最小二乘原理完全相同。4.3.2模型检验1.回归方程的拟合优度检验在用样本观测值和参数估计方法确定了回归模型的参数后,需要检验样本回归线对样本观测值的拟合优度。当样本观测值离回归线越近,则说明回归方程的拟合优度越好。假定样本观测值为(xi,yi),i=1,2,…n,通过参数估计得经验回归模型iixbaˆˆyˆ,因变量的第i个观测值与样本均值的离差yyi可分为两部分之和yyyyyyiiiiˆˆ其中部分可由样本回归线来解释,iiiyyˆe为残差,它不能有样本回归线解释。通常对样本值较多时考察一个离差是不切实际的,为了计算方便,我们用离差平方和来考虑,则yyyyyyyyyyiniiiniiniiiiiˆˆ2ˆˆ1121n12可以证明上式最末项为零,从而niiiniiiiyyyyyy1212n12ˆˆ)(可以简写成SST=SSR+SSESST=niyy1i2---总离差平方和SSR=n12ˆiiyy---回归平方和SSE=n12ˆiiiyy---残差平方和将式两端同除以SST并移项,得SSTSSESSTSSR1,可以看到,回归平方和越大,在总离差平方和中的比例也越大,则样本回归线对样本值的拟合优度越好。称回归平方和SSR与总离差平方和SST之比为决定系数,也叫判定系数,即niiniiyyyySSTSSESSTSSRr12122ˆ1决定系数是回归线与样本观测值之间拟合优度的指标,并且有0≤r2≤1。当r2越接近1,回归方程拟合优度越好;当r2越接近0,则回归方程的拟合效果不理想,此时需要对模型进行修改,以便得到合适的模型来用于预测。实际计算中,若已估算出,决定系数可由下式计算2222)(ˆryyxxbii2.回归方程的显著性检验变量的显著性检验所应用的方法是数理统计学中的假设检验,主要是针对变量的参数真值是否为零来进行显著性检验的。已知线性回归模型中的估计参数满足正态分布2n1a,N~aˆxxLxxxLbN2,~bˆ由于检验系数a是否为零的意义不大,故通常只检验b是否取值为0。(1)t检验由回归系数的区间估计,可以给出回归系数显著性的t检验法,具体步骤如下:检验的原假设是H0:a=0;对立假设是H1:b≠0。已知线性回归模型中的估计参数满足正态分布xxL/ˆbˆt2其中niiiniiyyne12122)ˆ(212-n1ˆ为σ2的无偏估计。给出显著性水平α,查表自由度为(n-2)的t分布表,得到临界值)2(t2/n。当|t|)2(t2/n时接受原假设,认为b为0,自变量的变化对因变量并没有影响,回归模型没有意义;当|t|≧)2(t2/n时,拒绝原假设,接受H1:b≠0,认为b不为零,从而因变量y与自变量x间存在一元线性关系。2.F检验F检验的思想来自于总离差平方和的分解式(),由分解式可知,回归平方和在总离差平方和中所占比例越大,说明回归效果越好。构造统计量为)2/(1/SSRFnSSE给定显著性水平α,查自由度为(1,n-2)的F分布表,得到临界值Fα(1,n-2)。当F值大于临界值Fα(1,n-2)时拒绝原假设H0:b=0,说明回归方程的自变量与因变量之间有显著的线性关系。也可以根据P值小于α时拒绝原假设;否则接受原假设。下面我们给出一元回归方差分析,如表所示一元回归方差分析表方差来源平方和自由度均方F值P值回归SSR1SSR/1)2/(1/SSRnSSEP值P(FF值)残差SSEn-2SSE/(n-2)总和SSTn-1注:一元线性回归,t检验与F检验一致。一方面,t检验与F检验都是对相同的原假设H0:b=0进行检验;另一方面,两个统计量之间有如下关系:F=t2。4.4预测区间下面我们探讨当x=x0时,y0的观测值在什么范围内的问题。由于y0是随机变量,为此只能求一个区间,使这一区间包含y0的概率为1-α,即要求δ,使P(|00ˆyy|)〈δ=1-α,称区间(,)为y0的概率或置信度为1-α的预测区间。因为(x0,y0)是将要做的一次独立试验的结果,故y0,y1,…,yn相互独立,从而y0,0ˆy相互独立。于是由200,~ybxaN和200001,~ˆˆˆxxlxxnbxaNxbay得22000)(11,0~ˆyxxlxxnNy于是对给定的置信度1-α,有

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功