从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中.事物之间不仅存在着相互联系,而且还具有一定的内部规律.例如,矩形的面积S和矩形的两条边长a和b有关系:又如著名的欧姆定律指出,电压V、电阻R与电流I之间有关系:S=a.babSV=I.R让我们来看一下有联系的变量之间的关系:以上两例的共同点在于,三个量中任意两个已知,其余一个就可以完全确定.也就是说,变量之间存在着确定性的关系,并且可以用数学表达式来表示这种关系.然而,在大量的实际问题中,变量之间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述.例如,人的身高与体重之间有一定的关系,知道一个人的身高可以大致估计出他的体重,但并不能算出体重的精确值.其原因在于人有较大的个体差异,因而身高和体重的关系,是既密切但又不能完全确定的函数关系.类似的变量间的关系在大自然和社会中屡见不鲜.例如,小麦的穗长与穗重的关系;某班学生最后一次考试分数与第一次考试分数的关系;温度、降雨量与农作物产量间的关系;人的年龄与血压的关系;最大积雪深度与灌溉面积间的关系;家庭收入与支出的关系等等.从数量的角度去研究这种关系,是数理统计的一个任务.这包括通过观察和试验数据去判断变量之间有无关系,对其关系大小作出数量上的估计,对互有关系的变量通过其一去推断和预测其它,等等.回归分析就是研究相关关系的一种重要的数理统计方法.这种大量存在的变量间既互相联系但又不是完全确定的关系,称为相关关系.回归这一术语是1886年英国生物学家高尔顿在研究遗传现象时引进的.他发现:虽然高个子的先代会有高个子的后代,但后代的增高并不与先代的增高等量.他称这一现象为“向平常高度的回归”.尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据:y=0.516x+33.73(英寸)分析出儿子的身高y和父亲的身高x大致为如下关系:这意味着,若父亲身高超过父亲平均身高6英寸,那么其儿子的身高大约只超过儿子平均身高3英寸,可见有向平均值返回的趋势.诚然,如今对回归这一概念的理解并不是高尔顿的原意,但这一名词却一直沿用下来,成为统计学中最常用的概念之一.在回归分析中,当变量只有两个时,称为一元回归分析;当变量在两个以上时,称为多元回归分析.变量间成线性关系,称线性回归,变量间不具有线性关系,称非线性回归.一元回归多元回归线性非线性在这一讲里,我们主要讨论的是一元线性回归.它是处理两个变量之间关系的最简单的模型.它虽然比较简单,但我们从中可以了解到回归分析的基本思想、方法和应用.设随机变量y与变量x之间存在着某种相关关系,其中x是能够控制或可以精确测量的变量.年龄身高施肥量积雪深度x…y灌溉面积产量血压体重…为了今后研究方便,我们把x当作普通变量,而不把它看作随机变量.对于x的一组不完全相同的值x1,x2,…,xn作独立观察,得到随机变量y相应的观察值y1,y2,…,yn,构成n对数据.用这n对数据可作出一个散点图,直观地描述一下两变量之间的关系.yxo············这里有三幅散点图.yxo··········(1)oyx············(2)yxo····················(3)根据散点图,考虑以下几个问题:(1)两变量之间的关系是否密切,或者说我们能否由x来估计y.(2)两变量之间的关系是呈一条直线还是呈某种曲线.(3)是否存在某个点偏离过大.(4)是否存在其它规律.yxo··········(1)oyx············(2)yxo····················(3)考虑采用线性方程拟合采用非线性方程拟合以下重点讨论前者一元线性回归为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度x与当年灌溉面积y,得到连续10年的数据如下表:让我们用一个例子来说明如何建立一元线性回归方程.年序最大积雪深度x(米)灌溉面积y(公顷)15.1190723.5128737.1269346.2237358.8326067.8300074.5194785.6227398.03113106.42493为了研究这些数据中所蕴含的规律性,我们由10对数据作出散点图.从图看到,数据点大致落在一条直线附近,这告诉我们变量x和y之间大致可看作线性关系.yxo4000300020001000246810···········从图中还看到,这些点又不完全在一条直线上,这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.事实上,还有许多其它因素对y产生影响,如当年的平均气温、当年的降雨量等等,都是影响y取什么值的随机因素.其中a和b是未知常数,称回归系数,ε表示其它随机因素对灌溉面积的影响.0)(D0)(E22未知y=a+bx+ε如果我们只研究x和y的关系,可以假定有如下结构式:实际中常假定ε服从正态分布N(0,σ2),即y=a+bx+ε,ε~N(0,)(1)2为一元线性回归模型.通常称由(1)式,我们不难算得y的数学期望:E(y)=a+bx该式表示当x已知时,可以精确地算出E(y).由于ε是不可控制的随机因素,通常就用E(y)作为y的估计,记作.这样我们得到yˆ称此方程为y关于x的回归方程.(2)xbayˆˆˆ现对模型(1)中的变量x,y进行了n次独立观察,得样本(x1,y1),…,(xn,yn)(3)据(1)式,此样本的构造可由方程y=a+bx+ε,ε~N(0,)(1)2,i=1,2,…,n(4)iiibxay这里是第i次观察时随机误差所取的值,它是不能观察的.i来描述.i=1,2,…,n(5)0)(0)(2iiDE(4)式和(5)式结合,给出了样本(x1,y1),…,(xn,yn)的概率性质.它是对理论模型进行统计分析推断的依据.也常称(4)+(5)为一元线性回归模型.由于各次观察独立,有,i=1,2,…,n(4)iiibxay

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功