第1页共3页回归分析和独立性检验一、回归分析1、回归直线方程axbyˆˆˆ(x叫做解释变量,y叫做预报变量)其中niiniiixxyyxxb121)())((ˆ=niiniiixnxyxnyx1221(由最小二乘法得出,考试时给出此公式中的一个)xbyaˆˆ(此式说明:回归直线过样本的中心点)(yx,,也就是平均值点。)2、几条结论:(1)回归直线过样本的中心点)(yx,。(2)b0时,y与x正相关,散点图呈上升趋势;b0时,y与x负相关,散点图呈下降趋势。(3)斜率b的含义(举例):如果回归方程为y=2.5x+2,说明x增加1个单位时,y平均增加2.5个单位;如果回归方程为y=-2.5x+2,说明x增加1个单位时,y平均减少2.5个单位。(4)相关系数r表示变量的相关程度。范围:1r,即11rr越大.,相关性越强.。0r时,y与x正相关;0r时,y与x负相关。(5)相关指数2R表示模型的拟合效果。范围:]10[2,R2R越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀,带状区域宽度越窄,拟合精度越高)。2R表示解释变量x对于预报变量y变化的贡献率。例如:64.02R,表明“x解释了64%的y变化”,或者说“y的差异有64%是由x引起的”。(6)线性回归模型eabxy,其中e叫做随机误差。(y是由x和e共同确定的。)二、独立性检验1、原理:假设性检验(类似反证法原理)。一般情况下:假设分类变量X和Y之间没有关系,通过计算2K值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1-P),也就是“X和Y有关系”。(表中的k就是2K的观测值,即2Kk)))()()(()(22dbcadcbabcadnK第2页共3页2、22列联表:(考试给出)部分对照表(考试时会给出用到的一部分数据):3、范围:),0(2K;性质:2K越大.,说明变量间越有关系...。三、典型例题例1、右表中是生产某种产品x(吨)与相应消耗的煤y(吨)记录数据:(1)画出数据的散点图;(2)求线性回归直线方程;(3)估计生产7吨产品时,消耗的煤约为多少吨?解:(1)散点图如右。从图中可以看出x与y正相关。(2)(提示:把原数据表抄一遍,并且增加2行和1列,计算出后面需要用到的数据)设回归直线方程为axbyˆˆˆ25.44865.35.445.66ˆb=0.7,35.05.47.05.3ˆˆxbya所以,回归方程为:35.07.0xy(3)当7x时,25.535.077.0y所以,估计..生产7吨产品时,消耗的煤约为5.25吨。例2、为了考察某药物预防疾病的效果,现对105人进行试验调查,得到22列联表。试判断:服用药物和患病之间是否有关系?解:105n,10a,45b,20c,30d1y2y总计1xabba2xcddc总计cadbdcbanP0.100.050.0250.0100.0050.0012Kk2.7063.8415.0246.6357.87910.828x3456y2.5344.52ix9162536862ixx34565.4xy2.5344.55.3yiiyx7.51220275.66iiyx患病未患病总计服用药104555未服用药203050总计3075105108642-2-4-6-8-10-15-10-551015第3页共3页75305055)20453010(10522K6.1095.024(提示:运算时尽量先约分化简,再计算)所以,有1-0.025=97.5%的把握认为服用药物和患病之间有关系。