河北大学统计学系第七章相关与回归分析河北大学统计学系学习目标能够正确判断客观现象之间存在的关系及其密切程度要正确掌握回归分析的概念及回归模型的确定方法河北大学统计学系主要内容相关分析的一般问题定性数据的相关分析定量数据的相关分析一元线性回归分析多元线性回归分析曲线回归分析河北大学统计学系第一节相关分析的一般问题河北大学统计学系河北大学统计学系第一节相关分析的一般问题相关分析的概念相关分析的主要内容相关分析的种类和特点相关分析的方法选择河北大学统计学系一、相关分析的概念相关分析是研究一个变量与另一个变量或另一组变量之间相互关系密切程度和相关方向的一种统计分析方法.yxnxxx,...,,21河北大学统计学系现象间存在普遍的联系与相互影响受教育的水平工作后的收入预防疾病支出疾病的发病率事物间的这种依存关系可以用数量关系表现出来.有两种类型:相关关系(非确定性依存关系)函数关系(确定性依存关系)河北大学统计学系1、函数关系变量间存在完全对应的相互依存关系.当自变量的值确定时,因变量就有一个完全确定的值和它相对应.销售额与销售量:销售额=销售量单价PQR确定性关系函数关系河北大学统计学系2、相关关系变量间客观存在的,在数量变化上受随机因素影响的、不严格、不确定的相互依存关系。家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。非确定性关系河北大学统计学系自变量因变量有时现象之间自变量和因变量的确定要根据研究的目的在具有相关关系的现象或变量中,作为变化根据的变量产生相应变化的变量河北大学统计学系二、相关分析的主要内容确定现象间有无依存关系确定相关关系的表现形式是什么判定相关关系的密切程度与方向如有曲线还是直线所谓相关分析,是指对变量之间的相关关系的表现形式、密切程度和变化方向进行分析和研究。河北大学统计学系三、相关关系的种类确定的因果的关系分不清因果的依存关系1、依存关系特点的不同自变量与因变量不能换位置自变量与因变量可以相互转化如:施肥量(自变量)与粮食产量(因变量)如:销售量与销售价格河北大学统计学系2.依相关关系的密切程度不完全相关完全相关不相关即函数关系我们研究的主要是这种关系河北大学统计学系负相关正相关3.依相关关系的方向自变量与因变量变化方向一致自变量与因变量变化方向相反河北大学统计学系曲线相关直线(线性)相关4.依相关关系的表现形式xyxy河北大学统计学系复相关单相关5.依涉及变量的多少一个自变量与一个因变量如:学习时间与成绩多个自变量与一个因变量如:粮食产量与施肥量、降水量河北大学统计学系四、相关分析的特点相关关系研究的两个变量是对等的两个变量之间只能计算出一个反映相互关系密切程度的相关系数,改变自变量与因变量的位置,不改变数值相关分析中两个变量均为随机变量对于简单直线相关河北大学统计学系五、相关分析的方法选择2交互列表法检验法品质相关系数分析法相关表相关图相关系数数据定比数据定距数据定序数据定量数据定性数据定类数据2x等级相关系数分析法列联表分析法河北大学统计学系第二节定性数据的相关分析河北大学统计学系河北大学统计学系交互列表分析法1.确定项目(变量名称)如:态度2.确定类目(变量表现)如:喜欢、一般、不喜欢3.排列形成交互列表如:调查各地240人对某电视剧的态度,结果为3*3交互列表编制交互列表河北大学统计学系交互列表分析法行边缘频数列边缘频数条件频数不能直接对比分析态度喜欢一般不喜欢合计城市北京上海重庆合计4030209020303080402010701008060240河北大学统计学系交互列表分析法行频率Hi:各行条件频数比上行边缘频数列频率Lj:各列条件频数比上列边缘频数总频率Pij:各条件频数比上总合计数计算三种频率河北大学统计学系交互列表分析法城市北京上海重庆合计%40/9030/9020/9010020/8030/8030/8010040/7020/7010/701001008060240态度喜欢%一般%不喜欢%样本量行频率分布表河北大学统计学系交互列表分析法城市北京上海重庆合计%44.433.322.210025.037.537.510057.128.614.31001008060240态度喜欢%一般%不喜欢%样本量行频率分布表样本量不同河北大学统计学系交互列表分析法城市北京上海重庆0.440.410.370.250.470.6250.570.360.238态度喜欢%一般%不喜欢%计算标准行频率分布表行频率除以相应的样本量河北大学统计学系对交互列表中的变量关系进行检验,运用统计量进行检验,以证明是否该样本所体现的变量关系在总体中也存在。检验222eefff202)(nlhfjie每个结点上的观察频数每个结点上对应的期望频率行边缘频数列边缘频数样本量河北大学统计学系检验城市北京上海重庆合计9080701008060240态度喜欢一般不喜欢合计行边缘频数列边缘频数条件频数=90*100/240=38=80*60/240=20对上例计算期望频数38332930272322201874.18)(202eefff2河北大学统计学系建立假设H0:变量不相关(态度与城市独立)H1:变量相关计算统计量74.18)(202eefff查分布表查表的临界值,若显著水平为0.05,查表得448.9)4(05.02比较决策则拒绝原假设,否则接受原假设18.749.448,拒绝原假设,认为相关检验步骤检验2α22河北大学统计学系检验虽然可以判断变量间是否相关,但无法判断相关程度的强弱。测定定性变量之间相关程度用相关系数,有系数、系数、系数、系数。品质相关系数2c河北大学统计学系品质相关系数系数主要用于描述2×2交互列表中各定类变量间的相关程度对于r×c交互列表(r或c大于2),则注:正负号没有含义河北大学统计学系品质相关系数系数c主要用于描述大于2×2交互列表中各定类变量间的相关程度局限性:大小受行数与列数的影响,且随行数和列数的增加而增大,因此只有当两个交互列表的行数与列数相同时,才能直接比较。河北大学统计学系品质相关系数系数河北大学统计学系品质相关系数系数河北大学统计学系等级相关系数用来描述两个定序变量或等级序列之间的相关程度。最常用的为斯皮尔曼等级相关系数:注:正负号有含义河北大学统计学系计算过程:1、对所取得的相关数据资料进行排序2、计算斯皮尔曼等级相关系数3、对计算结果进行显著性检验等级相关系数河北大学统计学系第三节定量数据的相关分析河北大学统计学系河北大学统计学系一、相关表表现现象之间相关关系的一种统计表。一般以x为自变量,y为因变量,在表格中一一对应地排列。可以初步反映相关关系的形式、密切程度和相关方向。可分为简单相关表和分组相关表两种。河北大学统计学系1、简单相关表生产性固定资产与工业总产值的相关表企业编号生产性固定资产总值x工业总产值y12345678910446778910101116212626313130373841河北大学统计学系2、分组相关表——单变量分组表按自变量分组,计算各组中的次数与因变量的组平均数。河北大学统计学系单变量分组表工人看管织机台数x工人数f时劳动生产率y5-77-99-1111-1313-1515-1717-19913202931324015182326333842只按自变量分组,未按因变量分组河北大学统计学系对自变量、因变量都进行分组,交叉列表,并列出两种变量的共同次数。又称棋盘式相关表。2、分组相关表——双变量分组表河北大学统计学系分组相关表——双变量分组表木材运量x1-1111-2121-3131-4141-51合计运材成本y16-2111-161-11合计257133743711211313824河北大学统计学系二、相关图又称散点图,横轴为自变量,纵轴为因变量.将对应的变量值用坐标点描绘出来。可以判断两变量之间有无相关关系,方向和程度如何。河北大学统计学系1、线性强正相关xy河北大学统计学系2、线性弱正相关xy河北大学统计学系3、线性强负相关xy河北大学统计学系4、线性弱负相关xy河北大学统计学系5、非线性相关(曲线相关)xy河北大学统计学系6、不相关xy河北大学统计学系三、相关系数反映两变量之间直线相关关系密切程度的统计分析指标。河北大学统计学系相关系数由何而来协方差(covariance):两个变量与其均值离差乘积的平均数,是相关关系的一种度量。nyyxxiixy))((2总体协方差:2xy河北大学统计学系对协方差的理解Ⅰ))((yyxx为正Ⅱ))((yyxx为负Ⅲ))((yyxx为正Ⅳ))((yyxx为负10名学生的身高与体重散点图4045505560657075155160165170175180身高(X)体重(Y)xy协方差为大的正值时,表示强的正线性相关关系。nyyxxiixy))((2河北大学统计学系10名学生的身高与体重散点图4045505560657075155160165170175180身高(X)体重(Y)对协方差的理解xy协方差接近于零时,表示很小或没有线性相关关系。nyyxxiixy))((2河北大学统计学系10名学生的身高与体重散点图4045505560657075155160165170175180身高(X)体重(Y)对协方差的理解协方差为大的负值时,表示强的负线性相关关系。nyyxxiixy))((2xy河北大学统计学系协方差为大的正值时,表示强的正线性相关关系。协方差接近于零时,表示很小或没有线性相关关系。协方差为大的负值时,表示强的负线性相关关系。似乎是这样Nyxyixixy))((2Nyxyixixy))((2cmkgmmkg大于基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。河北大学统计学系Nyxyixixy))((2Nyxyixixy))((2cmkgmmkgyxcmmmyxkgkg可比rr河北大学统计学系相关系数的计算相关系数:协方差与自变量、因变量标准差乘积的对比值。222)(1)(1))((1yynxxnyyxxnryxxy其值在-1和1之间,正值为正相关,负值为负相关。其绝对值接近0为不相关其绝对值在0.2和0.3左右为低度相关其绝对值在0.6左右为中度相关其绝对值在0.8以上为高度相关河北大学统计学系222)()())((yyxxyyxxryxxy积差法但此公式需要先有各变量的平均值,当均值计算中有保留时,计算结果将会有误差。影响准确性。约掉共因子1/n后河北大学统计学系nxxxnxxnnxxxnxxxxxxxxxxxxxxxxx2222222222222222)(2222)2()(进一步推导河北大学统计学系nyyyy222)()(nyxxyyyxx))((nxxxx222)()(xxLyyLxyL同理河北大学统计学系222)()())((yyxxyyxxryxxy积差法2222)()())((yynxxnyxxynLLLrxyxxxyxxLyyLxyL简捷法河北大学统计学系例题人均销售额x利润额yx2y2xy6581476337合计5012.610.418.53.08.116.312.36.26.616.8110.836256411649369949294158.76108.06342.259.0065.61265.69151.2938.4443.56282.241465.0075.052.0148.03.032.4114.173.818.619.8117.6654.9987.08.11014651050294108.110509.65410