学习-----好资料更多精品文档统计案例一、知识要点1.回归分析(1)定义:对具有____________的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线y^=b^x+a^的斜率和截距的最小二乘估计分别为:b^=________________,a^=____________.(3)相关指数R2=________________________________.R2的值越大,说明残差平方和________,也就是说模型的拟合效果________.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的__________,像这类变量称为分类变量.(2)列联表:列出两个分类变量的__________,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为构造一个随机变量K2=____________________,其中n=____________为样本容量.(3)独立性检验利用随机变量________来判断“两个分类变量__________”的方法称为独立性检验.题型一线性回归分析【例1两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25练习:1.下列说法错误..的个数是()A.1B.2C.3D.4①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y^=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程y^=bx+a必过(x,y);④曲线上的点与该点的坐标之间具有相关关系;2.[2014·新课标全国卷Ⅱ]某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d学习-----好资料更多精品文档题型二独立性检验【例2某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.说明:下图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.(1)根据以上数据完成2×2列联表:主食蔬菜主食肉类合计50岁以下50岁以上合计(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关,并写出简要分析.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(如下表)P(K2≥k0)0.250.150.100.050.0250.0100.0050.001k01.3232.0722.7063.8415.0246.6357.87910.828题型三独立性检验的综合应用例3为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例.(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?练习:为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:喜爱打篮球不喜爱打篮球合计男生5女生10合计50已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由;学习-----好资料更多精品文档(3)已知喜爱打篮球的10位女生中,A1,A2,A3,A4,A5还喜欢打羽毛球,B1,B2,B3还喜欢打乒乓球,C1,C2还喜欢踢足球,现再从喜欢打羽毛球、喜欢打乒乓球、喜欢踢足球的女生中各选出1名进行其他方面的调查,求B1和C1不全被选中的概率.课后练习1.随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110得到的正确结论是()A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”2.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()①若K2的观测值满足K2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.A.①B.①③C.③D.②3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:则认为选修文科与性别有关系出错的可能性为________.4.某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,可以有________的把握认为该学校15至16周岁的男生的身高和体重之间有关系.超重不超重合计偏高415不偏高31215合计713205.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).6.为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列结论中,正确结论的是________.7.下列命题正确的个数是()A.1B.2C.3D.4(1)回归分析是对具有函数关系的两个变量进行统计分析的一种方法;(2)线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱;(3)残差平方和越小的模型,模型拟合的效果越好;(4)用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好.(5)在回归线方程=0.4x+12中,变量x每增加一个单位,平均增加约为0.4个单位理科文科男1310女720学习-----好资料更多精品文档8.[2014·辽宁卷]一家面包房根据以往某种面包的销售记录,绘制了日销售量的频率分布直方图,如图14所示.图14将日销售量落入各组的频率视为概率,并假设每天的销售量相互独立.(1)求在未来连续3天里,有连续2天的日销售量都不低于100个且另1天的日销售量低于50个的概率;(2)用X表示在未来3天里日销售量不低于100个的天数,求随机变量X的分布列,期望E(X)及方差D(X).