章末复习提升课第三章统计案例某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.回归分析x—y—w—∑8i=1(xi-x)2∑8i=1(wi-w—)2∑8i=1(xi-x)(yi-y)∑8i=1(wi-w—)(yi-y)46.65636.8289.81.61469108.8表中wi=xi,w—=18∑8i=1wi.(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β^=i=1n(ui-u)(vi-v)i=1n(ui-u)2,α^=v^-β^u—.【解】(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d^=i=18(wi-w)(yi-y)i=18(wi-w)2=108.81.6=68,c^=y—-d^w—=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.(3)回归分析.画残差图或计算R2,进行残差分析.(4)实际应用.依据求得的回归方程解决问题.在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:x(元)1416182022y(件)1210753且知x与y具有线性相关关系,求出y关于x的回归方程,并说明拟合效果的好坏.解:x—=15×(14+16+18+20+22)=18,y—=15×(12+10+7+5+3)=7.4,i=15x2i=142+162+182+202+222=1660,i=15xiyi=14×12+16×10+18×7+20×5+22×3=620,所以b^=i=15xiyi-5xyi=15x2i-5x2=620-5×18×7.41660-5×182=-1.15.所以a^=7.4+1.15×18=28.1,所以y关于x的回归方程为y^=-1.15x+28.1.列出残差表为yi-y^i00.3-0.4-0.10.2yi-y—4.62.6-0.4-2.4-4.4所以i=15(yi-y^i)2=0.3,i=15(yi-y—)2=53.2,R2=1-i=15(yi-y^i)2i=15(yi-y—)2≈0.994.所以R2≈0.994,拟合效果较好.某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数大于等于70的人,饮食以肉类为主.)独立性检验(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯;(2)根据以上数据完成如表所示的2×2列联表.主食蔬菜主食肉类总计50岁以下50岁以上总计(3)能否在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”?【解】(1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.(2)2×2列联表如表所示:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(3)随机变量K2的观测值k=30×(4×2-8×16)212×18×20×10=106.635,所以在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)先计算观测值k,再与临界值表作比较,最后得出结论.在考查黄烟是否经过药物处理与发生青花病的关系时,得到如下数据:在试验的470株黄烟中,经过药物处理的黄烟有25株发生青花病,60株没有发生青花病;未经过药物处理的有185株发生青花病,200株没有发生青花病.试推断经过药物处理跟发生青花病是否有关系.解:由已知,得2×2列联表如下:经过药物处理未经过药物处理总计青花病25185210无青花病60200260总计85385470提出假设H0:经过药物处理跟发生青花病无关系.根据列联表中的数据,可以求得随机变量K2的观测值k=470×(25×200-185×60)2210×260×85×385≈9.788.因为当H0成立时,K2≥7.879的概率约为0.005,而此时K2的观测值k≈9.7887.879,所以在犯错误的概率不超过0.005的前提下认为经过药物处理跟发生青花病是有关系的.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析:选D.相关系数r越接近于1和残差平方和m越小,两变量A,B的线性相关性越强,故选D.2.某大学数学系学生会为了调查爱好游泳运动与性别是否有关,通过随机询问110名性别不同的大学生是否爱好游泳运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)算得K2的观测值k=110×(40×30-20×20)260×50×60×50≈7.8.附表:P(K2≥k0)0.0500.0100.001k03.8416.63510.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下认为“爱好游泳运动与性别有关”B.在犯错误的概率不超过0.1%的前提下认为“爱好游泳运动与性别无关”C.在犯错误的概率不超过1%的前提下认为“爱好游泳运动与性别有关”D.在犯错误的概率不超过1%的前提下认为“爱好游泳运动与性别无关”解析:选C.因为K2≈7.8>6.635,但7.8<10.828,故在犯错误的概率不超过1%的前提下认为“爱好游泳运动与性别有关”,故选C.3.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁.为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:感染未感染总计服用104050未服用203050总计3070100附表:P(K2≥k0)0.100.050.025k02.7063.8415.024参照附表,在犯错误的概率不超过________(填百分比)的前提下,认为“小鼠是否被感染与服用疫苗有关”.解析:K2的观测值k=100×(10×30-20×40)230×70×50×50≈4.762>3.841,所以在犯错误的概率不超过5%的前提下,认为“小鼠是否被感染与服用疫苗有关”.答案:5%4.某市教育局邀请教育专家深入该市多所中小学,开展听课、访谈及随堂检测等活动,他们把收集到的180节课分为三类课堂教学模式,教师主讲的为A模式,少数学生参与的为B模式,多数学生参与的为C模式,A,B,C三类课的节数比例为3∶2∶1.(1)为便于研究分析,教育专家将A模式称为传统课堂模式,B,C统称为新课堂模式,根据随堂检测结果,把课堂教学效率分为高效和非高效,根据检测结果统计得到如下2×2列联表(单位:节)高效非高效总计新课堂模式603090传统课堂模式405090总计10080180请根据统计数据回答:能否在犯错误的概率不超过0.01的前提下认为课堂教学效率与教学模式有关?并说明理由.(2)教育专家采用分层抽样的方法从收集到的180节课中选出12节课作为样本进行研究,并从样本中的B模式和C模式课堂中随机抽取2节课,求至少有一节课为C模式课堂的概率.参考临界值有:P(K2≥k0)0.100.050.0250.0100.0050.001k02.7063.8415.0246.6357.87910.828参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解:(1)由列联表中的统计数据计算随机变量K2的观测值k=180×(60×50-40×30)2100×80×90×90=9>6.635,所以在犯错误的概率不超过0.01的前提下可以认为课堂效率与教学模式有关.(2)样本中的B模式课堂和C模式课堂分别是4节和2节.从中任取两节有C26=15(种)取法,其中至少有一节课为C模式课堂取法有C26-C24=9(种),所以至少有一节课为C模式课堂的概率为915=35.