1统计与统计案例1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中低档题.1.随机抽样(1)简单随机抽样特点为从总体中逐个抽取,适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取,适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取,适用范围:总体由差异明显的几部分组成.2.常用的统计图表(1)频率分布直方图①小长方形的面积=组距×频率组距=频率;②各小长方形的面积之和等于1;③小长方形的高=频率组距,所有小长方形的高的和为1组距.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好.3.用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数数字特征样本数据频率分布直方图众数出现次数最多的数据取最高的小长方形底边中点的横坐标中位数将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标平均数样本数据的算术平均数每个小矩形的面积乘以小矩形底边中点的横坐标之和(2)方差:s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2].标准差:2s=1nx1-x2+x2-x2+…+xn-x2].4.变量的相关性与最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),…,(xn,yn),通过求Q=i=1n(yi-a-bxi)2最小时,得到线性回归方程y^=b^x+a^的方法叫做最小二乘法.5.独立性检验对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:y1y2总计x1aba+bx2cdc+d总计a+cb+dn则K2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d为样本容量).考点一抽样方法例1(2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为()A.7B.9C.10D.15答案C解析由系统抽样的特点知:抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729=459+(n-1)×30,解得n=10.所以做问卷B的有10人.在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为Nn(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样3方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值.(1)(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()7816657208026314070243699728019832049234493582003623486969387481A.08B.07C.02D.01(2)某单位200名职工的年龄分布情况如图所示,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.答案(1)D(2)3720解析(1)从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.(2)由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,即第n组抽取的号码为5n-3,所以第8组抽出的号码为37;40岁以下年龄段的职工数为200×0.5=100,则应抽取的人数为40200×100=20人.考点二用样本估计总体例2(1)(2013·四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是()(2)(2013·江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员第1次第2次第3次第4次第5次甲8791908993乙8990918892则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.答案(1)A(2)24解析(1)由于频率分布直方图的组距为5,去掉C、D,又[0,5),[5,10)两组各一人,去掉B,应选A.(2)x甲=15(87+91+90+89+93)=90,x乙=15(89+90+91+88+92)=90,s2甲=15[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,s2乙=15[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.(1)反映样本数据分布的主要方式有:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.在“2012魅力新安江”青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图,据此回答以下问题:(1)求参赛总人数和频率分布直方图中[80,90)之间的矩形的高,并完成直方图;(2)若要从分数在[80,100]之间任取两份进行分析,在抽取的结果中,求至少有一份分数在[90,100]之间的概率.解(1)由茎叶图知,分数在[50,60)之间的频数为2.由频率分布直方图知,分数在[50,60)之间的频率为0.008×10=0.08.所以参赛总人数为20.08=25(人).分数在[80,90)之间的人数为25-2-7-10-2=4(人),分数在[80,90)之间的频率为425=0.16,得频率分布直方图中[80,90)间矩形的高为0.1610=0.016.完成直方图,如图.(2)将[80,90)之间的4个分数编号为1,2,3,4;[90,100]之间的2个分数编号为55和6.则在[80,100]之间任取两份的基本事件为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6),共15个,其中至少有一个在[90,100]之间的基本事件为(1,5),(1,6),(2,5),(2,6),(3,5),(3,6),(4,5),(4,6),(5,6),共9个.故至少有一份分数在[90,100]之间的概率是915=35.考点三统计案例例3(2013·重庆)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=110xi=80,i=110yi=20,i=110xiyi=184,i=110x2i=720.(1)求家庭的月储蓄y对月收入x的线性回归方程y=bx+a;(2)判断变量x与y之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y=bx+a中,b=i=1nxiyi-nxyi=1nx2i-nx2,a=y-bx,其中x,y为样本平均值,线性回归方程也可写为y^=b^x+a^.解(1)由题意知n=10,x=1ni=1nxi=8010=8,y=1ni=1nyi=2010=2,又lxx=i=1nx2i-nx2=720-10×82=80,lxy=i=1nxiyi-nxy=184-10×8×2=24,由此得b=lxylxx=2480=0.3,6a=y-bx=2-0.3×8=-0.4,故所求线性回归方程为y=0.3x-0.4.(2)由于变量y的值随x值的增加而增加(b=0.30),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y=0.3×7-0.4=1.7(千元).(1)对具有线性相关关系的两个变量可以用最小二乘法求线性回归方程,求b^是关键,其中b^=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nx2i-nx2.(2)在利用统计变量K2(χ2)进行独立性检验时,应该注意数值的准确代入和正确计算,最后把计算的结果与有关临界值相比较.(1)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110由K2(χ2)=nad-bc2a+bc+da+cb+d算得,K2(χ2)=-260×50×60×50≈7.8.附表:P(K2(χ2)≥k)0.0500.0100.001k3.8416.63510.828参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”(2)已知x、y取值如下表:x014568y1.31.85.66.17.49.3从所得的散点图分析可知:y与x线性相关,且y^=0.95x+a^,则a^等于()7A.1.30B.1.45C.1.65D.1.80答案(1)C(2)B解析(1)根据独立性检验的定义,由K2(χ2)≈7.86.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选C.(2)依题意得,x=16×(0+1+4+5+6+8)=4,y=16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y^=0.95x+a^必过样本点中心(x,y),即点(4,5.25),于是有5.25=0.95×4+a^,由此解得a^=1.45.1.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.(2)众数、中位数及平均数的异同众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.①总体期望的估计,计算样本平均值x=1n∑ni=1xi.②总体方差(标准差)的估计:方差=1n∑ni=1(xi-x)2,标准差=方差,方差(标准差)较小者较稳定.2.线性回归方程y^=b^x+a^过样本点中心(x,y),这为求线性回归方程带来很多方便.3.独立性检验(1)作出2×2列联表.(2)计算随机变量K2(χ2)的值.(3)查临界值,检验作答.1.经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中8持“一般”态度的学生比持“不喜欢”的学生多12人,按分层抽样的方法(抽样过程中不需要剔除个体)从全班选出