第22课时统计1.(2012年广东)由正整数组成的一组数据x1,x2,x3,x4,其平均数和中位数都是2,且标准差等于1,则这组数据为________(从小到大排列).解析:不妨设x1≤x2≤x3≤x4,依题意,得x2+x3=4,x1+x2+x3+x4=8⇒x1+x4=4,s2=1⇔(x1-2)2+(x2-2)2+(x3-2)2+(x4-2)2=4.又x1+x2+x3+x4=8及中位数是2,故x1=x2=1,x3=x4=3,则这组数据为1,1,3,3.1,1,3,3时间x12345命中率y0.40.50.60.60.42.(2011年广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5天的平均投篮命中率为________,用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.-0.100.10.1-0.1∑-2-10120.2000.1-0.20.14101410解析:小李这5天的平均投篮命中率为=0.5,平均时间y=0.4+0.5+0.6+0.6+0.45x=1+2+3+4+55=3,yi-yxi-x(xi-x)(yi-y)(xi-x)2答案:0.50.53∴b^=i=15xi-xyi-yi=15xi-x2=0.110=0.01,a^=y-b^x=0.5—0.01×3=0.47,故线性回归方程为y^=0.47+0.01x,当x=6时,y^=0.47+0.01×6=0.53.3.(2011年广东)某数学老师身高176cm,他爷爷、父亲和儿子的身高分别是173cm,170cm和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.解析:根据题中所提供的信息,可知父亲与儿子的对应数据可列表如下:父亲的身高/x173170176儿子的身高/y170176182∵x=173,y=176,∴b^=i=13xi-xyi-yi=13xi-x2=3×6-32+32=1,a^=y-b^x=176-173=1,∴线性回归方程为y=x+3,从而可预测到他孙子的身高为182+3=185(cm).答案:1854.(2010年广东)已知随机变量X服从正态分布N(3.1),且P(2≤X≤4)=0.6826,则P(X4)=()A.0.1588B.0.1587C.0.1586D.0.1585解析:P(3≤X≤4)=12P(2≤X≤4)=0.3413,P(X4)=0.5-P(2≤X≤4)=0.5-0.3413=0.1587.B概率与统计是高考的必考内容,一般是一小一大,解答题属中低档题,大都为一题两问,既考概率又考统计,同时注重与函数、数列的整合,突出用概率、统计方法解决实际问题的能力.解析:由50×随机抽样例1:(2012年江苏)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.33+3+4=15,知:应从高二年级抽取15名学生.答案:15【配对练习】1.(2012年天津)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.解析:∵共有学校150+75+25=250(所),现采用分层抽样方法从这些学校中抽取30所,∴从小学中抽取30250×150=18(所),从中学中抽取30250×75=9(所).1892.某单位200名职工的年龄分布情况如图1,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1-200编号,并按编号顺序平均分为40组(1-5号,6-10号,…,196-200号).若第5组抽出的号码为22,则第8组抽出的号码应是________;若用分层抽样方法,则40岁以下年龄段应抽取________人.图1解析:由分组可知,抽号的间隔为5.又∵第5组抽出的号码为22,∴第6组抽出的号码为27,第7组抽出的号码为32,第8组抽出的号码为37.故40岁以下年龄段的职工人数为200×0.5=100(人),则应抽取的人数为×100=20(人).40200答案:3720线性回归方程例2:(2012年湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg^答案:D【思维点拨】本题主要考查两个变量间的相关性、最小二乘法及正相关、负相关的概念,并且是找不正确的结论,要特别注意.解析:由回归方程y^=0.85x-85.71,知:y随x的增大而增大,∴y与x具有正的线性相关关系.由最小二乘法建立的回归方程的过程,知y^=b^x+a^=b^x+y-b^x(a^=y-b^x),∴回归直线过样本点的中心(x,y).利用回归方程可以预测估计总体,故D不正确.【配对练习】A.nmC.n=mB.nmD.不能确定3.(2012年江西)样本(x1,x2,…,xn)的平均数为x,样本(y1,y2,…,ym)的平均数为y(x≠y),若样本(x1,x2,…,xn,y1,y2,…,ym)的平均数z=αx+(1-α)y,其中0α12,则n,m的大小关系为()∴nm.故选A.答案:A解析:由题意,知样本(x1,…,xn,y1,…,ym)的平均数为z=nx+mym+n=nm+nx+mm+ny,又z=αx+(1-α)y,即α=nm+n,1-α=mm+n.∵0α12,∴0nm+n12,即2nm+n,4.(2011年山东)某产品的广告费用x与销售额y的统计数据如下表:广告费用x/万元4235销售额y/万元49263954根据上表,可得回归方程9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元y^=b^x+a^中的b^为解析:由表可计算,x=4+2+3+54=72,y=49+26+39+544=42.∵点72,42在回归直线y^=b^x+a^上,且b^为9.4,∴42=9.4×72×a^,解得a^=9.1.故线性回归方程为y^=9.4x+9.1.令x=6,得y^=65.5.故选B.答案:B独立性检验例3:(2012年广东韶关一模)为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查,得到了如下的列联表:喜爱打篮球不喜爱打篮球合计男生5女生10合计50已知在全部50人中随机抽取1人,抽到喜爱打篮球的学生的概率为.35(1)请将上面的列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关?说明你的理由;(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为ξ,求ξ的分布列与期望.下面的临界值表供参考:P(K2≥k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828参考公式:K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d解:(1)列联表补充如下:喜爱打篮球不喜爱打篮球合计男生20525女生101525合计302050(2)∵K2=≈8.3337.879,∴在犯错误的概率不超过0.005的前提下,能认为喜爱打篮球与性别有关.50×20×15-10×5230×20×25×25(3)ξ的可能取值为0,1,2,P(ξ=0)=C010C215C225=720;P(ξ=1)=C110C115C225=12;P(ξ=2)=C210C015C225=320.故ξ的分布列为ξ012P72012320∴E(ξ)=0×720+1×12+2×320=45.男女总计爱好402060不爱好203050总计6050110【配对练习】5.(2011年湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K2=nad-bc2a+bc+da+cb+d,算得K2=110×40×30-20×20260×50×60×50≈7.8.参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:∵K2≈7.86.635,而P(K2≥6.635)=0.010,故选C.答案:CP(K2≥k)0.0500.0100.001k3.8416.63510.828附表:1.抽样方法主要有简单随机抽样、系统抽样、分层抽样,三者之间既有区别又有联系,但不论是哪种抽样方法,在整个抽样过程中,每个个体被抽到的概率是相等的.2.频率分布直方图中每个小矩形的面积等于数据落在相应区间上的频率,所有小矩形的面积之和等于1.3.回归直线方程为y^=b^x+a^,其中b^=i=1nxiyi-nxyi=1nx2i-nx2,a^=y-b^x.其中x=1ni=1nxi,y=1ni=1nyi,点(x,y)称为样本点的中心,回归直线都经过样本中心点.4.相关系数、相关指数.(1)相关系数:r=i=1nxiyi-nxyi=1nxi-x2i=1nyi-y2,当r0时,表示两个变量正相关;当r0时,表示两个变量负相关.r的绝对值越接近1,表示两个变量的线性相关性越强;r的绝对值越接近0,表示两个变量之间几乎不存在线性关系.通常当r的绝对值大于0.75时,认为两个变量有很强的线性相关关系.12211,()()niiinniiiixynxyxxyy(2)相关指数:R2=1-i=1nyi-yi^2i=1nyi-y2,R2越接近1,表示回归的效果越好.5.独立性检验.(1)假设H0:两个分类变量X和Y无关系.(2)利用公式,计算出随机变量K2=nad-bc2a+ba+cb+dc+d,其中用到两个分类变量X和Y的频数表,即2×2列联表:2121()()niiniiyyyy,R2越接近1,表示回归^y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d(3)通过查表,可以用K2的大小决定是否拒绝原来的统计假设H0,若K2的值较大,就拒绝H0,即拒绝X和Y无关.P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828例如:当K2≥3.841时,则有95%的把握说X和Y有关;当K2≥6.635时,则有99%的把握说X和Y有关.