6.3统计与概率大题-2-年份卷别设问特点涉及知识点题目类型解题思想方法2015全国1据散点图选函数模型拟合,求回归方程,求预报值散点图、回归方程回归分析整体代换、换元法全国2用茎叶图比较平均值及分散程度,求独立事件及互斥事件的概率茎叶图、平均值、独立事件、互斥事件、频率、概率求独立事件及互斥事件的概率分析、抽象、概括-3-年份卷别设问特点涉及知识点题目类型解题思想方法2016全国1求分布列,知概率范围求一量的最值,求一量的期望值并决策柱状图、分布列、频率、概率、数学期望分布列、数学期望函数思想全国2求和事件概率,求条件概率,求分布列及数学期望概率、条件概率、分布列、数学期望分布列、数学期望分析、处理数据全国3求相关系数,求回归方程并进行预测样本折线图、相关系数、回归方程回归分析整体代换、函数思想-4-年份卷别设问特点涉及知识点题目类型解题思想方法2017全国1求二项分布的概率、数学期望,求平均值、方差正态分布、二项分布、概率、数学期望,样本平均数、标准差、方差分布列、数学期望分析、处理数据,转换思想全国2估计概率,进行独立性检验,求中位数频率分布直方图、频率、概率、独立性检验、中位数独立性检验分析、处理数据全国3求分布列,求一变量使数学期望达到最大值频率、概率、分布列、数学期望分布列、数学期望函数思想-5-年份卷别设问特点涉及知识点题目类型解题思想方法2018全国1求二项分布中事件发生2次概率的最大值点;求某随机变量的均值,并据均值作出判断二项分布中,事件A发生k次的概率,导数及函数的最大值点,随机变量的均值及应用二项分布、数学期望函数思想全国2已知回归方程求预测值,由折线图判断预测值的可靠性折线图、回归方程,预测值回归分析对数据的观察、分析、判断全国3茎叶图的应用,求中位数,填写列联表并进行独立性检验茎叶图,中位数,列联表,独立性检验独立性检验数据分析、数据处理-6-年份卷别设问特点涉及知识点题目类型解题思想方法2019全国1求变量的分布列;证明由概率组成的数列是等比数列;求概率的值并由此解释试验方案的合理性数列与函数的应用,随机变量的分布列概率与数列的综合分析、计算、证明,函数思想全国2求某相互独立事件发生的概率概率、独立事件相互独立事件的概率分析、判断、计算全国3依据已知条件求频率分布直方图中的未知量;求某量频率的平均值频率,频率分布直方图;平均数样本估计总体观察、分析、计算,方程思想-7-1.变量间的相关关系(1)如果散点图中的点从整体上看大致分布在一条直线的附近,那么我们说变量x和y具有线性相关关系.(2)线性回归方程:若变量x与y具有线性相关关系,有n个样本数据(xi,yi)(i=1,2,…,n),则回归方程为𝑦^=b^x+𝑎^,其中𝑏^=∑𝑖=1𝑛(𝑥𝑖-𝑥)(𝑦𝑖-𝑦)∑𝑖=1𝑛(𝑥𝑖-𝑥)2=∑𝑖=1𝑛𝑥𝑖𝑦𝑖-𝑛𝑥𝑦∑𝑖=1𝑛𝑥𝑖2-𝑛𝑥2,𝑎^=𝑦−𝑏^𝑥.(3)相关系数:r=∑𝑖=1𝑛𝑥𝑖𝑦𝑖-𝑛𝑥𝑦(∑𝑖=1𝑛𝑥𝑖2-𝑛𝑥2)(∑𝑖=1𝑛𝑦𝑖2-𝑛𝑦2),当r0时,表示两个变量正相关;当r0时,表示两个变量负相关.|r|越接近1,表明两个变量相关性越强;当|r|接近0时,表明两个变量几乎不存在相关性.-8-2.独立性检验对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:y1y2总计x1aba+bx2cdc+d总计a+cb+dn随机变量K2=𝑛(𝑎𝑑-𝑏𝑐)2(𝑎+𝑏)(𝑐+𝑑)(𝑎+𝑐)(𝑏+𝑑),其中n=a+b+c+d.-9-3.超几何分布在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则P(X=k)=,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*.4.二项分布一般地,在n次独立重复试验中,事件A发生的次数为X,设每次试验中事件A发生的概率为p,则P(X=k)=pkqn-k,其中0p1,p+q=1,k=0,1,2,…,n,称X服从参数为n,p的二项分布,记作X~B(n,p),且E(X)=np,D(X)=np(1-p).𝐶𝑀𝑘𝐶𝑁−𝑀𝑛−𝑘𝐶𝑁𝑛𝐶𝑛𝑘-10-5.正态分布一般地,如果对于任意实数ab,随机变量X满足P(aX≤b)=φμ,σ(x)dx,则称X的分布为正态分布.正态分布完全由参数μ和σ确定,因此正态分布常记作N(μ,σ2).如果随机变量X服从正态分布,则记为X~N(μ,σ2).满足正态分布的三个基本概率的值是:①P(μ-σX≤μ+σ)=0.6826;②P(μ-2σX≤μ+2σ)=0.9544;③P(μ-3σX≤μ+3σ)=0.9974.𝑏𝑎-11-6.离散型随机变量的分布列、期望、方差(1)设离散型随机变量X可能取的不同值为x1,x2,…,xi,…,xn,X取每一个值xi(i=1,2,…,n)的概率P(X=xi)=pi,则称下表为离散型随机变量X的分布列.(2)E(X)=x1p1+x2p2+…+xipi+…+xnpn为X的均值或数学期望.(3)D(X)=(x1-E(X))2·p1+(x2-E(X))2·p2+…+(xi-E(X))2·pi+…+(xn-E(X))2·pn叫做随机变量X的方差.(4)均值与方差的性质:E(aX+b)=aE(X)+b;E(ξ+η)=E(ξ)+E(η);D(aX+b)=a2D(X).Xx1x2x3…xi…xnPp1p2p3…pi…pn6.3.1统计与统计案例-13-考向一考向二考向三考向四样本的数字特征的应用例1(2019全国卷2,文19)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)y的分组[-0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147附:74≈8.602.-14-考向一考向二考向三考向四解(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)𝑦=1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=1100∑𝑖=15ni(yi-y)2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.0296,s=0.0296=0.02×74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.-15-考向一考向二考向三考向四解题心得(1)在预测总体数据的平均值时,常用样本数据的平均值估计,从而做出合理的判断.(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定.-16-考向一考向二考向三考向四对点训练1为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如下表:(1)补全茎叶图,并指出乙队测试成绩的中位数和众数;(2)试用统计学中的平均数、方差知识对甲、乙两个代表队的测试成绩进行分析.轮次一二三四五六甲736682726376乙837562697568-17-考向一考向二考向三考向四解(1)补全茎叶图如右:乙队测试成绩的中位数为72,众数为75.(2)𝑥甲=63+66+72+73+76+826=72,𝑠甲2=16[(63-72)2+(66-72)2+(72-72)2+(73-72)2+(76-72)2+(82-72)2]=39;𝑥乙=62+68+69+75+75+836=72,𝑠乙2=16[(62-72)2+(68-72)2+(69-72)2+(75-72)2+(75-72)2+(83-72)2]=44.因为𝑥甲=𝑥乙,𝑠甲2𝑠乙2,所以甲、乙两队水平相当,但甲队发挥较稳定.-18-考向一考向二考向三考向四利用回归方程进行回归分析例2(2019新疆乌鲁木齐二模,理19)某互联网公司为了确定下季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如表:他们分别用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:月份123456广告投入量24681012收益14.2120.3131.831.1837.8344.67-19-考向一考向二考向三考向四xy∑i=16xiyi∑i=16xi27301464.24364-20-考向一考向二考向三考向四(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:①剔除异常数据后求出(1)中所选模型的回归方程;②若广告投入量x=18时,该模型收益的预报值是多少?附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线𝑦^=b^x+𝑎^的斜率和截距的最小二乘估计分别为:𝑏^=∑𝑖=1𝑛(𝑥𝑖-𝑥)(𝑦𝑖-𝑦)∑𝑖=1𝑛(𝑥𝑖-𝑥)2=∑𝑖=1𝑛𝑥𝑖𝑦𝑖-𝑛𝑥𝑦∑𝑖=1𝑛𝑥𝑖2-𝑛𝑥2,𝑎^=𝑦−𝑏^𝑥.-21-考向一考向二考向三考向四解(1)由于模型①残差波动小,应该选择模型①.(2)①剔除异常数据,即组号为3的数据,剩下数据的平均数为𝑥=15(7×6-6)=7.2,𝑦=15(30×6-31.8)=29.64;∑𝑖=15xiyi-5xy=206.4,∑i=15𝑥𝑖2-5𝑥2=68.8.∴𝑏^=206.468.8=3,𝑎^=𝑦−𝑏^𝑥=29.64-3×7.2=8.04.∴所选模型的回归方程为𝑦^=3x+8.04.②若广告投入量x=18时,该模型收益的预报值是3×18+8.04=62.04.-22-考向一考向二考向三考向四解题心得在求两变量的回归方程时,由于的公式比较复杂,求它的值计算量比较大,为了计算准确,可将这个量分成几个部分分别计算,最后再合成,这样等同于分散难点,各个攻破,提高了计算的准确度.𝑏^-23-考向一考向二考向三考向四对点训练2(2019山东德州一模,理20)改革开放以来,我国经济持续高速增长.如图给出了我国2003年至2012年第二产业增加值与第一产业增加值的差值(以下简称为:产业差值)的折线图,记产业差值为y(单位:万亿元).(1)求出y关于年份代码t的线性回归方程;(2)利用(1)中的回归方程,分析2003年至2012年我国产业差值的变化情况,并预测我国产业差值在哪一年约为34亿元;(3)结合折线图,试求出除去2007年产业差值后剩余的9年产业差值的平均值及方差(结果精确到0.1).注:年份代码1~10分别对应年份2003—2012-24-考向一考向二考向三考向四附:回归直线的斜率和截距的最小二乘法估计公式分别为:𝑏^=∑i=1n(𝑡𝑖-𝑡)(𝑦𝑖-𝑦)∑𝑖=1𝑛(𝑡𝑖-𝑡)2,𝑎^=𝑦−𝑏^𝑡.样本方差公式:s2=1𝑛∑𝑖=1𝑛(yi-𝑦)2.参考数据:𝑦=110∑𝑖=110yi=10.8,∑𝑖=110(ti-𝑡)(yi-𝑦)=132,∑𝑖=110(yi-𝑦)2=211.6.-25-考向一考向二考向三考向四解(1)𝑡=110(1+2+3+…+9+