资料整理【淘宝店铺:向阳百分百】第02讲成对数据的统计分析(模拟精练+真题演练)1.(2022·甘肃兰州·统考一模)下面是一个22列联表,其中a、b处填的值分别为()A.52、54B.54、52C.94、146D.146、94【答案】A【解析】由题意可得21732aab,解得5254aa,所以a、b值分别为52、54.故选:A.2.(2023·海南海口·海南华侨中学校考模拟预测)为客观反映建设创新型国家进程中我国创新能力的发展情况,国家统计局社科文司《中国创新指数(CII)研究》课题组研究设计了评价我国创新能力的指标体系和指数编制方法.中国创新指数(ChinaInnovationIndex,CII)中有4个分指数(创新环境指数、创新投入指数、创新产出指数、创新成效指数),下面是2005—2021年中国创新指数及分领域指数图,由图可知指数与年份正相关,则对4个分领域指数,在建立年份值与指数值的回归模型中,相关系数最大的指数类型是()A.创新环境指数B.创新投入指数C.创新产出指数D.创新成效指数1y2y总计1xa21732x22527总计b46100资料整理【淘宝店铺:向阳百分百】【答案】D【解析】由题图易知4个分领域指数的起始位置相同,其中创新投入指数、创新产出指数从2014年起,指数增幅大,变化趋势明显大于另两类指数;从2011年起,创新环境指数的波动幅度比创新成效指数的波动幅度大,创新成效指数对应的散点更趋近于某一条直线,故其对应的相关系数最大.故选:D.3.(2023·安徽六安·六安一中校考模拟预测)某学校一同学研究温差x(℃)与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:x568912y1720252835经过拟合,发现基本符合经验回归方程ˆˆ2.6yxa,则下列结论错误的是()A.样本中心点为(8,25)B.ˆ4.2aC.5x时,残差为0.2D.若去掉样本点(8,25),则样本的相关系数r增大【答案】D【解析】对于A项,因为56891285x,1720252835255y,所以样本中心点为(8,25),故A项正确;对于B项,由回归直线必过样本中心可得:252.68a,解得:4.2a,故B项正确;对于C项,由B项知,2.64.2yx,令5x,则2.654.217.2y,所以残差为1717.20.2,故C项正确;对于D项,由相关系数公式可知,去掉样本点(8,25)后,x与y的样本相关系数r不变,故D项错误.故选:D.4.(2023·江西南昌·江西师大附中校考三模)下列说法:(1)分类变量A与B的随机变量2K越大,说明A与B相关的把握性越大;(2)以模型ekxyc去拟合一组数据时,为了求出回归方程,设lnzy,将其变换后得到线性方程0.75zx,则,ck的值分别是5e和0.7;(3)若随机变量1,4XN,且(3)0.16PX,则(11)0.34PX.以上正确的个数是()A.0B.1C.2D.3【答案】D资料整理【淘宝店铺:向阳百分百】【解析】根据独立性检验原理,分类变量A与B的随机变量2K越大,说明A与B相关的把握性越大,故(1)正确;由ekxyc,两边取对数得lnln(e)kxyc,即lnlnyckx,设lnzy,可得lnzckx,又0.75zx,∴ln5,0.7ck,即5e,0.7ck,故(2)正确;若随机变量1,4XN,则正态曲线关于1x对称,则(11)(13)(1)(3)0.50.160.34PXPXPXPX,故(3)正确,所以正确的个数是3.故选:D.5.(2023·重庆·统考二模)设两个相关变量x和y分别满足下表:x12345y128816若相关变量x和y可拟合为非线性回归方程ˆ2bxay,则当6x时,y的估计值为()(参考公式:对于一组数据11uv,,22uv,,,nnuv,,其回归直线ˆˆˆvu的斜率和截距的最小二乘估计公式分别为:1221ˆniiiniiuvnuvunu,ˆˆavu;51.152)A.33B.37C.65D.73【答案】B【解析】因为非线性回归方程为:ˆ2bxay,则有2ˆlogybxa,令2logyv,即ˆvbxa,列出相关变量,,xyv关系如下:x12345y128816v01334所以1029122043niiixv,1234535x,013341155v,21149162555niix,所以1221114353515559niiiniivnxvbxnxx,资料整理【淘宝店铺:向阳百分百】所以114355avbx,所以ˆ45vx,即24ˆlog5yx,即45ˆ2xy,因为51.152,所以1521.15,当6x时,42665515.255ˆ22222321.1536.8y.故选:B6.(2023·陕西商洛·校考三模)用模型ekxya拟合一组数,1,2,,10iixyi,若121010xxx,701210eyyy,设lnzy,得变换后的线性回归方程为4zbx,则ak()A.12B.43eC.34eD.7【答案】B【解析】由已知,121010xxx,所以1210110xxxx,701210eyyy,lnzy,所以12011210lnlnln1010yyyzzzz121070ln()lne71010yyy,由题意,,xz满足线性回归方程为4zbx,所以714b,所以3b,此时线性回归方程为34zx,即ln34yx,可将此式子化为指数形式34exy,即为43eexy,因为模型为模型ekxya,所以4ea,3k,所以ak43e.故选:B.7.(2022·四川成都·成都七中校考模拟预测)根据一组样本数据11,xy,22,xy,…,,nnxy,求得经验回归方程为ˆ1.50.5yx,且3x.现发现这组样本数据中有两个样本点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,则()A.变量x与y具有正相关关系B.去除两个误差较大的样本点后,重新求得的经验回归方程为ˆ1.20.5yxC.去除两个误差较大的样本点后,y的估计值增加速度变快D.去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05【答案】A【解析】对A:经验回归方程为ˆ1.50.5yx,1.50,变量x与y具有正相关关系,故选项A正确;对B:当3x时,31.50.55y,所以样本中心为(3,5),去掉两个样本点为12,2(2)..和4.8,(7)8.,1.24.832,2.27.852,资料整理【淘宝店铺:向阳百分百】样本中心不变,去除后重新求得的经验回归直线l的斜率为1.2,ˆ531.2a,解得1.4ˆa,故去除两个误差较大的样本点后,重新求得的回归方程为ˆ1.21.4yx,故选项B错误;对C:1.51.2,去除两个误差较大的样本点后,y的估计值增加速度变慢,故选项C错误;对D:ˆ1.221.43.8y,ˆ3.753.80.05yy,去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05,故选项D错误.故选:A.8.(2021·江西南昌·南昌市八一中学校考三模)已知变量y关于x的回归方程为0.5bxye,其一组数据如表所示:若5x,则预测y值可能为()x1234ye3e4e6eA.5eB.112eC.7eD.152e【答案】D【解析】由0.5bxye得:ln0.5ybx,346lnlnlnln12340.544eeeeb,解得:1.6b,回归方程为1.60.5xye,若5x,则1580.52yee.故选:D.9.(2021·山西·统考三模)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:第x天12345使用人数(y)151734578421333由表中数据可得y关于x的回归方程为255ˆyxm,则据此回归模型相应于点(2,173)的残差为()A.5B.6C.3D.2【答案】B【解析】令2tx,则55ytm,2tx1491625使用人数(y)151734578421333资料整理【淘宝店铺:向阳百分百】1491625115t,1517345784213335645y,所以5645511,41mm,所以25541yx,当2x时,255241179y,所以残差为1731796.故选:B10.(多选题)(2023·广东广州·统考模拟预测)总和生育率有时也简称生育率,是指一个人口群体的各年龄别妇女生育率的总和.它反映的是一名妇女在每年都按照该年龄别现有生育率生育的假设下,在育龄期间生育的子女总数.为了了解中国人均GDPx(单位:万元)和总和生育率y以及女性平均受教育年限z(单位:年)的关系,采用2012~2022近十年来的数据,,1,2,10iiixyzi绘制了散点图,并得到经验回归方程ˆ7.540.33zx,ˆ2.880.41yx,对应的决定系数分别为21R,22R,则()A.人均GDP和女性平均受教育年限正相关.B.女性平均受教育年限和总和生育率负相关C.2212RRD.未来三年总和生育率一定继续降低【答案】AB【解析】由回归方程ˆ7.540.33zx知人均GDP和女性平均受教育年限正相关,故A正确;因为ˆ7.540.33zx,ˆ2.880.41yx,可得女性平均受教育年限z和总和生育率y的关系式为ˆ7.54ˆ2.880.410.33zy,所以女性平均受教育年限z和总和生育率y负相关,故B正确;由散点图可知,回归方程7.540.ˆ33zx相对ˆ2.880.41yx拟合效果更好,所以2212RR,故C错误;根据回归方程ˆ2.880.41y预测,未来总和生育率预测值有可能降低,资料整理【淘宝店铺:向阳百分百】但实际值不一定会降低,故D错误.故选:AB11.(多选题)(2023·江苏盐城·盐城市伍佑中学校考模拟预测)下列命题正确的是()A.对于事件A,B,若AB,且0.3PA,0.6PB,则1PBAB.若随机变量2~2,N,40.84P,则240.16PC.相关系数r的绝对值越接近1,两个随机变量的线性相关程度越强D.在做回归分析时,残差图中残差点分布的带状区域的宽度越宽表示回归效果越差【答案】ACD【解析】对于A,由于AB,即A发生必定有B发生,根据条件概率的定义|1PBA,正确;对于B,根据正态分布密度函数的性质知4140.16,040.16PPPP><<>,040410.1620.68,240.342PPP<<<<<<,错误;对于C,根据相关系数的性质知:r约接近于1,表示线性相关程度越强,正确;对于D,残差点分布的带状区域越宽说明线性回归时的误差越大,即回归效果越差,正确;故选:ACD.12.(多选题)(2023·吉林长春·长春吉大附中实验学校校考模拟预测)2022年11月17日,工业和信息化部成功举办第十七届“中国芯”集成电路产业大会.此次大会以“强芯固基以质为本”为主题,旨在培育壮大我国集成电路产业,夯实产业基础、营造良好产业生态.某芯片研发单位用在“A芯片”上研发费用占本单位总研发费用的百分比y如表所示.已知40%y,于是分别用