第01讲统计一、单选题1.为了检查“双减”政策落实效果,某校邀请学生家长对该校落实效果进行评分.现随机抽取100名家长进行评分调查,发现他们的评分都在40~100分之间,将数据按40,50,50,60,60,70,70,80,80,90,90,100分成6组,整理得到如图所示的频率分布直方图,则在抽取的家长中,评分落在区间60,90内的人数是()A.55B.60C.70D.75【答案】D【分析】根据频率直方图求出60,90内频率,进而求出其中的人数.【详解】由题图,60,90内频率为(0.020.030.025)100.75,所以评分落在区间60,90内的人数是0.7510075人.故选:D2.某旅行社统计了三条路线的旅游人数,具体分布如下表(每人参加且仅参加一条路线):南北湖景区东湖景区西塘古镇景区男性3060x女性504060现要对这三条路线的选择情况进行抽样调查,从参加这三条路线的人中采用按小组分层随机抽样的方法抽取60人,从参加南北湖景区路线的人中抽出16人,则x()A.30B.60C.80D.100【答案】B【分析】由分层抽样按比例求出各景区抽取的人数后可得x值.【详解】设东湖景区抽取的人数为m,则1680100m,20m,从而西塘古镇景区抽取的人数为60162024,因此16248060x,60x.故选:B.3.现给出一位同学在7月和8月进行的50米短跑测试成绩(单位:秒):7月9.810.310.010.29.99.810.010.110.29.78月10.110.410.110.010.110.310.610.510.410.5记7月、8月成绩的样本平均数分别记为x,y,样本方差分别记为21s,22s.①已知统计量2122sFs可在一定程度上说明两个月跑步成绩的稳定性(当2.050F或12.050F时,可认为成绩不稳定);②若满足2212210ssyx,则可说明成绩有显著提高.则这位同学()A.成绩稳定,且有显著提高B.成绩稳定,且无显著提高C.成绩不稳定,且有显著提高D.成绩不稳定,且无显著提高【答案】B【分析】利用数表分别计算x,y,21s,22s,结合①②条件即可求解.【详解】由题意可知,1(9.810.310.010.29.99.810.010.110.29.7)1010x,1(10.110.410.110.010.110.310.610.510.410.5)10.310y,由方差公式可知,1022111()0.03610iisxx,1022211()0.0410iisyy,故21220.0360.92.0500.04sFs,1102.0509F,从而成绩稳定;而221220.310ssxy,从而成绩无显著提高.故选:B.4.某校举行演讲比赛,邀请7位评委分别给选手打分,得到7个原始评分.在评定选手成绩时,从这7个原始评分中去掉1个最高分、1个最低分,得到5个有效评分.这5个有效评分与7个原始评分相比,数字特征保持不变的是()A.众数B.标准差C.平均数D.中位数【答案】D【分析】根据评分的规则容易判断选项.【详解】7个数去掉一个最高分,去掉一个最低分,显然中位数是不变的;故选:D.5.北京冬奥会的举办掀起了一阵冰雪运动的热潮.某高校在本校学生中对“喜欢滑冰是否与性别有关”做了一次调查,参与调查的学生中,男生人数是女生人数的3倍,有23的男生喜欢滑冰,有13的女生喜欢滑冰.若根据独立性检验的方法,有95%的把握认为是否喜欢滑冰和性别有关,则参与调查的男生人数可能为()参考公式:22nadbcabcdacbd,其中nabcd.参考数据:20Pk0.100.050.0250.0100k2.7063.8415.0246.635A.12B.18C.36D.48【答案】C【分析】设男生人数为3x,则女生人数为x,且xN,写出列联表并根据卡方计算公式,结合题意确定卡方值的范围,即可确定x的取值范围,进而确定男生可能人数.【详解】设男生人数为3x,则女生人数为x,且xN,可得列联表如下:男生女生合计喜欢滑冰2x3x73x不喜欢滑冰x23x53x合计3xx4x所以2224(2)12337535333xxxxxxxxxx,因为有95%的把握认为是否喜欢滑冰和性别有关,所以123.841,5.02435x,解得11.2014.65x,所以33.60343.96x,结合选项只有3633.60,43.96,故选:C.6.下列说法中错误的是()A.对于命题p:存在0xR,使得20010xx,则p:任意Rx,均有210xxB.两个变量线性相关性越强,则相关系数r就越接近1C.在线性回归方程20.5yx中,当变量x每增加一个单位时,y平均减少0.5个单位D.某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变【答案】D【分析】A选项,存在量词命题的否定是全称量词命题,把存在改为任意,把结论否定;B选项,相关系数r就越接近1,则两个变量线性相关性越强;C选项,根据线性回归方程的解析式中x的系数得到结论;D选项,计算出添加新数据4后的方程,作出判断.【详解】存在0xR,使得20010xx,的否定是:任意Rx,均有210xx,A正确;两个变量线性相关性越强,则相关系数r就越接近1,B正确;在线性回归方程20.5yx中x的系数为0.5,当变量x每增加一个单位时,y平均减少0.5个单位,C正确;某7个数1234567,,,,,,xxxxxxx的平均数为4,方差为2,则72142714iix,现加入一个新数据4,则平均数不变,仍为4,此时这8个数的方差变为21444784,故D错误.故选:D7.以模型e(0)kxycc去拟合一组数据,设lnzy=,将其变换后得到线性回归方程21zx=,则原模型中,kc的值分别是()A.2k,ecB.2k,1ecC.2k,1ecD.2k,ec【答案】B【分析】根据已知条件,结合对数函数的公式可得,ln,zckx再结合线性回归方程即可求解.【详解】(0),kxycec 两边取对数,可得lnlnlnlnln+kxkxycececkx,令ln,zy可得 ln,zckx∵线性回归方程21,zx∴ln1,2ck,解得1 ,2eck.故选:B.二、填空题8.为了调查高中学生参加课外兴趣活动选篮球和舞蹈是否与性别有关,现随机调查了30名学生,得到如下图22列联表:篮球舞蹈合计男13720女2810合计151530根据表中的数据,及观测值2K(其中22nadbcKabcdacbd)的参考数据:20()PKk0.050.0250.0100k3.8415.0246.635则在犯错误的概率不超过___________前提下,认为选择舞蹈与性别有关.【答案】0.025【分析】由列联表中的数据,计算2K的值,对照表中的参考数据,比较即可得到答案.【详解】由列联表中的数据可得,223013827275.45.024151520105K所以在犯错误的概率不超过0.025的前提下,认为选择舞蹈与性别有关.故答案为:0.025.9.下列说法中错误的有______.(1)残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;(2)两个模型中残差平方和越小的模型拟合的效果越好;(3)设随机变量X服从正态分布0,1N,若1PXp,则1102PXp;(4)根据下表提供的数据,线性回归方程0.70.35yx,那么表中3.15t.x3456y2.4t3.84.6【答案】(1)(4)【分析】(1)根据残差的概念与残差图的特点即可判断;(2)根据残差平方和的概念即可判断;(3)根据正态分布(0,1)N的性质求解并判断;(4)根据表中数据计算,xy,代入线性回归方程中求得t的值,即可判断.【详解】对于(1),残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,所以(1)错误;对于(2),两个模型中残差平方和越小的模型拟合的效果越好,所以(2)正确;对于(3),根据正态分布0,1N的性质可得,若1PXp,则(1)PXp,(11)12PXp,121(10)22pPXp,所以(3)正确;对于(4),根据表中数据,计算1(3456)4.54x,1(2.43.84.6)2.744tyt,代入线性回归方程0.70.35yx中,得2.70.74.50.354t,解得3.2t,所以(4)错误.故答案为:(1)(4).10.在某次数学测验中,6位学生的成绩分别为:78,85,t,82,75,80,他们的平均成绩为81,则他们成绩的75%分位数为_________.【答案】85【分析】根据百分位数的定义求解即可.【详解】解:由题意知7885827580681t,解得48640086t,把这组数据按从小到大的顺序记为:75,78,80,82,85,86,指数%675%4.5inp,因此,这组数据的75%分位数为85.故答案为:85.三、解答题11.特岗教师是中央实施的一项对中西部地区农村义务教育的特殊政策,通过公开招聘高校毕业生到中西部地区两基攻坚县、县以下农村学校任教,进而提高农村教师队伍的整体素质,促进城乡教育均衡发展.某市招聘特岗教师需要进行笔试和面试,一共有600名应聘者参加笔试考试,从中随机抽取了100名应聘者,记录他们的笔试分数,将数据分成7组:20,30,30,40,…,80,90,得到如图所示频率分布直方图.(1)若该市计划168人进入面试,请估计参加面试的最低分数线;(2)已知样本中笔试分数低于40分的有5人,试估计总体中笔试分数在40,50内的人数.【答案】(1)78(2)30【分析】(1)根据题意求得进入面试的频率0.28P,再判断最低分数线x所在分数区间,结合频率的计算公式得到方程,解之即可;(2)由频率分布直方图求得不低于50分的频率,由题意求得分数低于40分的频率,从而求得笔试分数在40,50内的频率,再由频数等于总数乘以频率即可求得结果.【详解】(1)根据题意,得进入面试的频率1680.28600P,由频率分布直方图可知,笔试分数位于70,80、80,90的频率分别为0.4、0.2,所以设参加面试的最低分数线70,80x,得800.040.2xP,解得78x,故参加面试的最低分数线约为78.(2)样本中笔试分数不低于50分的频率为:0.10.20.40.20.9,样本中笔试分数低于40分的频率为:50.05100,所以样本中笔试分数在40,50内频率为:10.050.90.05,故总体中笔试分数在40,50内的人数约为6000.0530(人)12.根据中国海洋生态环境状况公报,从2017年到2021年全国直排海污染物中各年份的氨氮总量y(单位:千吨)与年份的散点图如下:记年份代码为1,2,3,4,5xx,1tx,对数据处理后得:yt521iit521iiy51iiixy51iiity60.51.52107617(1)根据散点图判断,模型①ybxa与模型②dycx哪一个适宜作为y关于x的回归方程?(给出判断即可,不必说明理由)(2)根据(1)的判断结果,建立y关于x的回归方程,并预测2022年全国直排海污染物中的氨氮总量(计算结果精确到整数).参考公式:回归方程ˆˆˆyvxu中斜