易错点13统计易错点1.看不懂图,分辨不清数据的表示方法(1)常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方图等.(2)频率分布直方图①作频率分布直方图的步骤(ⅰ)找出最值,计算极差:即一组数据中最大值与最小值的差;(ⅱ)合理分组,确定区间:根据数据的多少,一般分5~9组;(ⅲ)整理数据:逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个数的比值(称为区间对应的频率),各组均为左闭右开区间,最后一组是闭区间;(ⅳ)作出有关图示:根据上述整理后的数据,可以作出频率分布直方图,如图所示.频率分布直图的纵坐标是频率组距,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的频率,从而可知频率分布直方图中,所有矩形的面积之和为1.②频率分布折线图作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.不难看出,虽然作频率分布直方图过程中,原有数据被“压缩”了,从这两种图中也得不到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出有关数字特征的大致情况.比如,估计出平均数、中位数、百分位数、方差.当然,利用直方图估计出的这些数字特征与利用原始数据求出的数字特征一般会有差异.易错点2.数据特征的相关概念没有理解1.数据的数字特征(1)最值一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况.(2)平均数①定义:如果给定的一组数是x1,x2,…,xn,则这组数的平均数为x-=1n(x1+x2+…+xn).这一公式在数学中常简记为x-=1n∑ni=1xi,②性质:一般地,利用平均数的计算公式可知,如果x1,x2,…,xn的平均数为x,且a,b为常数,则ax1+b,ax2+b,…,axn+b的平均数为ax-+b.(3)中位数有奇数个数,且按照从小到大排列后为x1,x2,…,x2n+1,则称xn+1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x1,x2,…,x2n,则称xn+xn+12为这组数的中位数.(4)百分位数①定义:一组数的p%(p∈(0,100))分位数指的是满足下列条件的一个数值:至少有p%的数据不大于该值,且至少有(100-p)%的数据不小于该值.②确定方法:设一组数按照从小到大排列后为x1,x2,…,xn,计算i=np%的值,如果i不是整数,设i0为大于i的最小整数,取xi0为p%分位数;如果i是整数,取xi+xi+12为p%分位数.(5)众数一组数据中,出现次数最多的数据称为这组数据的众数.(6)极差、方差与标准差①极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散程度.②方差定义:如果x1,x2,…,xn的平均数为x,则方差可用求和符号表示为s2=1n∑ni=1(xi-x-)2=1n∑ni=1x2i-x-2.性质:如果a,b为常数,则ax1+b,ax2+b,…,axn+b的方差为a2s2.③标准差定义:方差的算术平方根称为标准差.一般用s表示,即样本数据x1,x2,…,xn的标准差为s=1n∑ni=1(xi-x)2.性质:如果a,b为常数,则ax1+b,ax2+b,…,axn+b的标准差为|a|s.2.用样本的数字特征估计总体的数字特征一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.易错点3.两个统计模型理解错误1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类:正相关和负相关.(3)线性相关:如果变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.2.相关系数(1)r=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2∑ni=1(yi-y-)2=∑ni=1xiyi-nx-y-(∑ni=1x2i-nx-2)(∑ni=1y2i-ny2).(2)当r0时,成对样本数据正相关;当r0时,成对样本数据负相关.(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型(1)我们将y^=b^x+a^称为y关于x的回归直线方程,其中b^=∑ni=1(xi-x-)(yi-y-)∑ni=1(xi-x-)2=∑ni=1xiyi-nx-y-∑ni=1x2i-nx-2,a^=y^-b^x-.(2)残差:观测值减去预测值,称为残差.4.2×2列联表和χ2如果随机事件A与B的样本数据的2×2列联表如下.AA-总计Baba+bB-cdc+d总计a+cb+da+b+c+d记n=a+b+c+d,则χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).5.独立性检验统计学中,常用的显著性水平α以及对应的分位数k如下表所示.α=P(χ2≥k)0.10.050.010.0050.001K2.7063.8416.6357.87910.828要推断“A与B有关系”可按下面的步骤(1)作2×2列联表.(2)根据2×2列联表计算χ2的值.(3)查对分位数k,作出判断.如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2k成立,就称不能得到前述结论.这一过程通常称为独立性检验.1.从某中学甲、乙两班各随机抽取10名同学,测量他们的身高(单位:cm),所得数据用茎叶图表示如下,由此可估计甲、乙两班同学的身高情况,则下列结论正确的是()A.甲乙两班同学身高的极差不相等B.甲班同学身高的平均值较大C.甲班同学身高的中位数较大D.甲班同学身高在175cm以上的人数较多【答案】A【详解】对于A,甲班同学身高的极差为182−157=25,乙班同学身高的极差为183−159=24,所以甲乙两班同学身高的极差不相等,故A正确;对于B,甲班同学身高的平均值为1181182170172178163165166157158169.210,乙班同学身高的平均值为1181183171172176178162165167159171.410,所以甲班同学身高的平均值较小,故B错误;对于C,甲班同学身高的中位数为1662170=168,乙班同学身高的中位数为1712172=171.5,所以甲班同学身高的中位数较小,故C错误;对于D,甲班同学身高在175cm以上的有3人,乙班同学身高在175cm以上的有4人,所以甲班同学身高在175cm以上的人数较少,故D错误.故选:A.2.2021年某省高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果按如下方式分成六组:第一组1213,,第二组1314,,,第六组1718,,得到如下频率分布直方图.则该100名考生的成绩的平均数和中位数(保留一位小数)分别是()A.15.215.3B.15.115.4C.15.115.3D.15.215.3【答案】C【详解】100名考生成绩的平均数12.50.1013.50.1514.50.1515.50.3016.50.2517.50.0515.1x,因为前三组频率直方图面积和为0.100.150.150.4,前四组频率直方图面积和为0.100.150.150.300.7,所以中位数位于第四组内,设中位数为a,则150.300.1a,解得:15.3a,故选:C.3.某地区今年夏天迎来近50年来罕见的高温极端天气,当地气象部门统计了八月份每天的最高气温和最低气温,得到如下图表:某地区2022年8月份每天最高气温与最低气温根据图表判断,以下结论正确的是()A.8月每天最高气温的平均数低于35℃B.8月每天最高气温的中位数高于40℃C.8月前半月每天最高气温的方差大于后半月最高气温的方差D.8月每天最高气温的方差大于每天最低气温的方差【答案】D【详解】由某地区2022年8月份每天最高气温与最低气温的折线图知,对于A,8月1日至9日的每天最高气温的平均数大于35℃,25日至28日的每天最高气温的平均数大于35℃,29日至31日每天最高气温大于20℃小于25℃,与35℃相差总和小于45℃,而每天最高气温不低于40℃的有7天,大于37℃小于40℃的有8天,它们与35℃相差总和超过45℃,因此8月每天最高气温的平均数不低于35℃,A不正确;对于B,8月每天最高气温不低于40℃的数据有7个,其它都低于40℃,把31个数据由小到大排列,中位数必小于40,因此8月每天最高气温的中位数低于40℃,B不正确;对于C,8月前半月每天最高气温的数据极差小,波动较小,后半月每天最高气温的极差大,数据波动很大,因此8月前半月每天最高气温的方差小于后半月最高气温的方差,C不正确;对于D,8月每天最高气温的数据极差大,每天最低气温的数据极差较小,每天最高气温的数据波动也比每天最低气温的数据波动大,因此8月每天最高气温的方差大于每天最低气温的方差,D正确.故选:D4.两个具有线性相关关系的变量的一组数据1122xyxy,,,,nnxy,,下列说法错误的是()A.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好B.相关系数r越接近1,变量x,y相关性越强C.相关指数2R越小,残差平方和越大,即模型的拟合效果越差D.若x表示女大学生的身高,y表示体重,则20.65R表示女大学生的身高解释了65%的体重变化【答案】A【详解】对于A:回归直线方程拟合效果的强弱是由相关指数2R或相关系数r判定,故不正确;对于B:根据相关系数r越接近1,变量相关性越强,故正确;对于C:相关指数2R越小,残差平方和越大,效果越差,故正确;对于D:根据2R的实际意义可得,20.65R表示女大学生的身高解释了65%的体重变化,故正确;故选:A.5.下列说法正确的序号是()①在回归直线方程ˆ0.812yx中,当解释变量x每增加一个单位时,预报变量ˆy平均增加0.8个单位;②利用最小二乘法求回归直线方程,就是使得12()iiinybxa最小的原理;③已知X,Y是两个分类变量,若它们的随机变量2K的观测值k越大,则“X与Y有关系”的把握程度越小;④在一组样本数据11,xy,22,xy,…,,nnxy(2n,1x,2x,…,nx不全相等)的散点图中,若所有样本,(1,2,)iixyin都在直线112yx上,则这组样本数据的线性相关系数为12.A.①③B.①②C.②④D.③④【答案】B【详解】对于①,在回归直线方程ˆ0.812yx中,当解释变量x每增加一个单位时,预报变量ˆy平均增加0.8个单位,故①正确;对于②,用离差的平方和,即:2211ˆnniiiiiiQyyyabx作为总离差,并使之达到最小;这样回归直线就是所有直线中Q取最小值的那一条。由于平方又叫二乘方,所以这种使“离差平方和为最小”的方法叫做最小二乘法;所以利用最小二乘法求回归直线方程,就是使得12()iiinybxa最小的原理;故②正确;对于③,对分类变量X与Y,对它们的随机变量2K的观测值k来说,k越小,则“X与Y有关系”的把握程度越小,故③错误;对于④,相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为1,故④错误.故选:B.1.为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,右图是根据试