(①唯一;②不一定是样本数据中的某个数)1212...nnnxxxxxxxnn:一般地,如果有个数,,,...,平那么=叫这个均数数的平均数.复习回顾众数:在一组数据中,出现次数最多的数据.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数).12(),,...,,kiinkknxxxxf(2)如果个数据中,不同的值有个,记为其中出现的频均数:数为加权平,iixpx若其中出现的频率为则1122kkxpxpxp1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。复习回顾二、利用频率分布直方图(频率分布表),求样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数.2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。3、平均数是频率分布直方图的“重心”.是直方图的平衡点.频率直方图中每个小长方形的面积乘以小矩形底边中点的横坐标之和。三、三种数字特征的优缺点1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.复习回顾2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,很多时候还不能使我们做出有效决策.因此,我们需要一个统计数字刻画样本数据的离散程度.新课引入引例:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:甲:78795491074乙:957876867777xx甲乙,新课引入甲、乙两人本次射击的平均成绩分别为多少环?甲、乙两名运动员射击成绩中位数、众数分别为多少环?通过简单的排序可以发现甲、乙两名运动员射击成绩的中位数、众数也都是7如果你是教练,你如何对两位运动员的射击情况作出评价?在这一次选拔性考核中,你应当如何作出选择?思考:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?环数频率0.40.30.20.145678910O(甲)环数频率0.40.30.20.145678910O(乙)甲的成绩比较分散,波动幅度较大,乙的成绩相对集中,比较稳定.新课引入一种简单的度量数据离散程度的方法就是用极差,根据甲、乙运动员的10次射击成绩,可以得到甲命中环数的极差=10-4=6乙命中环数的极差=9-5=4.有差异45678910环数频率0.10.20.3(甲)456789100.10.20.30.4环数频率(乙)频率一组数据的最大值与最小值的差极差:极差越大,数据越分散,越不稳定极差越小,数据越集中,越稳定极差体现了数据的离散程度极差在一定程度上刻画了数据的离散程度,但因为极差只使用了数据中最大、最小两个值的信息,对其他数据的取值情况没有涉及,所以极差所含的信息量很少.我们知道,如果射击的成绩很稳定,那么大多数的射击成绩离平均成绩不会太远;相反,如果射击的成绩波动幅度很大,那么大多数的射击成绩离平均成绩会比较远,因此,我们可以通过这两组射击成绩与它们的平均成绩的“平均距离”来度量成绩的波动幅度.新课引入学习新知思考:对于样本数据x1,x2,…,xn,用表示这组数据的平均数.设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?x所谓“平均距离”,其含义可作如下理解::x。xxxxxin的距离是到表示这组数据的平均数假设样本数据是,,...,21).,,2,1(nixxi:xxxx,n是平均距离的到样本数据于是”“,,21.21nxxxxxxn学习新知为了避免式中含有绝对值,通常改用平方来代替,即22212()()()nxxxxxxn-+-++-L我们称上式为这组数据的方差(variance).有时为了计算方差的方便,我们还把方差写成右式形式211()niixxn即2211inixxn由于方差的单位是原始数据的单位的平方,与原始数据不一致.为了使二者单位一致,我们对方差开平方,取它的算术平方根,即])()()[(122221xxxxxxnn我们称上式为这组数据的标准差(standarddeviation).标准差为0的数据有何特点?都相等.学习新知我们称下式为这组数据的标准差(standarddeviation).思考:标准差的取值范围是什么?,0如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称YS2=为总体方差.N2ii11YYN()2211()NiiSSYYN总体标准差学习新知与总体均值类似,总体方差也可以写成加权的形式,如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,...,Yk,其中Y,出现的频数为f(i=1,2,...,k),则总体方差为S2=如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为y,则称s2=__________为样本方差,s=_____为样本标准差.s2思考:对于一个容量为2的样本:x1、x2(x1x2),则,在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?122xxx+=212xxs-=标准差越大,数据的离散程度越大,数据较分散;标准差越小,数据的离散程度越小,数据较集中在平均数周围.学习新知1x2xS221xx标准差刻画了数据的离散程度或波动幅度.显然,在刻画数据的分散程度上,方差和标准差是一样的,但在解决实际问题中,一般多采用标准差。1.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.2.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,就像用样本平均数估计总体平均数一样,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,在随机抽样中,样本标准差依赖于样本的选取,具有随机性.所以要求样本有较好的代表性,才能更好了解总体的情况.学习新知计算甲、乙两名运动员的射击成绩的标准差,比较其射击水平的稳定性.甲:78795491074乙:9578768677s甲=2,s乙=1.095.x甲=7,x乙=7.回归引例由s甲s乙可知,甲的成绩离散程度大,乙的成绩离散程度小,由此可以估计,乙比甲的射击成绩稳定.如果要从这两名选手中选择一名参加比赛,要看一下他们的平均成绩在所有参赛选手中的位置,如果两人都排在前面,就选成绩稳定的乙选手,否则可以选甲.【典例】1.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,xn的平均数B.x1,x2,…,xn的标准差C.x1,x2,…,xn的最大值D.x1,x2,…,xn的中位数B2(导学P122例1).已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则()A.=4,s22B.=4,s22C.4,s22D.4,s22xxxxx2.=4.又因为这7个数的方差为2,且加入一个新数据4,所以这8个数的方差s2=2.284x8+=272(44)784+=A例2甲、乙两机床同时加工直径为100cm的零件,为检验质量,各从中抽取6件测量,数据为:甲:9910098100100103乙:9910010299100100(1)分别计算两组数据的平均数及方差.(2)根据计算结果判断哪台机床加工零件的质量更稳定.21s6甲=解(1)(99+100+98+100+100+103)=100,(99+100+102+99+100+100)=100.[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.1x6甲=1x6乙=7321s6乙=(2)两台机床所加工零件的直径的平均值相同,又,所以乙机床加工零件的质量更稳定.2s甲2s乙导学P124如果数据的平均数为,方差为(1)新数据的平均数为,方差仍为.(2)新数据的平均数为,方差为.(3)新数据的平均数为,方差为.,则方差的运算性质:典型例题课本例6在对树人中学高一年级学生身高的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62.你能由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计吗?解:把男生样本记为x1,x2,…,x23,其平均数记为,方差记为;把女生样本记为y1,y2,...y27,其平均数记为,方差记为;把总样本数据的平均数记为,方差记为.根据方差的定义,总样本方差为x2xsy2ysz2s2327222111[()()]50ijijsxzyz2327165.22327xyz典型例题2327222111[()()]50ijijsxzyz232722111[()()]50ijijxxxzyyyz232322211()[()2()()()]iiiiixxxzxxxxxzxz232311()230,iiiixxxx由可得2323112()()2()()0iiiixxxzxzxx2712()()0jjyyyz同理可得典型例题2327222111[()()]50ijijsxzyz232722111[()()]50ijijxxxzyyyz232722222111{[()()][()()]50ijijsxxxzyyyz因此23232727222211111()()()()50ijiijjxxxzyyyz男生23人,其平均数和方差分别为170.6和12.59,女生27人,其平均数和方差分别为160.6和38.62165.2z把已知的男生、女生样本平均数和方差的取值代入,可得251.4862s22221{23[()]27[()]}50xysxzsyz分层随机抽样的方差设样本容量为n,平均数为x,其中两层的个体数量分别为n1,n2,两层的平均数分别为x-1,x-2,方差分别为s21,s22,则这个样本的方差为s2=__________________________________.n1n[s21+(x-1-x-)2]+n2n[s22+(x-2-x-)2]导学P123方法技巧学习新知练.在一个文艺比赛中,8名专业人士和12名观众代表各组成一个评判小组,给参赛选手打分.在给某选手的打分中,专业人士打分的平均数和标准差分别为47