第2章样本数据特征的初步分析2.1样本数据结构的基本特征:频次与频率2.2观察刻度级样本数据结构的茎叶图与直方图方法2.3样本数据的位置特征:对数据中心的描述2.4样本数据的离散特征2.5样本数据特征的综合表达:箱形图2.1样本数据结构的基本特征:频次与频率数据集合的最基本的结构特征:频次与频率主要方法:表格法、条形图和饼图法2.1.1频次与频率的基本概念频次:在有限的样本数据集合中,同样的数据值(样本值)出现的次数。某样本值的频率=该样本值出现的频次/该数据集合的数据总数,使列出来的价格数据看得更清楚些。例2.1.2在对某小区的家庭家具的抽样调查后,得到客户家具的基色调的数据:本例中数据是名义级的,它们自身不存在大小排序的问题。大致可看清楚样本数据(家具基色调)结构的特点例2.1.3:抽样调查某单位16人的受教育程度的数据小学,大学,大学,初中,高中,硕士,大学,大学,高中,大学,大学,初中,大学,硕士,大学按照受教育程度排序,统计出各个样本值出现的频次和频率受教育程度小学初中高中大学硕士合计各个受教育程度出现的频次1229216各个受教育程度出现的频率6.2512.512.556.2512.5100可以较为清楚地看到“受教育程度”样本数据集合的结构特征。2.1.2观察样本数据基本特征(频次与频率)的图形方法饼图表示频次与频度适用于所有测度等级的数据。但要求不同样本值的个数(不重复的样本值个数)不能很多。表示频度与频次的饼图绘制的方法:(1)画一个大小适当的圆圈,给每一个不同的样本值一个与其频次(频率)相当的圆心角,就像切割的一块饼。(2)每个不同的样本值所占据的圆心角的大小由下式计算:条形图适用于不重复的样本值的个数不多的情况。一般情况,条形图只适用于顺序级以上的样本集合。人们也可“强行”抹去横坐标的从左向右的顺序概念,“规定”横坐标没有大小之分。2.1.3样本数据集合的基本特征的延伸:累积频率顺序级以上的样本数据(包括顺序级数据),才存在累积频率。例2.1.3的样本数据集合的累积概率某单位职工受教育程度≤xi的累积频率受教育程度xi小学初中高中大学硕士合计各个受教育程度出现的频率(%)6.2512.512.556.2512.5100教育程度≤xi的累积频率(%)例2.1.3的样本数据集合的累积概率某单位职工受教育程度≤xi的累积频率受教育程度xi小学初中高中大学硕士合计各个受教育程度出现的频率(%)6.2512.512.556.2512.5100教育程度≤xi的累积频率(%)6.2518.7531.2587.51002.2观察刻度级样本数据结构的茎叶图与直方图方法2.2.1茎叶图的概念与作法茎叶图适用于刻度级的样本数据的频率结构。不适用名义级。顺序级的样本数据本质上是半定量的。也可使用茎叶图。最好使用条形图。如果对某个样本数据集合规定,所有的样本值的百位数为“茎节”(茎节的宽度为100),所有的十位数和个位数为“叶”。2.2观察刻度级样本数据结构的茎叶图与直方图方法2.2.1茎叶图的概念与作法样本值=“茎节.叶”表达ד茎节”的宽度一个样本数据集合中的所有不相同的茎节,从小到大连接起来,构成了样本数据的”茎“。确定”茎“的位数基本依据是样本数据的分布范围。茎节的宽度,就是茎的宽度。确定”茎节”的宽度的原则:样本数据集合中的”茎节“必须是有变化的。(1)依据样本数据集合中数字的大小范围,确定”茎“的数字位和”叶“的数字位;(2)把样本数据集合中的所有的样本数据,分成”茎节“、”叶“两部分;(3)把样本数据集合中的所有的”茎节“,从小到大,从上到下纵向排列,并在”茎节“后标出小数点,小数点要纵向对齐;(4)按照”茎节“的从小到大的顺序,依次把样本数据集合中的所有”茎节“相同的数据取出来,把这些数据的”叶“,按照从小到大的顺序,写在这个”茎节“后小数点的右边,从左到右横向排列,直至把样本数据集合中的所有数据处理完。2.茎叶图的作法常见的细分茎节的方法之一,是把茎节分成两个子茎节,也就是把该“茎节”右侧的“叶”,处于0-4的,归为“L”子茎节(低段子茎节);“叶”的数字处于“5-9”的,归为“H”子茎节(高段子茎节)。例如:可把每个“茎节”分解成相等的5个“子茎节”,即每个“子茎节”所覆盖的“叶”的依次为0-1,2-3,4-5,6-7,8-9.这样,每个子茎节的长度,就是原来每个茎节长度的1/5。茎节长度的概念:茎叶图中,每个“茎节”所允许覆盖的“叶”的数字范围。茎节长度=允许覆盖最大值-允许覆盖最小值+1练习1:某篮球运动员在某赛季各场得分情况如下:12,15,24,25,31,31,36,36,37,39,44,49,50.试分析该运动员的整体水平及发挥的稳定程度?解:上述运动员的得分可用下面茎叶图来表示。频次茎叶21.2522.4563.11667924.4915.0结论:该运动员平均得分在30到40之间,且分布较对称,集中程度高,说明其发挥比较稳定。练习2某赛季,两篮球运动员本赛季每场比赛的得分如下,试比较这两位运动员的得分水平。甲:9,17,18,25,28,32,35,36,37,36,32,40,50.乙:11,9,13,16,22,23,22,24,32,33,38,41,52.解:画出甲、乙两人得分的茎叶图,为便于对比分析,可将茎放在中间共用,叶分列左、右两侧。甲乙叶茎叶9.0.078.1.13658.2.2234225667.3.2380.4.10.5.2甲运动员的得分大致对称,平均得分30多分;乙运动员的得分也大致对称,平均得分是20多分。但甲运动员总体得分情况比乙好。从全年级的两个班考试成绩中每班任意抽取20名的数学成绩如下(总分150分)甲班:12011813513414014610811098981421261081129510314892121132乙班:1281241479612611712512912013413212197104114135127124115107试用茎叶图分析,哪个班成绩比较稳定。解:画出甲、乙两班成绩的茎叶图。甲乙叶茎叶2588.9.67388.10.47028.11.457016.12.014456789245.13.2450268.14.7甲班成绩波动较大,乙班成绩总体集中在120-130分之间,且分布大致对称,因此乙班成绩比较稳定,总体情况比甲班好。总结:(茎叶图的特征)1.用茎叶图刻画数据有两个优点:一是从统计图上没有原始数据信息的损失,所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示。2.但茎叶图表示三位数以上的数据时不够方便。2.2.2直方图的概念与作法这就是直方图。区间长度为5厘米,区间个数为7,起点为160,终点为195。162.5167.5172.5177.5182.5187.5192.5身高(厘米)2.直方图的基本作法:(1)按照样本值的大小,选择恰当的区间长度(通常要求区间是等长度的),对所有的样本值分组;(2)统计所有组(区间)内的样本值的频次或频率;(3)用横坐标,按照顺序表示不同的区间(组),用竖立于区间上的矩形条,表示相应区间的样本值的频次或频率。3.直方图的使用范围当刻度级样本数据很多或者精度相对高,使得数据集合中重复出现的样本值过少时,就需要对数据分组,用直方图观察不同组数据的频次与频率。4.直方图与条形图的区别直方图要对数据分组;而条形图不对数据分组,直接统计不同样本值的重复次数。直方图适用于大量不重复样本值的数据集合;条形图适用于不重复的样本值的个数不多的情况。直方图只适用于刻度级的样本数据;条形图主要适用于顺序级以上的样本数据。5.直方图的具体作法(1)数据分组数据分组,一般采取等区间长度的原则。数据分组,一般先确定区间长度,然后按下式确定组的个数:1)-(区间长度数据集合中的最小值数据集合中的最大值组的个数R式中,R表示用四舍五入法,把括号中的数据表达为整数。直方图分组组数选用表(通常)样本量推荐组数50~1006~10101~2507~12250以上10~20(2)确定分组区间长度确定分组区间长度的过程以某个量纲单位为初始区间长度(d)区间个数合适?区间长度减半,为初始区间长度的0.5区间个数还少?新的区间长度为初始区间长度的0.25,或0.2区间个数还少?结束新区间长度=d×10新区间长度=d/10不少少了多了少还少不少合适讨论例2.2.1的数据分组的区间长度问题。首先,确定区间长度的量纲。定为“米”or”分米“or”厘米“?分米(即10厘米)组的个数=R((190-160)/10)+1=4组太少,区间长度减半组的个数=R((190-160)/5)+1=7确定出:分组的区间长度为5厘米,区间个数为7。(3)确定分组区间起点位置的方法确定第一个区间(最左边的区间)起点位置的方法①取出样本数据集合中的最小数据(量纲为确定区间长度时所选定的量纲),记为y1。例如在3.2.1中,y1=16(分米)②确定备选的第一个区间起点的位置:a.当分组区间长度为0.2(某量纲单位)时,备选的第一个区间的起点位置(坐标x1)可能是:[y1]+0,[y1]+0.2,[y1]+0.4,[y1]+0.6,[y1]+0.8。式中,[y1]表示对y1取整。例,[16.1]=16,[16.9]=16,等。b.当分组区间长度为0.25(某量纲单位)时,备选的第一个区间的起点位置(坐标x1)可能是:[y1]+0,[y1]+0.25,[y1]+0.5,[y1]+0.75。c.当分组区间长度为0.5(某量纲单位)时,备选的第一个区间的起点位置(坐标x1)可能是:[y1]+0,[y1]+0.5。d.当分组区间长度为1(某量纲单位)时,备选的起始区间的起点位置(坐标x1)可能是:[y1]+0。确定备选的第一个区间的起点位置可概括为:备选的x1=[y1]+k×区间长度,k=0,1,…,同时,k×区间长度1③包含最小值在内,哪个备选区间的起点位置x1与y1最近,就确定该位置为第一个区间的起始位置。例如3.2.1的身高数据的分组问题。已选定分组区间长度为0.5分米,而[y1]=16,备选的第一个区间的起点坐标可能是:[y1]+0=16分米,或者[y1]+0.5=16.5分米。显然,第一个坐标离y1最近。所以,确定第一个区间是[16,16.5)。注意:若某样本数据正好处于两个区间的分界点上,一般应把它归为右边的区间。表2.2.2某班级男生的身高数据排序(单位:分米)16.016.316.516.817.017.117.217.517.517.617.617.717.717.817.818.018.118.218.318.518.619.0表2.2.3某班级男生的身高数据分组组别组1组2组3组4组5组6组7组界[16,16.5)[16.5,17)[17,17.5)[17.5,18)[18,18.5)[18.5,19)[19,19.5)身高16.0,16.316.5,16.817.0,17.1,17.217.5,17.6,17.7,17.818.0,18.1,18.2,18.318.5,18.619.0频次111111122221111111组频次2238421直方图中的一些概念组中值:区间中心位置的坐标x。x=(组上界+组下界)/2组频次:组内数据出现的次数。组距:组区间的长度。组频率:组频次/样本数据集合中的样本个数。频次直方图(频数直方图):纵坐标表示频次(频数)的直方图。频率直方图:纵坐标表示频率的直方图。(4)绘制直方图在横坐标上,从小到大,依次标出分组区间的边界;在纵轴方向,按照各个区间的组频次或组频率的大小,绘制不同高度的矩形。区间长度为5厘米,区间个数为7,起点为160,终点为195。男生身高频次直方图162.5167.5172.5177.5182.5187.5192.5身高(厘米)练习:某中学为了