-128-统计1.抽样方法:(1)简单随机抽样(抽签法、随机数表法)常常用于总体个数较少时,它的特征是从总体中逐个抽取;(2)系统抽样也叫等距离抽样,常用于总体个数较多时,它的主要特征是均衡成若干部分,每部分只取一个;(3)分层抽样,主要特征是分层按比例抽样,主要用于总体中有明显差异,它们的共同点:每个个体被抽到的概率都相等nN,体现了抽样的客观性和平等性。如(1)某社区有500个家庭,其中高收入家庭125户,中等收入家庭280户,低收入家庭95。为了调查社会购买力的某项指标,要从中抽取一个容量为100户的样本,把这种抽样记为A;某中学高中一年级有12名女排运动员,要从中选取3人调查学习负担的情况,把这种抽样记为B,那么完成上述两项调查应分别采用的抽样方法:A为_______,B为_____。(答:分层抽样,简单随机抽样);(3)某中学有高一学生400人,高二学生300人,高三学生300人,现通过分层抽样抽取一个容量为n的样本,已知每个学生被抽到的概率为0.2,则n=_______(答:200);(4)容量为100的样本拆分成10组,前7组的频率之和为0.79,而剩下的三组的频数组成等比数列,且其公比不为1,则剩下的三组中频数最大的一组的频率是______(答:0.16);(5)用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为2的样本,则某一个体a“第一次被抽到的概率”,“第一次未被抽到,第二次被抽到的概率”,“在整个抽样过程中被抽到的概率”分别是______________(答:111,,10105);2.总体分布的估计:用样本估计总体,是研究统计问题的一个基本思想方法,即用样本平均数估计总体平均数(即总体期望值――描述一个总体的平均水平);用样本方差估计总体方差(方差和标准差是描述一个样本和总体的波动大小的特征数,方差或标准差越小,表示这个样本或总体的波动越小,即越稳定)。一般地,样本容量越大,这种估计就越精确。总体估计要掌握:(1)“表”(频率分布表);(2)“图”(频率分布直方图)。频率分布直方图的特征:(1)从频率分布直方图可以清楚的看出数据分布的总体趋势。(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。频率直方图的作法:(1)算数据极差;minmaxxx(2)决定组距和组数;(3)决定分点;(4)列频率分布表;(5)画频率直方图。提醒:直方图的纵轴(小矩形的高)一般是频率除以组距的商(而不是频率),横轴一般是数据的大小,小矩形的面积表示频率。组数的决定方法是:设数据总数目为n,50n时,分为8~5组;10050n时,分为12~8组.如(1)一个容量为20的样本数据,分组后组距与频数如下:(10,20],2;(20,30],3;(30,40],4;(40,50],5;(50,60],4;(60,70],2;则样本在区间]50,50(上的频率为A.5%B.25%C.50%D.70%(答:D);(2)已知样本:10861013810121178911912910111212,那么频率为0.3的范围是A.5.5~7.5B.7.5~9.5C.9.5~11.5D.11.5~13.5(答:B);(3)观察新生儿的体重,其频率分布直方图如图所示,则新生儿的体重在[2700,3000]的频率为_______(答:0.3);(4)如图,是一次数学考试成绩的样本频率分布直方图(样本容量n=200),若成绩不低于60分为及格,则样本中的及格人数是_____(答:120);(5)有同一型号的汽车100辆,为了解这种汽车每蚝油1L所行路程的情况,现从中随即抽出10辆在同一条件下进行蚝油1L所行路程实验,得O240027003600330030003900体重(g)组距频率0.001分数频率/组距0204060801000.0180.0120.0090.0060.005-129-到如下样本数据(单位:km):13.7,12.7,14.4,13.8,13.3,12.5,13.5,13.6,13.1,13.4,其分组如下:(1)完成上面频率分布表;(2)根据上表,在给定坐标系中画出频率分布直线图,并根据样本估计总体数据落在[12.95,13.95)中的概率;(3)根据样本,对总体的期望值进行估计解:(1)频率分布表:分组频数频率[12.45,12.95)20.2[12.95,13.45)30.3[13.45,13.95)40.4[13.95,14.45)10.1合计101.0(2)频率分布直方图:估计总体数据落在[12.95,13.95)中的概率为0.7(3)0.7(0.3)1.40.80.3(0.5)0.50.60.10.41310x=13.4因此,总体的期望值进行估计约为13.4.(6)为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?(3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由。分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。解:(1)由于频率分布直方图以面积的形式反分组频数频率[12.45,12.95)[12.95,13.45)[13.45,13.95)[13.95,14.45)合计101.090100110120130140150次数o0.0040.0080.0120.0160.0200.0240.028频率/组距0.0320.036-130-映了数据落在各小组内的频率大小,因此第二小组的频率为:40.0824171593又因为频率=第二小组频数样本容量,所以121500.08第二小组频数样本容量第二小组频率(2)由图可估计该学校高一学生的达标率约为171593100%88%24171593(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内。3、样本平均数:12111()nniixxxxxnn。如有一组数据:x1,x2,…,xn(x1≤x2≤…≤xn),它们的算术平均值为20,若去掉其中的xn,余下数据的算术平均值为18,则xn关于n的表达式为(答:218nxn)。4、样本方差:2222121[()()()]nsxxxxxxn211()niixxn;样本标准差:222121[()()()]nsxxxxxxn。如(1)甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环)甲108999乙1010799如果甲、乙两人中只有1人入选,则入选的应是(答:甲);(2)已知实数)2(,,,21nxxxn的期望值为x,方差为2S,niiaxnm12)(1,若xa,则一定有A.mS2B.mS2C.mS2D.2S与m无法比较大小(答:B);(3)某班40人随机平均分成两组,两组学生一次考试的成绩情况如下表:则全班的平均分为_______,方差为______(答:85,51)提醒:若12,,,nxxx的平均数为x,方差为2s,则12,,,naxbaxbaxb的平均数为axb,方差为22as。如已知数据nxxx,,,21的平均数5x,方差42S,则数据73,,73,7321nxxx的平均数和标准差分别为A.15,36B.22,6C.15,6D.22,36(答:B)5.茎叶图(1)茎叶图的画法:①将每个数据分为茎(高位)与叶(低位)两部分,②将最大茎和最小茎之间的数按大小顺序排成一列,③将各数据的叶依先后次序写在其茎的左(右)两侧.(2)茎叶图的特征:(1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。6.独立性检验独立性检验是检定两个事件间是否独立的统计方法,是卡方检验的一个应用.卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验.即根据样本的频数分布来推断总体的分布,卡方独立性检验的零假设是各事件之间相互独立.卡方值永远大于零.χ2的两个临界值分别是3.841,与6.635.2x≤3.841时,接受假设即两事件无关.相关系数是测定变量之间相关密切程度和相关方向的代表性指标。相关系数用符号“r”表示,其特点表现在:参与相关分析的两个变量是对等统计量组别平均分方差第1组8016第2组9036-131-的,不分自变量和因变量,改变两变量的地位并不影响相关系数的数值,因此相关系数只有一个;相关系数有正负号反映相关系数的方向,正号反映正相关,负号反映负相关;回归和相关都是研究两个变量相互关系的分析方法。相关分析研究两个变量之间相关的方向和相关的密切程度。但是相关分析不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。回归方程则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量。为估算预测提供一个重要的方法。相关性检验的步骤是:(1)做统计假设:x与Y不具备线性相关关系.(2)根据小概率0.05与2n查出r的一个临界值.(3)根据样本相关系数公式计算出r的值.(4)作统计推断:如果0.05,rr表明95%的把握认为x与Y之间具备线性相关关系,如果0.05,rr接受假设.提醒:A与B有关并不意味着A的发生必然导致B的发生.7.回归分析回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆:2()(),()iiixxyybaybxxx由x推y2()(),()iiixxyybaxbyyy由y推x.与相关分析相比,回归分析的特点是:两个变量是不对等的,只能用自变量来估计因变量,而不允许由因变量来推测自变量,必须区分自变量,一般说,事物的原因作自变量X.回归分析和相关分析是互相补充、密切联系的。相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则应该建立在相关分析的基础上。依靠相关分析表明现象的数量变化具有密切相关,进行回归分析求其相关的具体形式才有意义。如(1)在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520个女性中6人患色盲,(1)根据以上的数据建立一个2×2的列联表;(2)若认为“性别与患色盲有关系”,则出错的概率会是多少解:(1)患色盲不患色盲总计男38442480女6514520总计449561000(2)假设H:“性别与患色盲没有关系”先算出K的观测值:21000(385144426)27.1448052044956k=则有2(10.808)0.001PK即是H成立的概率不超过0.001,若认为“性别与患色盲有关系”,则出错的概率为0.001(2)一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验的结果:转速x(转/秒)1614128每小时生产有缺点的零件数y(件)11985(1