1进入虚拟课堂高三数学同步辅导教材(第1讲)一、本讲进度§1.1—§1.4.统计课本P4—P27.二、学习指导统计就是通过对样本的研究来估计总体的相关情况。这种估计的可靠性,取决于两个方面:一是对样本恰当的采集,二是对样本进行适当的分析.1.在可能的情况下,样本容量越大越好.在确定样本容量后,对样本的采集的原则只有一条:公平性.即使每个个体被采入的概率相等(即若总体容量为N,样本容量为n,应使每个个体被采入的概率均为Nn).为此,我们常用以下三种样本采集法:(1)简单随机抽样法.传统常用抽签法和随机数表法,一般适用于样本容量较小者.其中随机数表法初学者易产生一些误解,故应指出:①第二步中“任选一数”才能保证公平性,不必也不能每次都仿课本中例题那样选“5”,②课本例题中“向右”他是照顾阅读习惯而已,从理论上说,也可向左、向上、向下、向左下、向右上等方向,甚至可以有规律地“跳读”.但这不意味着“随意读”,如之类的读法,就人为地破坏了“公平性”.(前一句话中“有规律”的说法也是为了避免无意间破坏了这种“公平性”)③不需以为随机数表中两数一节,只适用于二位数,这只是便于你阅读的一种印刷方式而已,一位数,三位数等也适用;④统计工作者现在常用计算机来产生随机数,我们这两年耳熟能详“计算机派位”就是一例,又快又方便。(2)分层抽样.当总体由差异明显的几部分构成时,为了充分利用已有信息,同时也是为了更好地用样本估计总体,应采用分层抽样。但要注意:①每层中抽取的样本数应为n1·Nn(n1为该层总个数,n为样本容量,N为总体个数);②在每层中应采用简单随机抽样。(3)系统抽样.当总体个数较多,且分成均衡的几个部分时,可采用系统抽样,这样省时省力,但应注意,在每个部分中的抽取规则必须对每一个体“公平”.2.用样本估计总体,一般应做如下几件事:(1)频率分布.先求样本数据中最大值与最小值的差,(称为极差),再确定合适的组数和组距,决定分点(每个分点只能属于一组,故一般采用半开半闭区间),然后列出频率分布表(准确,查数据容易),画频率分布直方图(直观).(2)总体期望值的估计,计算样本平均值x=niix1.(3)总体方差(标准差)的估计:方差=n121)(niixx标准差S=方差方差(标准差)较小者较稳定。本章内容实践性很强,建议在弄清原理和频率的基础上从实习作业为龙头带动学习.三、典型例题讲评例1.某学院有四个饲养房、分别养有18、54、24、48只白鼠供实验用.某项实验需抽取24只,你认为最合适的抽样方法为()(A)在每个饲养房各抽取6只;(B)把所有白鼠都加上编有不同号码的颈圈,用随机取样法确定24只;(C)在四个饲养房分别随手提出3、9、4、8只;(D)先确定这四个饲养房应分别抽取3、9、4、8只样品,再由各饲养房自己加号码颈圈,用简单2随机取样法确定各自己捕出的对象.依据公平性原则,根据实际情况确定适当的取样方法,是本题的灵魂.(A)中对四个饲养房平均摊派,但由于各饲养房所养数量不一,反而造成了各个体入选概率的不均衡,是错误的方法;(B)中保证了各个体入选概率的相等,但由于没有注意到处在四个不同环境会产生不同差异,不如采有分层抽养可靠性高,且统一偏号统一选择加大了工作量;(C)中总体用采了分层抽样,但在每个层次中没有考虑到个体的差异(如健壮程度,灵活程度)貌似随机,实则各个体概率不等。各饲养房必然会造成不同的差异,及同一饲养房中各个体的差异是初学者忽视的.例2.对某种新品电子元件进行寿命终极度实验.情况如下:寿命(h)100—200200—300300—400400—500500—600个数2030804030(1)列出频率分布表,画出频率分布直方图和累积频率分布图.(2)估计合格品(寿命100—400h者)的概率和优质品(寿命40h以上者)的概率.(3)估计总体的数学期望值.通过此题初步体会统计在现实生产,生活中的作用,并了解相关步骤.例3.设nx、2nS分别表示样本(x1,x2,…,xn)的平均值和方差,1nx、21nS分别表示样本(x1,x2,…,xn+1)的平均值和方差,求证:(n-1)21nS=n2nS+)1(nn21)(nnxx本题是探求样本容量由n增大到n+1时,平均值及方差的变化情况.寻求21nS与2nS关系中遇到的第一个问题是,如何把1nx-ix转换为nx-ix?所以我们应选探求1nx与nx间的关系。且不难由1nx=111nxxxnn=1nnnx+11n1nx知1nx-ix=1nnnx-ix+11n1nx=nx-ix+11nxxnn.或1nn(nx-ix)+11nxxin.用哪一个形式好?看要证结论的形式便知应用前一种形式.于是,(1nx-ix)2=(nx-1nx)2+221)1()(nxxnn+12n(nx-ix)(1nx-nx),(n+1)21nS=n2nS+(nx-1nx)2+(n+1)·221)1()(nxxnn+1)(21nxxnn[(n+1)nx-(x1+…+xn+xn+1)]=n2nS+1)(21nxxnn+(1nx-nx)2+1)(21nxxnn(nx-1nx)=n2nS+1)(21nxxnnn.前n项和与平均值,前n+1项和与平均值的关系虽然不复杂,但对初学者是生疏的,尝试着推出结论,对思维的发展不无益处.例4.某市农科所为寻找适合本市的优良油菜品种,在本市5个乡各选了条件相近的3块地,试种A、B、C三种油菜.每块试验田面积均为0.7公顷,试根据下表所列产量情况作一评选:(表中产量单位为kg)12345A21.520.422.021.219.9B21.323.6918.921.419.8C17.823.321.419.720.8为评定优劣,我们只须每块地(0.7公顷)的平均产量以估计产量的期望值及计算相应的标准差,以估计产量的稳定性即可.3例5.为考察某地区12个行政村3000名适龄青年的踽齿发病情况,欲从中抽取300人为样本进行分析,应采用哪种抽样较为合理?并简述抽样过程.一般来说,各行政村人数差异是不能忽略的,为保证每个适龄青年等可能入选,应采用分层抽样法,对每个村抽取其适龄人数的101.具体地可用简单随机抽样法产生,先把每个个青年编号制签,抽取即可.例6.在例5中,如果我们决定先从12个村中选抽3个村再从这三个村中抽取300个样本,为使12个村的每个适龄青年被抽取的概率相同,又应怎样取样?在三个村选定后,从这三个村选样本的情况应与例5类似(不过12改成了3而已)关键在于三个村怎样确定.做12个签,随意抽取3个显然是不公平的,设第m个村适龄人数为mi,该村每个适龄青年入选概率为123(ikjimmmm300)·im1=)(4100kjimmm(mj、mk为另两种签的村的适龄个数)而不再是(mi·300300)·im1=101.所以,为了保证每个适龄青年入选概率相等,选行政村时就不能等概率,而应让其中签的概率为121mmmi=3000im,这样每个适龄青年入围的概率仍是3000im·300·im1=101.当然,具体操作时,不可能那样精细,比方说,如果这12个村的适龄人数大约是1:1:1:1:2:2:2:2:2:3:3:3,则可制1×4+2×5+3×3=23个签,其中有3个是“中”,其余20个是“不中”,让村长抽签,比例是1的抽1个.比例是2的抽2个,比例是3的抽3个.例7.某次考试,某班的成绩写累积频率分布图如下,据此图,你能得到哪些结论?巩固练习1.A①教育局督学组到学校检查工作,临时需在每个班各抽调二人参加座谈;②某班期中考试有15人在85分以上,40人在60~84分,1人不及格,现欲从中抽出八人研讨进一步改进教和学;③某班元旦聚会,要产生两者“幸运者”对这三件事,合适的抽样方法为()(A)分层抽样,分层抽样,简单随机抽样(B)系统抽样,系统抽样,简单随机抽样(C)分层抽样,简单随机抽样,简单随机抽样(D)系统抽样,分层抽样,简单随机抽样累积频率成绩10090140302010184807060504123142A已知一个样本:25、21、23、25、27、29、25、28、30、29、26、24、25、27、26、22、24、25、26、28、试以2为组矩,列出频率分布表,画出频率分布直方图和累积频率分布图,并由此估计总体在22~28间的概率.3A实习作业,题目:我校毕业班的周作业量调查.要求:写出样本采集过程及全部样本数据,写出频率分布表,画出频率分布直方图和累积频率分布图,算出数学期望.参考答案:1.D2.极差=30-21=9。组矩2,故分为5组。频率分布表频数频率累积频率20.5~22.520.10.122.5~24.530.150.2524.5~26.580.40.6526.5~28.540.20.8528.5~30.530.151频率分布直与图累积频率分布图22~28间的概率约为0.85-0.1=0.75附录例1.总体个数为18+54+24+48=14414424=6118×61=354×61=448×61=8故各饲养房各采集容量为3、9、4、8的样本,由于各个体易捕捉程度不一,故不能随手抓捕.选(D)例2.频率分布表寿命(h)频数频率累积频率100—200200.100.10200—300300.150.25300—400800.400.65400—500400.200.8530.520.526.522.524.528.5组矩频率0.224.520.5022.530.528.526.5150500—600300.151合计2001寿命100~400h的频率为0.65,400~600h的频率为0.35估计总体均值2200100×0.01+2300200×0.15+2400300×0.40+2500400×0.20+2600500×0.15=365(h)例3.1nx=111nxxxnn=11nxxnnn=1nnnx+11nxn∴1nx-kx=x-kx-11nxxnn∴(1nx-kx)2=(nx-kx)2-1))((21nxxxxnnkn+221)1()(nxxnn∴(n+1)21nS=(nx-1x)2+…+(nx-nx)2+(nx-1nx)2-1)(21nxxnn((nx-1x)+…+(nx-nx)+(nx+1nx))+1)(21nxxnn=2nnS+12nn(nx-1nx)2-1)(21nxxnn(nx-1nx)=2nnS+1nn(nx-1nx)2例4.Ax=21Bx=20.8Cx=20.62AS=2.862BS=13.632CS=16.62A品种平均产量期期望最值高,且稳定,应入选.例5.(略)例6.(略)例7.没有50分以下,没有90分以上。50~60占161,0.4寿命(t)频率分布直方图2001000.2500400300600频率组矩0.4累积频率分布图4000.2200100300寿命500600(h)10.80.6累积频率660~70占163,70~80占一半,80~90占41.