1第一章数据的描述和整理一、学习目的和要求1.掌握数据的类型及特性;2.掌握定性和定量数据的整理步骤、显示方法;3.掌握描述数据分布的集中趋势、离散程度和分布形状的常用统计量;4.能理解并熟练掌握样本均值、样本方差的计算;5.了解统计图形和统计表的表示及意义;6.了解用Excel软件进行统计作图、频数分布表与直方图生成、统计量的计算。二、内容提要(一)数据的分类数据类型定性数据(品质数据)定量数据定类数据(计数数据)定序数据(等级数据)数值数据(计量数据)表现形式类别(无序)类别(有序)数值(+-×÷)对应变量定类变量定序变量数值变量(离散变量、连续变量)主要统计方法计算各组频数,进行列联表分析、2检验等非参数方法计算各种统计量,进行参数估计和检验、回归分析、方差分析等参数方法常用统计图形条形图,圆形图(饼图)直方图,折线图,散点图,茎叶图,箱形图(二)常用统计量1、描述集中趋势的统计量2名称公式(原始数据)公式(分组数据)意义均值x11niixxn11kiiixmfn反映数据取值的平均水平,是描述数据分布集中趋势的最主要测度值,中位数Me为偶数当为奇数当,nxxnxMnnne),(21)12()2()21(中位数所在组:累积频数超过n/2的那个最低组是典型的位置平均数,不受极端值的影响众数Mo数据中出现次数最多的观察值众数所在组:频数最大的组测度定性数据集中趋势,对于定量数据意义不大2、描述离散程度的统计量名称公式(原始数据)公式(分组数据)意义极差RR=最大值-最小值R≈最高组上限值-最低组下限值反映离散程度的最简单测度值,不能反映中间数据的离散性总体方差2NiixxN122)(12211()kiiimxfN反映每个总体数据偏离其总体均值的平均程度,是离散程度的最重要测度值,其中标准差具有与观察值数据相同的量纲总体标准差2211()NiixxN2211()NiiimxfN样本方差S2niixxnS122)(11ikiifxmnS122)(11反映每个样本数据偏离其样本均值的平均程度,是离散程度的最重要测度值,其中标准差具有与观察值数据相同的量纲样本标准差SniixxnSS122)(11ikiifxmnSS122)(11变异系数CVCV=%100||xS反映数据偏离其均值的相对偏差,是无量纲的相对变异性测度样本标准误xSnSSx反映样本均值偏离总体均值的平均程度,在用样本均值估计总体均值时测度偏差33、描述分布形状的统计量名称公式(原始数据)公式(分组数据)意义偏度Sk33)2)(1()(SnnxxnSik313)(nSfxmSkiiik反映数据分布的非对称性Sk=0时为对称;Sk0时为正偏或右偏;Sk0时为负偏或左偏峰度Ku4224)3)(2)(1()1(])([3)()1(SnnnnxxxxnnKiiu(原始数据)3)(414nSfxmKkiiiu(分组数据)反映数据分布的平峰或尖峰程度Ku=0时为标准正态;Ku>0时为尖峰分布;Ku<0时为扁平分布*在分组数据公式中,mi,fi分别为各组的组中值和观察值出现的频数。三、综合例题解析例1.证明:各数据观察值与其均值之差的平方和(称为离差平方和)最小,即对任意常数C,有2211()()nniiiixxxC证一:设21()()niifCxC由函数极值的求法,对上式求导数,得11()2()22,()2nniiiifCxCxnCfCn令f(C)=0,得唯一驻点11=niiCxxn由于()20fxn,故当Cx时f(C)y有最小值,其最小值为421()()niifxxx。证二:因为对任意常数C有22222211111222212()()(2)2(2)()0nnnnniiiiiiiiiiniixxxCxnxxCxnCnxCxnCnxCxCnxC故有2211()()nniiiixxxC。四、习题一解答1.在某药合成过程中,测得的转化率(%)如下:94.392.892.792.693.392.991.892.493.492.692.293.092.992.292.492.292.892.493.992.093.593.693.093.093.494.292.893.292.291.892.593.693.992.491.893.893.692.192.090.8(1)取组距为0.5,最低组下限为90.5,试作出频数分布表;(2)作频数直方图和频率折线图;(3)根据频数分布表的分组数据,计算样本均值和样本标准差。解:(1)所求频数分布表:转化率的频数分布表转化率分组频数频率累积频率90.5~10.0250.02591.0~00.000.02591.5~30.0750.1092.0~110.2750.37592.5~90.2250.60593.0~70.1750.77593.5~70.1750.9594.0~94.520.051.00(2)频数直方图:直方图10311977202468101290.5-91.0-91.5-92.0-92.5-93.0-93.5-94.0-94.5-转化率频数频率折线图:转化率频率折线图00.050.10.150.20.250.39090.59191.59292.59393.59494.595转化率频率(3)由频数分布表可得转化率分组组中值mi频数90.5~90.75191.0~91.25091.5~91.75392.0~92.2511692.5~92.75993.0~93.25793.5~93.75794.0~94.594.252则825.9240371340225.94025.91175.90181iiifmnxiiifxmnS8122)(11=391[(90.75-92.825)2×1+(91.25-92.825)2×0+…+(94.25-92.825)2×2]=0.584或者)(1181222iiixnfmnS584.0)76.9240225.94025.91175.90(39122222SS=584.0≈0.76422.测得10名接触某种病毒的工人的白细胞(109/L)如下:7.1,6.5,7.4,6.35,6.8,7.25,6.6,7.8,6.0,5.95(1)计算其样本均值、方差、标准差、标准误和变异系数。(2)求出该组数据对应的标准化值;(3)计算其偏度。解:(1)75.6795.55.61.7101iix,n=10222101295.55.61.7iix462.35样本均值775.61075.6711niixnx7方差)(111222niixnxnS371.0)775.61035.462(912标准差2SS=371.0≈0.609标准误193.040609.0nSSx变异系数CV=%100||xS=%100775.6609.0=8.99%;(2)对应的标准化值公式为609.0775.6iiixSxxu对应的标准化值为0.534,-0.452,1.026,-0.698,0.041,0.78,-0.287,1.683,-1.273,-1.355;(3)33)2)(1()(SnnxxnSik=0.204。3.已知某年某城市居民家庭月人均支出分组数据如下表所示按月人均支出分组(元)家庭户数占总户数的比例(%)200以下200~500~800~1000以上1.518.246.825.38.2合计100试计算(1)该市平均每户月人均支出的均值和标准差;(2)并指出其月人均支出的中位数与众数所在组。解:(1)由原分组数据表可得支出分组(元)组中值比例(%)8200以下200~500~800~1000以上10035065090011001.518.246.825.38.2则3.6872.811002.183505.11001001151)(iiifmnx)(1151222iiixnfmnS39.524683.68752.811002.183505.11009912222)(06.22939.524682SS;(2)由原分组数据表可得支出分组(元)比例(%)累积比例(%)200以下200~500~800~1000以上1.518.246.825.38.21.519.766.591.8100中位数所在组,即累积比例超过50的那个最低组,即为500~组。众数所在组是频数即比例最大的组,也是500~组。4.设x1,x2,…,xn和y1,y2,…,yn为两组样本观察值,它们有下列关系:baxyiii=1,2,…,n其中a、b为常数且b≠0,求样本均值x与y及样本方差2xS和2yS之间的关系。9解:baxnnaxnbbaxnynyniiniinii)1(1)(11111nininiiybxxnbaxbaxnyynS1212122)(11)(11)(11221221)(111xniiSbxxnb。五、思考与练习(一)填充题1.统计数据可以分为数据、数据、数据、据等三类,其中数据、数据属于定性数据。2.常用于表示定性数据整理结果的统计图有、;而、、、等是专用于表示定量数据的特征和规律的统计图。3.用于数据整理和统计分析的常用统计软件有等。4.描述数据集中趋势的常用测度值主要有、、和等,其中最重要的是;描述数据离散程度的常用测度值主要有、、、等,其中最重要的是、。(二)选择题1.各样本观察值均加同一常数c后()A.样本均值不变,样本标准差改变B.样本均值改变,样本标准差不变C.两者均不变D.两者均改变2.关于样本标准差,以下哪项是错误的()。A.反映样本观察值的离散程度B.度量了数据偏离样本均值的大小C.反映了均值代表性的好坏D.不会小于样本均值3.比较腰围和体重两组数据变异度大小宜采用()10A.变异系数(CV)B.方差(S2)C.极差(R)D.标准差(S)(三)计算题1.在某次实验中,用洋地黄溶液分别注入10只家鸽内,直至动物死亡。将致死量折算至原来洋地黄叶粉的重量。其数据记录为(单位:mg/kg)97.3,91.3,102,129,92.8,98.4,96.3,99.0,89.2,90.1试计算该组数据的样本均值、方差、标准差、标准误和变异系数。六、思考与练习参考答案(一)填充题1.定类,定序,数值,定类,定序2.条形图、圆形图;直方图、频数折线图、茎叶图、箱形图3.SAS、SPSS、Excel4.均值、众数、中位数,均值,极差、方差、标准差、变异系数,方差、标准差(二)选择题1.B;2.D;3.A(三)计算题1.均值98.54、方差132.27、标准差11.501、标准误3.637、变异系数11.67%。11第二章随机事件与概率一、学习目的和要求1.掌握事件等的基本概念及运算关系;2.熟练掌握古典概率及计算;3.理解统计概率、主观概率和概率的公理化定义;4.熟练掌握概率的加法公式、乘法公式及计算;5.理解并掌握条件概率与事件独立性的概念并进行计算;6.掌握并应用全概率公式和贝叶斯公式进行计算。二、内容提要(一)基本概念概念符号概率论的定义集合论的含义随机试验(试验)E具有以下特征的观测或试验:1.试验在相同的条件下可重复地进行2.试验的所有结果事先已知,且不止一个3.每次试验恰好出现其中之一,但试验前无法预知到底出现哪一个结果。样本空间试验所有可能结果组成的集合,即所有基本事件的全体全集基本事件(样本点)试验的每个不可再