1补充材料:累计求和运算规则求和算子定义:对于T个观测值,x1,x2,…,xT,求和可以简化地表示为x1+x2+…+xT=Tttx1其中)(称作求和算子。求和算子的运算规则如下:①变量观测值倍数的和等于变量观测值和的倍数。Tttkx1=kTttx1②两个变量观测值和的总和等于它们分别求总和后再求和。Ttttyx1)(=Tttx1+Ttty1③T个常数求和等于该常数的T倍。Ttk1=kT其中k是常数。④定义双重求和为TjijTix11=Ti1(xi1+xi2+…+xiT)=(x11+x12+…+x1T)+(x21+x22+…+x2T)+…+(xT1+xT2+…+xTT)⑤两个变量和的双重求和等于它们各自双重求和的和。TjijijTiyx11)(=TjijTix11+TjijTiy11⑥两个不同单下标变量积的双重求和等于它们各自求和的乘积。TjjiTiyx11=(Tiix1)(Tjjy1)证:TjjiTiyx11=TiTiyyyx121)...(=(Tiix1)(Tjjy1)2第3章统计资料的综合(DataSummarization)用频数分布表与统计图可以展示数据分布的大概特征。为更准确的描述数据的特征,有必要用一些数值描述一组数据的特征,称这些数值为特征数。特征数分三类:(1)表示集中位置;(2)表示分散程度;(3)表示偏斜程度;(4)相关程度。3.1表示集中位置的特征数:(1)平均数;(算术平均数,几何平均数,调和平均数)(2)中位数;(3)众数;(4)百分位数;3.1.1平均数(1)算术平均数(Arithmeticmean)对于不分组数据算术平均数定义:一组数据,(x1,x2,…,xn),容量为n,则算术平均数x表示为x=nxxxn...21=n1niix1(1)例1:5个学生的英语考试分数是80,70,85,90,82。则平均考试分数x=59085828070=81.4算术平均数的性质:①观测值的和等于其平均数与观测值个数的乘积。对(1)式两侧同乘n得,ix=nx说明x有代表性。若不考虑xi的差异。用x代替xi,并乘n,则总和相等。所以人们常用x描述数据。如平均年龄,平均工资等。②一组观测值与其平均数的离差和等于零。)(1xxnii=0证:)(1xxnii=xxi=ix-nx=0(利用性质①)此性质以后常常用到。③xi与某一定值A的离差平方和niix1(-A)2以A=x时为最小。证:niix1(-A)2=)[(1xxnii+(x-A)]2=)(1xxnii2+2(x-A))(1xxnii+21)(Axni3=2)(xxi+2)(Axn可见只有当x=A时,方程左端2)(Axi的值才最小。当数据为分组形式时,xikiixfn11=n1(f1x1+f2x2+…+fkxk)(2)其中:k为分组数;xi为第i组的组中值;fi为观测值落入第i组的频数;n为观测值总个数,n=f1+f2+…+fk。分组数据形式下求得的平均数,只是用原始数据计算的x的近似值。只有当各组中值与相应组内观测值的平均值全相等时,(1)、(2)式的计算结果才相等。因此,只要条件允许,应该用原始数据直接计算。当n很大时,由(2)式计算的x的误差会减小。例2:见30页例2。例2:见第2章例2,婴儿体重分组数据分布表如下:体重(克)频数组中值2400—2700以下225502700—3000以下328503000—3300以下831503300—3600以下534503600—3900以下23750x=2037502...2850325502=3180若用原始数据直接计算(见第2章例2,北京妇产科医院新生儿体重分布)x=203860...26202440=3149(2)几何平均数(Geometricmean)当数据是以环比形式给出时,应该用几何平均数求该数据的平均递增率。定义:一组环比数据r1,r2,…,rn(容量为n),则几何平均数G=nnrrr,...,,21(3)例3:有天津市“六五”期间工农业总产值环比指数如下年份环比指数19801.00019811.05919821.06919831.08219841.11619851.157G=5157.1116.1082.1069.1059.1=1.096即1980—1985期间年平均年增长率为9.6%。注意:开方数n不要用错。几何平均数的性质:41r1r2…rn=GGG(共n个)对于环比数据,几何平均数G有代表性。若r0期观测值为x0,则x0r1r2rn=x0Gnn个G与x0相乘与r1r2rn与x0相乘的值相等。(3)调和平均数(Harmonicmean)当一组数据表示不同比率时,若求平均变化率应该用调和平均数。它是各观测值倒数的算术平均数的倒数。调和平均数定义:设有一组n个观测值x1,x2,…,xn,则调和平均值H定义如下:H=nxxxn)1(...)1()1(121=)1(...)1()1(21nxxxn(4)注意:这里各数据所赋的权相等。例4:市场上某种蔬菜早晨价格为X1=0.25元/斤,中午X2=0.2元/斤,晚上X3=0.1元/斤。若早、中、晚各买1元钱的该种蔬菜,求这批蔬菜平均价格。解:要求平均价格应先知共花了多少钱,共买了多少菜。显然共花了3元钱,共买了19斤菜(早晨买1/0.25=4斤,中午买1/0.2=5斤,晚上买1/0.1=10斤)。H=1.012.0125.013=193=0.158元/斤2.中位数(Median)算术平均数虽然有代表性,但当数据分布不均匀时,这种代表性显得很差。如观察班上5名学生的考试成绩如下:93,90,85,82,0,显然x=5082859093=70没有代表性。因为这五个数据中,有四个值都大于70,说明受0这个极端值影响太大。若没有0这个值,平均数应该是87.5。为避免这种影响,引出中位数的概念。中位数定义(1):一组n个观测值,按数值大小排列如下。x1,x2,…,xn,处于中央位置的数值称为中位数。用Md表示(Median)x(n+1)/2n为奇数Md=(5)[xn/2+x(n/2)+1]/2n为偶数例5:对5名学生的考试分数(n为奇数),则中位数Md=85,(比70更有代表性)。93,90,85,82,0(因有5个数值,5为奇数。)例6:设有一组数据如下(n为偶数)x1,x2,x3,x4,x5,x6,(n=6)101214174166则Md=21(x6/2+x(6/2)+1)=21(x3+x4)=21714=15.5例7:一组数据是3,9,6,1,5。哪个是中位数?5按上述要求排序,x1,x2,x3,x4,x5,n=5为奇数13569则Md=x(5+1)/2=x3=5,即中位数是5。中位数定义(2):对于分组数据,Md的计算公式如下:Md=L+hnn21(6)其中:L为中位数所在组的下限值n1为中位数所在组内,达到中位数所需频数。n2为中位数所在组内,观测值总个(频)数。h为该中位数所在组组距。例8:把第2章例2中20个新生儿体重数据按从小到大顺序排列如下:2440,2620,2700,2880,2900,3000,3020,3040,3080,3100,3180,3200,3200,3300,3420,3440,3500,3500,3600,3860,求:Md(中位数),解:1.当数据不分组时,因为20是偶数,Md=(X20/2+X(20/2)+1)/2=(X10+X11)/2=(3100+3180)/2=31402.作频数分布表图,把数据分成5组分组频数fiXi2400—2700以下225502700—3000以下328503000—3300以下831503300—3600以下534503600—3900以下23750合计2020/2=10,中位数在第3组,组频数=8。Md=L+hnn21=3000+30085=3187例9:1987年1%抽样调查全国人口,数据与分布图如下。年龄(岁)人数(万人)累计人数0100200020406080100120POPULATIONAGE0-10以下195.2781195.278110-20以下248.1611443.432920-30以下195.8780639.317230-40以下161.080440-50以下99.6183050-60以下85.6192060-70以下56.1877070-80以下27.3803080-90以下6.55840090-100以下0.359300100-110以下0.009900合计1067.9307数据的特点是分布不均。年轻人人数多,年老人人数少。平均年龄是28.8岁。显然这个特征数偏高,不能十分满意地反映数据的特征。计算中位数如下。Md落在第3组。6Md=20+8780.1954392.4432/9307.106710=20+8780.1955262.9010=24.6(岁)=第3组下限+(未足数/第3组频数)第3组距。比平均数28.8岁更有代表性。中位数性质:(1)当观测值出现重复的现象不很多时,中位数意味着比它小的观测值个数有一半,比它大的有一半。若有2万农户的年家庭收入数值的中位数为2000元,则知有一万户收入低于2000元,有一万户收入高于2000元。(2)xi与某一定值A的绝对离差和ni1|xi-A|以A=Md时取值最小,即ni1|xi-Md|取最小值。(3)中位数不受极端值影响。(4)中位数可看作是调整平均数的一种特殊形式。计算平均数时,排除了中间位置1或2个观测值以外的所有值。注意:(1)中位数指的是数据值(在横轴上),而不是观测值的频数,也不是秩数。(2)求中位数之前,应先将观测值按大小排列。3.众数(Mode)众数定义:在一组数据中,对应频数最大的那个观测值叫众数,用Mo表示。若为分组时,则只能说出众数所在组。例9:某班40名学生的年龄统计如下:人数年龄(岁)人数1932024218225合计40年龄因为变量值20所对应的频数最大,Mo=20。对于分组数据,MO=L+h211(7)其中L是众数所在组下限值;1是众数所在组频数与前一组频数差;2是众数所在组频数与后一组频数差;h是组距。以例8“20个新生儿体重数据”为例,可见“众数”在第3组。有MO=3000+355300=3187.5注意:(1)众数指变量值,而不是频数。(2)若频数分布只有一个峰值,则分布是单峰的,若有两个,则分布是双峰的。有时对峰值的分析很有意义(见34页图3.2)。4.百分位数(Percentile):百分位数概念是中位数概念的推广。百分位数定义:一组n个观测值按数值的大小顺序排列(由小到大)如下,x1,x2,…,xn7处于第p%位置的观测值为第p百分位数。所以中位数是第50百分位数。第p百分位数的秩数是第np%位数(如不是整数,取大于它的最小整数)。例10:求一组数据10,12,14,17,41,66的第20百分位数。先求百分位数的序数。这6个数值中的第20百分位数,即第620%=1.2位的数值。因1.2不是整数,取2。所以第二位数,即12是第20百分位数。实际意义:设第p百分位数为xk则说明有p%的观测值大于xk。注意:(1)25倍数的百分位数称为四分位数。(2)可用类似于求中位数的方法求分组数据的百分位数。3.2表示分散程度的特征数。表示分散程度的特征数有极差(全距),平均差,方差,标准差,变异系数等。对于一组数据,只用表示集中位置的特征数描述是不够的,先通过一个例子来说明。设有如下二组数据(9,9.5,10,10.5,11)(8,9,10,11,12)显然二组数据的算术平均数相等,但二组数据的分布却有很大差异,显然只用表示集中位置的特征数来描述数据是不够的,还应引入一些表