第03章描述统计

haishengy
11 ℃
2019-12-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1补充材料：累计求和运算规则求和算子定义：对于T个观测值，x1,x2,…,xT，求和可以简化地表示为x1+x2+…+xT=Tttx1其中)(称作求和算子。求和算子的运算规则如下：①变量观测值倍数的和等于变量观测值和的倍数。Tttkx1=kTttx1②两个变量观测值和的总和等于它们分别求总和后再求和。Ttttyx1)(=Tttx1+Ttty1③T个常数求和等于该常数的T倍。Ttk1=kT其中k是常数。④定义双重求和为TjijTix11=Ti1(xi1+xi2+…+xiT)=(x11+x12+…+x1T)+(x21+x22+…+x2T)+…+(xT1+xT2+…+xTT)⑤两个变量和的双重求和等于它们各自双重求和的和。TjijijTiyx11)(=TjijTix11+TjijTiy11⑥两个不同单下标变量积的双重求和等于它们各自求和的乘积。TjjiTiyx11=(Tiix1)(Tjjy1)证：TjjiTiyx11=TiTiyyyx121)...(=(Tiix1)(Tjjy1)2第3章统计资料的综合（DataSummarization）用频数分布表与统计图可以展示数据分布的大概特征。为更准确的描述数据的特征，有必要用一些数值描述一组数据的特征，称这些数值为特征数。特征数分三类：（1）表示集中位置；（2）表示分散程度；（3）表示偏斜程度；（4）相关程度。3.1表示集中位置的特征数：（1）平均数；（算术平均数，几何平均数，调和平均数）（2）中位数；（3）众数；（4）百分位数；3.1.1平均数（1）算术平均数（Arithmeticmean）对于不分组数据算术平均数定义：一组数据，（x1,x2,…,xn），容量为n，则算术平均数x表示为x=nxxxn...21=n1niix1(1)例1：5个学生的英语考试分数是80,70,85,90,82。则平均考试分数x=59085828070=81.4算术平均数的性质：①观测值的和等于其平均数与观测值个数的乘积。对（1）式两侧同乘n得，ix=nx说明x有代表性。若不考虑xi的差异。用x代替xi，并乘n，则总和相等。所以人们常用x描述数据。如平均年龄，平均工资等。②一组观测值与其平均数的离差和等于零。)(1xxnii=0证：)(1xxnii=xxi=ix-nx=0（利用性质①）此性质以后常常用到。③xi与某一定值A的离差平方和niix1(-A)2以A=x时为最小。证：niix1(-A)2=)[(1xxnii+(x-A)]2=)(1xxnii2+2(x-A))(1xxnii+21)(Axni3=2)(xxi+2)(Axn可见只有当x=A时，方程左端2)(Axi的值才最小。当数据为分组形式时，xikiixfn11=n1(f1x1+f2x2+…+fkxk)(2)其中：k为分组数；xi为第i组的组中值；fi为观测值落入第i组的频数；n为观测值总个数，n=f1+f2+…+fk。分组数据形式下求得的平均数，只是用原始数据计算的x的近似值。只有当各组中值与相应组内观测值的平均值全相等时，（1）、（2）式的计算结果才相等。因此，只要条件允许，应该用原始数据直接计算。当n很大时，由（2）式计算的x的误差会减小。例2：见30页例2。例2：见第2章例2，婴儿体重分组数据分布表如下：体重（克）频数组中值2400—2700以下225502700—3000以下328503000—3300以下831503300—3600以下534503600—3900以下23750x=2037502...2850325502=3180若用原始数据直接计算（见第2章例2，北京妇产科医院新生儿体重分布）x=203860...26202440=3149（2）几何平均数（Geometricmean）当数据是以环比形式给出时，应该用几何平均数求该数据的平均递增率。定义：一组环比数据r1,r2,…,rn（容量为n），则几何平均数G=nnrrr,...,,21(3)例3：有天津市“六五”期间工农业总产值环比指数如下年份环比指数19801.00019811.05919821.06919831.08219841.11619851.157G=5157.1116.1082.1069.1059.1=1.096即1980—1985期间年平均年增长率为9.6%。注意：开方数n不要用错。几何平均数的性质：41r1r2…rn=GGG（共n个）对于环比数据，几何平均数G有代表性。若r0期观测值为x0，则x0r1r2rn=x0Gnn个G与x0相乘与r1r2rn与x0相乘的值相等。（3）调和平均数（Harmonicmean）当一组数据表示不同比率时，若求平均变化率应该用调和平均数。它是各观测值倒数的算术平均数的倒数。调和平均数定义：设有一组n个观测值x1,x2,…,xn，则调和平均值H定义如下：H=nxxxn)1(...)1()1(121=)1(...)1()1(21nxxxn(4)注意：这里各数据所赋的权相等。例4：市场上某种蔬菜早晨价格为X1=0.25元/斤，中午X2=0.2元/斤，晚上X3=0.1元/斤。若早、中、晚各买1元钱的该种蔬菜，求这批蔬菜平均价格。解：要求平均价格应先知共花了多少钱，共买了多少菜。显然共花了3元钱，共买了19斤菜（早晨买1/0.25=4斤，中午买1/0.2=5斤，晚上买1/0.1=10斤）。H=1.012.0125.013=193=0.158元/斤2．中位数（Median）算术平均数虽然有代表性，但当数据分布不均匀时，这种代表性显得很差。如观察班上5名学生的考试成绩如下：93，90，85，82，0，显然x=5082859093=70没有代表性。因为这五个数据中，有四个值都大于70，说明受0这个极端值影响太大。若没有0这个值，平均数应该是87.5。为避免这种影响，引出中位数的概念。中位数定义（1）：一组n个观测值，按数值大小排列如下。x1,x2,…,xn，处于中央位置的数值称为中位数。用Md表示（Median）x(n+1)/2n为奇数Md=(5)[xn/2+x(n/2)+1]/2n为偶数例5：对5名学生的考试分数（n为奇数），则中位数Md=85，（比70更有代表性）。93，90，85，82，0（因有5个数值，5为奇数。）例6：设有一组数据如下（n为偶数）x1，x2，x3，x4，x5，x6,(n=6)101214174166则Md=21(x6/2+x(6/2)+1)=21(x3+x4)=21714=15.5例7：一组数据是3，9，6，1，5。哪个是中位数？5按上述要求排序，x1，x2，x3，x4，x5，n=5为奇数13569则Md=x(5+1)/2=x3=5，即中位数是5。中位数定义（2）：对于分组数据，Md的计算公式如下：Md=L+hnn21(6)其中：L为中位数所在组的下限值n1为中位数所在组内，达到中位数所需频数。n2为中位数所在组内，观测值总个（频）数。h为该中位数所在组组距。例8：把第2章例2中20个新生儿体重数据按从小到大顺序排列如下：2440，2620，2700，2880，2900，3000，3020，3040，3080，3100，3180，3200，3200，3300，3420，3440，3500，3500，3600，3860，求：Md（中位数），解：1.当数据不分组时，因为20是偶数，Md=(X20/2+X(20/2)+1)/2=(X10+X11)/2=(3100+3180)/2=31402.作频数分布表图，把数据分成5组分组频数fiXi2400—2700以下225502700—3000以下328503000—3300以下831503300—3600以下534503600—3900以下23750合计2020/2=10,中位数在第3组，组频数=8。Md=L+hnn21=3000+30085=3187例9：1987年1%抽样调查全国人口，数据与分布图如下。年龄（岁）人数（万人）累计人数0100200020406080100120POPULATIONAGE0-10以下195.2781195.278110-20以下248.1611443.432920-30以下195.8780639.317230-40以下161.080440-50以下99.6183050-60以下85.6192060-70以下56.1877070-80以下27.3803080-90以下6.55840090-100以下0.359300100-110以下0.009900合计1067.9307数据的特点是分布不均。年轻人人数多，年老人人数少。平均年龄是28.8岁。显然这个特征数偏高，不能十分满意地反映数据的特征。计算中位数如下。Md落在第3组。6Md=20+8780.1954392.4432/9307.106710=20+8780.1955262.9010=24.6（岁）=第3组下限+（未足数/第3组频数）第3组距。比平均数28.8岁更有代表性。中位数性质：(1)当观测值出现重复的现象不很多时，中位数意味着比它小的观测值个数有一半，比它大的有一半。若有2万农户的年家庭收入数值的中位数为2000元，则知有一万户收入低于2000元，有一万户收入高于2000元。(2)xi与某一定值A的绝对离差和ni1|xi-A|以A=Md时取值最小，即ni1|xi-Md|取最小值。(3)中位数不受极端值影响。(4)中位数可看作是调整平均数的一种特殊形式。计算平均数时，排除了中间位置1或2个观测值以外的所有值。注意：(1)中位数指的是数据值（在横轴上），而不是观测值的频数，也不是秩数。(2)求中位数之前，应先将观测值按大小排列。3．众数（Mode）众数定义：在一组数据中，对应频数最大的那个观测值叫众数，用Mo表示。若为分组时，则只能说出众数所在组。例9：某班40名学生的年龄统计如下：人数年龄（岁）人数1932024218225合计40年龄因为变量值20所对应的频数最大，Mo=20。对于分组数据，MO=L+h211(7)其中L是众数所在组下限值；1是众数所在组频数与前一组频数差；2是众数所在组频数与后一组频数差；h是组距。以例8“20个新生儿体重数据”为例，可见“众数”在第3组。有MO=3000+355300=3187.5注意：（1）众数指变量值，而不是频数。（2）若频数分布只有一个峰值，则分布是单峰的，若有两个，则分布是双峰的。有时对峰值的分析很有意义（见34页图3.2）。4．百分位数（Percentile）：百分位数概念是中位数概念的推广。百分位数定义：一组n个观测值按数值的大小顺序排列（由小到大）如下，x1,x2,…,xn7处于第p%位置的观测值为第p百分位数。所以中位数是第50百分位数。第p百分位数的秩数是第np%位数（如不是整数，取大于它的最小整数）。例10：求一组数据10，12，14，17，41，66的第20百分位数。先求百分位数的序数。这6个数值中的第20百分位数，即第620%=1.2位的数值。因1.2不是整数，取2。所以第二位数，即12是第20百分位数。实际意义：设第p百分位数为xk则说明有p%的观测值大于xk。注意：（1）25倍数的百分位数称为四分位数。（2）可用类似于求中位数的方法求分组数据的百分位数。3.2表示分散程度的特征数。表示分散程度的特征数有极差（全距），平均差，方差，标准差，变异系数等。对于一组数据，只用表示集中位置的特征数描述是不够的，先通过一个例子来说明。设有如下二组数据（9，9.5，10，10.5，11）（8，9，10，11，12）显然二组数据的算术平均数相等，但二组数据的分布却有很大差异，显然只用表示集中位置的特征数来描述数据是不够的，还应引入一些表