第1章社会经济统计学概述•课程简介•课程主要内容•统计基本概念及基本方法课程简介•社会经济统计学–是一门“边缘”学科、应用学科–运用统计的原理和方法分析社会、经济现象,揭示其规律,并为社会、经济领域的各种决策提供实证依据•社会经济统计学的学习–抛弃:在传统、经验的基础上进行判断和决策–掌握:在数据的基础上进行判断和决策课程主要内容•统计方法篇–统计描述:图形法、数值法–统计分析:假设检验、方差分析、线性回归、时间序列(统计预测)•社会经济应用篇–劳动力、企业及生产函数的统计分析–公共部门及宏观经济政策的统计分析–金融体系及商业银行效率的统计分析–住户及国民经济统计–对外经济统计统计基本概念:总体、样本及变量•总体(population)–所研究的全部个体或数据的集合–描述总体的变量是不可知的•样本(sample)–从总体中抽取的一部分元素的集合–描述样本的变量是可知的–样本变量的值称为观察值•采集样本的目的–用样本变量的值在可接受的误差范围内推断总体变量的值统计基本方法:统计描述和统计分析•统计描述–数据变量自身的基本特点及相关性•统计分析–数据变量间的因果关系,为决策提供实证依据统计方法统计描述统计分析参数估计假设检验第2章统计描述•第1节统计描述的图形法•第2节统计描述的数值法统计描述方法•统计描述方法–是描述数据特征的表、图和数值等各种方法的总称–可归为图形法和数值法两种•目的–研究如何对客观现象的数量特征进行描述、概括,并通过图表等形式对所收集的数据进行加工处理和显示,进而得出反映客观现象的规律性数量特征第1节统计描述的图形法•主要内容–原始数据图–构成图–频率分布图–散点图常用的图形法•原始数据图•频率分布图(FrequencydistributionorHistogram)–将样本分组,显示各组的个数•构成图(饼图)–将样本分组,显示各组的个数占样本总数的比率•散点图(Scatterplot)–个体的一个变量值在横轴,另一个变量值在纵轴,用来揭示两个变量间的关系,是回归分析中变量取舍的重要参考图形法例:影响房价的因素•80年代对美国321个商品房进行调查,获得如下数据:价格(price)、房间数(rooms)、面积(area)、建筑年代(age)、附近社区数量、离公交站距离、离高速公路距离等(数据来源:Wooldridge,“IntroductoryEconometrics”)•用图形法分析:价格、房间数、面积房屋价格的原始数据图•信息量大•规律性小•原始数据图用于时间序列数据时可显示趋势0510152025303550100150200250300PRICE横轴:样本个体序号纵轴:价格(单位:万美元)房屋价格的频率分布图•信息量小•规律性强•低价房屋偏多横轴:样本按价格高低分组后各价格组的组距(单位:万美元)纵轴:各组包含的房屋个数01020304050048121620242832Frequency房间数的频率分布图•信息量小•规律性强•大部分房屋的房间数为6、7横轴:样本按房间数多少分组后各组的组距(单位:个数)纵轴:各组包含的房屋个数0408012016020045678910房间数的构成图•7个房间的商品房最多,占总房屋数的一半以上,其次是6个房间,约占1/3,占比最少的是10个房间的商品房Rooms630%754%59%83%100%41%93%45678910价格和房间数的散点图•图中的每个点代表样本的一个个体,横轴为其房间数,纵轴为其价格•价格随房间数增加而上升,但趋势很散乱,表明房间数对房价的影响力比较有限0510152025303534567891011ROOMSPRICE横轴:房间数(单位:个数)纵轴:价格(单位:万美元)红线:趋势此房屋有9个房间,价格为5万美元价格和面积的散点图•图中的每个点代表样本的一个个体,横轴为其面积,纵轴为其价格•价格随面积增加而上升,趋势较强,表明面积是影响房价的重要因素横轴:房屋面积(单位:m2)纵轴:价格(单位:万美元)红线:趋势051015202530350100200300400500AREAMPRICE此房屋面积约500平米,价格为10万美元第2节统计描述的数值法•主要内容–平均指标:简单算术平均数、加权算术平均数、几何平均数–变异指标:标准差、离散系数–相关指标:相关系数平均指标•平均指标–说明样本某一变量取值的一般水平或取值分布的集中趋势•根据平均指标的具体代表意义和计算方式不同,分为数值平均数和位置平均数–数值平均数:对统计数列的所有各项数据来计算的平均数,有算术平均数、调和平均数、几何平均数–位置平均数:根据样本中处于特殊位置上的个别单位或部分单位的数值确定的代表值,有中位数、众数简单算术平均数公式NXNXXXXNiiN121式中:为算术平均数为样本个体总数为第个个体的值iiXNX简单算术平均数加权算术平均数公式miimiiimmmffXffffXfXfXX11212211为第组的标志值为第组的次数;为组数iXifimi加权算术平均数权数:样本各组标志值出现的次数,反映了各组的标志值对平均数的影响程度加权算术平均数例•某企业某日工人的日产量资料如下表,计算该企业该日全部工人的平均日产量日产量(件)工人人数(人)101112131470100380150100合计800Xf件)(1375.1280097101007010014701011miimiiiffXX上例解简单几何平均数•简单几何平均数的计算方法式中:为几何平均数;为变量值的个数;为第个变量值。iiXNGXNiNiNNGXXXXX121几何平均数所反映的增长规律:以复利为例•单利与复利的本质区别–单利:利息不计入下期增长基数–复利:利息计入下期增长基数•单利与复利的积累公式–单利:–复利:期间利率本金期的积累值其中::::).1(00nrVnVnrVVnn.)1(0nnrVV简单几何平均数与复利•复利以几何平均数的形式真实反映了货币增值的规律1111)1(211120100GnnnnnnnnnxxxxVVVVVVVVrrVV复利的利率等于几何平均数减去1复利例•一笔3年期贷款第1、2年的年利率为5%,第3年的年利率为10%,求该贷款的年平均利率。解:%64.60664.1110664.1)1.01)(05.01)(05.01(111GGxx年平均利率变异指标•变异指标–样本中各个体数值背离分布中心的程度–可以衡量平均数代表性的大小•变异指标的种类–极差、平均差、标准差–其中最常用的是标准差•平均指标和变异指标统称为基本统计量标准差•标准差–样本各个体数值与样本算术平均数的离差平方的算术平均数的开平方根,标准差的平方又叫作方差•标准差的特点–不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度–用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算211221111NXNXNXXsNiiNiiNii标准差例:12名商学院毕业生的起始月薪数据样本毕业生起始月薪($)128502295033050428805275562710728908313092940103325112920122880起始月薪样本平均数对平均数的离差对平均数的离差的平方28502940-9081002950294010100305029401101210028802940-60360027552940-1853422527102940-2305290028902940-502500313029401903610029402940003325294038514822529202940-2040028802940-603600030185065.165113018501)(2nxxsi标准差的经济意义•简单算术平均数均为1,000元/月•标准差s甲≈3,606元/月s乙≈11,533元/月•假如第三个月停业亏损甲=2,000元亏损乙=10,000元•方差(或标准差)是衡量风险的指标甲乙两人各开一个商店离散系数•离散系数–指消除平均数影响后的变异指标,其形式为相对数。常用的离散系数为平均差系数和标准差系数•标准差系数公式•离散系数的作用–用来对比不同水平的同类现象,特别是平均数代表性的大小–标准差系数小的总体,其平均数的代表性大;反之,代表性小﹪100XsVs某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小﹪﹪﹪02.19100826.15100111XsVs一班成绩的标准差系数为:二班成绩的标准差系数为:﹪﹪﹪47.19100768.14100222XsVs因为,所以一班平均成绩的代表性比二班大。21ssVV离散系数例相关关系•相关关系(Correlation)的定义–指现象之间客观存在的、在数量上的变化受随机因素的影响,非确定性的依存关系。相关关系以相关系数度量•相关关系的主要特点–相关关系表现为数量上的依存关系,即一个现象在数量上发发生变化,另一个现象也会相应发生数量上的变化–现象之间数量依存关系的具体关系值是不固定的–相关关系既有线性相关、也有非线性相关相关系数的计算•相关系数(correlationcoefficient)的计算公式–总体相关系数()–样本相关系数的方差的方差;协方差;YXYXXY:::2222YXXY22)()())((yyxxyyxxr2222yynxxnyxxyn相关关系的种类与相关系数•相关关系按相关的方向分为:–正相关:现象的数量同方向变动;相关系数0–负相关:现象的数量反方向变动;相关系数0•相关关系按相关的程度分为:–完全相关:一种现象的数量变化完全由另一个现象的数量变化所确定;|相关系数|=1–不相关:现象之间彼此互不影响,其数量变化各自独立;相关系数=0–不完全相关:界于前两者之间;1||0相关系数相关关系分析中应注意的问题例1:Anscombe’s四组图•统计学家Anscombe于1973年设计的四组数据•揭示的问题:单纯的基本统计量及相关关系不一定真实反映数据的主要特征•解决途径:在统计量分析的基础上,还要对数据作图示描述例1(续1)四组图的数据数据特点如下表:(其中Mean:均值Variance:方差Correlation:相关系数)数据表(每组由x、y随机变量构成)例1(续2)四组图的图示•很明显,4组数据中,Y的均值、方差及X-Y相关系数都相同,但图示的相关性截然不同。只有Y1呈现通常认为的相关性相关关系分析中应注意的问题(续)例2:虚假相关•虚假相关(pseudocorrelation)–两随机变量间源于偶然的相关关系•解决途径:针对社会经济现象的统计分析一定要以一定的理论为基础注:横轴-年份;纵轴(左)-美国GDP;纵轴(右)-太阳黑子;均为对11年平均值的偏离程度(百分比)Source:Modis,T.,2007,Sunspots,GDPandthestockmarket,TechnologicalForecasting&SocialChange74,1508-1514例2(续)虚假相关例:太阳黑子与GDP的正相关房价和面积的数值描述PRICE(价格万$)AREAM(面积M2)Mean(平均值)9.61195.72Median(中值)8.59191.01Maximum(最大值)30.00477.15Minimum(最小值)2.6068.28Std.Dev.(标准差)4.3264.56PRICEAREAMPRICE1.00AREAM0.651.00数值描述一基本统计量数值描述二相关系数房价及各影响因素的相关系数PR