计量地理学胡碧松hubisong624@126.com地理数据的集中化与均衡度指标4地理数据的统计分组1地理数据的统计图2地理数据的统计指标3地理数据统计指标地理数据的统计分组统计整理的基本步骤:①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。②计算各组数据的频数、频率,编制统计分组表。③绘制统计分布图。Why???What???What???例:对于黄土高原西部地区某山区县的人工造林地调查数据进行统计整理,步骤如下:(1)以地块面积作为统计分组标志进行分组;(2)计算各组数据的频数、频率,编制成如下的统计分组表;(3)做出频数分布的直方图;(4)将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的散点曲线图。分组序号1234567891011分组标志(面积/hm2)(0,1](1,2](2,3](3,4](4,5](5,6](6,7](7,8](8,9](9,10](10,11)组中值0.51.52.53.54.55.56.57.58.59.510.5频数(地块个数)25961362142532862602031548524频率/%1.445.537.8312.3314.5716.4714.9811.698.874.901.38向上累计频数25121257471724101012701473162717121736向下累计频数17361711161514791265101272646626310924某县人工造林地面积的统计分组数据050100150200250300350(0,1](1,2](2,3](3,4](4,5](5,6](6,7](7,8](8,9](9,10](10,11)频数分布柱状图0501001502002503003500.51.52.53.54.55.56.57.58.59.510.5频数分布曲线图地理数据统计图统计图表类型表格平面直角坐标图:柱状图、折线图、曲线图等三维坐标图结构图矩状结构图扇状结构图柱状结构图饼状结构图其它特殊类型:平面正三角坐标图坐标图雷达图、风玫瑰图、金字塔图等Text1Text2Text3Text4Text5Text6A第一产业204060800100020406080100100806040200读某边的数值:向该边作与其零起点相交边的平行线,该平行线与该边的交点即为该边所对应的数值。B%%%AB两国三大产业产值比重构成示意图平面正三角坐标图三维坐标图14710(月)01020-1050100降水量(mm)气温(℃)雷达图风玫瑰图人口金字塔图(1)描述地理数据一般水平的指标(2)描述地理数据分布的离散程度的指标(3)描述地理数据分布特征的参数123几种常用的统计指标与参数平均值一般水平指标中位数众数描述地理数据一般平均水平地块编号面积/hm2112283350435555650772840985102911651275niixnx11x=54.25平均值分组的地理数据miimiiifxfx11xi:第i组的组中值fi:第i组的频数m:分组总数量家庭月收入/元组中值户数(频数)2000~300025003003000~4000350013004000~500045002005000~600055001506000~700065001007000~80007500508000~9000850030合计2130中国西部地区某城市2000年家庭月收入的抽样调查结果x=300×2500+1300×3500+⋯+30×85002130=3899.06(元)中位数未分组的地理数据对于未分组的地理数据:样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。地块编号面积/hm2112283350435555650772840985102911651275Me=61地块编号面积/hm2112102943584035065055511657721275283985升序排序Me=52.5中位数分组的地理数据对于分组的地理数据,中位数的计算方法:1)确定中位数所在的组位置:——中位数应该在向上累计频数包括∑fi/2的组中。2)按下述公式计算中位数:mmniiefSfdLM1121mmniiefSfdUM1121或Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。第1组第n组fmf1fn∑fi/2∑fm-1∑fm≤≤LUd=U-LmmniiefSfdLM1121?家庭月收入/元户数(频数)向上累计频数向下累计频数2000~300030030021303000~40001300160018304000~500020018005305000~600015019503306000~700010020501807000~8000502100808000~900030213030合计2130——∑fi/2=2130/2=1065300≤∑fi/2=1065≤1600∴Me位于分组[3000,4000]L=3000U=4000d=L-U=1000fm=1300Sm-1=300mmniiefSfdLM1121=3000+1065−3001300×1000=3588.46众数未分组的地理数据众数即出现次数最多的那个数值。对于未分组的地理数据,可以根据每一个数值出现的频数大小取最大值可直接确定众数。地块编号面积/hm2112283350435555650772840985102911651275M0=50对于已经分组的地理数据,中位数的计算步骤如下:1)确定频数最多的组为众数所在组;2)按以下公式计算众数:众数分组的地理数据2110dLM2120dUM或∆1为众数组频数与上一组频数之差;∆2为众数组频数与下一组频数之差。家庭月收入/元户数(频数)向上累计频数向下累计频数2000~300030030021303000~40001300160018304000~500020018005305000~600015019503306000~700010020501807000~8000502100808000~900030213030合计2130——∴M0位于分组[3000,4000]∆1=1300-300=1000∆2=1300-200=11002110dLM=3000+10001000+1100×1000=3476.192120dUM或=4000−11001000+1100×1000=3476.19极差离差离差平方和方差标准差标准差无偏估计变异系数描述地理数据分布离散程度的指标所有数据中最大值与最小值之差每一个地理数据与平均值的差值从总体上衡量一组地理数据与平均值的离散程度的指标从平均概况衡量一组地理数据与平均值的离散程度的指标极差}{min}{maxiiiixxRxxdii离差离差平方和212)(niixxd方差标准差为方差的平方根以样本方差对标准差进行无偏估计变异系数表示地理数据的相对变化(波动)程度标准差标准差无偏估计变异系数1)(12nxxSnii%1001)(1%10012nxxxxSCniivnixixn12)(12niixxn12)(1𝑑𝑖𝑑2=𝑑𝑖2𝑛𝑖=1𝜎2=𝑑2𝑛𝜎=𝜎2𝑆=𝑑2𝑛−1𝐶𝑣=𝑆𝑥×100%离差离差平方和方差标准差标准差无偏估计变异系数地块编号面积/hm2112283350435555650772840985102911651275例:731285R序号123456789101112面积128350355550724085296575离差-42.2528.75-4.25-19.250.75-4.2517.75-14.2530.75-25.2510.7520.75xxdii𝑑2=𝑑𝑖2𝑛𝑖=1=(−42.25)2+28.752+…+20.752=5666.25离差平方和离差极差方差标准差标准差无偏估计𝜎2=𝑑2𝑛=5666.2512=472.19𝜎=𝜎2=472.19=21.73𝑆=𝑑2𝑛−1=5666.2512−1=21.7299变异系数𝐶𝑣=𝑆𝑥×100%=21.729954.25×100%=41.84%g1g2偏度系数峰度系数描述地理数据分布特征的参数偏度系数测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为3111niixxngg10,表示负偏,即均值在峰值的左边;g10,表示正偏,即均值在峰值的右边;g1=0,表示对称分布峰度系数测度了地理数据在均值附近的集中程度,其计算公式为niixxng14231g2=0,表示地理数据分布的集中程度是标准正态分布;g20,表示地理数据分布的集中程度高于正态分布;g20,表示地理数据分布的集中程度低于正态分布地块编号面积/hm2112283350435555650772840985102911651275𝜎=21.73𝑥=54.25偏度系数峰度系数3111niixxng=−0.3086niixxng14231=−0.6796负偏,平均值在峰值的左边数据分布集中程度低于正态分布应用实例:中国大陆省份人均GDP的变异系数我们知道变异系数测度的是地理数据分布的相对差异。为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把1978-2002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用变异系数公式,计算1978-2002每一年对应的变异系数,将计算结果绘制成散点折线图:这说明,在1978-1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990-2002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。在1978-2002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在1978-1990年期间基本上呈现下降趋势,而在1990-2002年期间则基本上呈现上升趋势。洛伦兹曲线集中化指数基尼系数锡尔系数地理数据分布的集中化与均衡度指数洛伦兹曲线20世纪初,意大利统计学家洛伦兹(M.Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为洛伦兹曲线。(1)将各部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线,即洛伦兹曲线。标准洛伦兹曲线绘制步骤部门代码产业部门20041999收入/元占总收入的比重/%收入/元占总收入的比重/%1种植业2735.9342.821645.5356.732林业143.572.2579.662.753畜牧业660.6110.34390.2413.454渔业220.673.4574.122.565工业441.576.91167.385.776建筑业163.952.5744.551.547运输业516.878.09150.885.28商饮服务业1112.7217.42211.627.39其他393.166.15136.74.71合计家庭经营纯收入6389.051002900.68100某地区农户家庭经营性纯收入水平及其构成部门代码产业部门2004收入/元占总收入的比重/%1种植业2735.9342.822林业143.572.25