11、地理数据是用一定的测度方式描述和衡量地理对象的有关量化标志,是对地理问题进行定量化描述和研究的基础,是一切数学方法在地理学中应用的先决条件。2、相关分析:分析地理要素之间的相关关系。回归分析:拟合地理要素之间的数量关系、预测发展趋势。方差分析:研究地理数据分布的离散程度。时间序列分析:用于地理过程时间序列的预测与控制研究。主成分分析:用于地理数据的降维处理及地理要素的因素分析与综合评价。聚类分析:用于各种地理要素分类、各种地理区域划分趋势面分析:用于拟合地理要素的空间分布形态。3、对计量地理学的评价评价一:在地理学的学科体系中,“计量地理学”担负着方法论的任务,将数学方法应用于地理问题的认识、分析和研究,有利于地理学由定性描述走向定量、定位的分析。地理系通过“计量地理学”的教学,让本科学生了解学科发展的特点和趋势,掌握计量地理学的基础知识、常用方法,理解数学模型在实际工作中的作用和意义。结合实际问题的分析,是学生能够正确处理数据资料,建立起适宜的数学模型,把数学方法同现实问题紧密结合,培养学生的实际动手能力,为其他课程的学习打下了良好的数理基础,也为从事实际工作准备了条件,可以说,这门课程的教学对于提高学生的素质发挥了积极作用。评价二:计量地理学让本科学生了解学科发展的特点和趋势,掌握计量地理学基础知识、基本数学模型,着重培养学生正确处理地理数据资料,利用定量方法解决实际问题的能力。对于提高学生的综合素质,起到了重要的作用。4、地理数据的基本特征(简答)一、数量化、形式化与逻辑化二、不确定性三、多种时空尺度四、多维性一、数量化、形式化与逻辑化。定量化的地理数据是建立地理数学模型的基础,其作用为:确定模型的参数、给定模型运行的初值条件;检验模型的有效性。形式化、逻辑化与数量化,是所有地理数据的共同特征。二、不确定性。各种原因所导致的数据误差。(1)地理系统的复杂性。(2)数据误差。三、多种时空尺度。从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度——既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的。从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等。四、多维性。对于一个地理对象的具体意义要从空间、属性、时间三个方面综合描述5、地理数据的来源渠道2(一)来自于观测、测量部门的有关专业数据。(二)来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。(三)来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。(四)来自于政府公报、政府文件中的有关数据。(五)来自于档案、图书等文献资料中的有关数据。(六)来自于互联网(internet)的有关共享数据。(七)来自地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。(八)来自遥感数据。主要包括各种航空遥感数据和卫星遥感数据。(九)其他来源的有关数据。6、数据的时间特征要求(一)数据的即时程度。(二)数据的时段长度。(三)数据的时间完整性。(四)数据的时间同步性。(五)数据的时间代表性(六)数据的时序间隔(一)数据的即时程度。是指论文中获取的最新数据时间。(二)数据的时段长度。论文需要分析有关资料数据在一定时间尺度的变化过程,各学科所需要数据分析的时间尺度不尽相同。(三)数据的时间完整性。日变化数据的完整性,年内变化数据的完整性,年际变化数据的完整性(四)数据的时间同步性。数据的时间序列要同步。(五)数据的时间代表性1.遥感数据,利用卫星影像估算森林覆盖率要说明是用何月的或者还是多年的平均值。1月份和7月份卫星影像估算的森林覆盖率、水域面积等的结果会存在很大的差距。2.水文数据,在对比不同河段水体中泥沙或元素含量时,洪水期、枯水期的含量也大不一样。因此,取样时机的一致性和可比性是至关重要的,必须在文中说明。3.气象数据,对气象数据不能用秋末冬初之类的表述,要用具体月份的说明。(六)数据的时序间隔数据的时间密度选取要根据不同的研究要素变化特征来考虑。1.气象、水文等观测数据变化数据要逐月的变化数据。2.古气候研究的实验数据需要有年度数据,如冰芯、纹泥、树木年轮、珊瑚影像密度、碳酸钙沉积层理等研究需要有年度变化数据。7、地理计算(Geocomputation)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对“整体”和“大容量”的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。8、描述地理数据分布集中程度的指标1.)平均数2.)中位数3.)众数3平均数是集中趋势指标中最重要的一种指标,代表研究对象的一般水平。一般地,平均数包括算术平均数和几何平均数两种类型,能反映出同质总体和样本数值的平均水平和一个数列的数值的“集中趋势”。中位数也称中央值,是地理数据按大小顺序排列,位居中间的那个数值。众数是一个地理观测(或调查)系列中出现频数(次数)最多的数。它也有典型性和代表性9、描述地理数据分布离散程度的指标1.)极差2.)离差3.)离差平方和4.)方差与标准差5).变异系数极差是指所有数据中最大值与最小值之差,计算公式为:最大值减最小值离差是指每一个地理数据与平均值的差离差平方和是它从总体上衡量一组地理数据与平均值的离散程度方差是从平均概况衡量一组地理数据与平均值的离散程度标准差为方差的平方根变异系数表示地理数据的相对变化(波动)程度,其计算公式10、罗伦次曲线(了解)P3520世纪初,意大利统计学家罗伦次(M.Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。221()niidxxnixixn12)(1221()1100%100%1niivxxSCnxx4罗伦次曲线绘制过程:(1)列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;(2)计算每一区域(部门)的比率w/p;(3)根据w/p值,由小到大将每一地区(部门)排序;(4)按照上述顺序分别计算p和w的累计值X和Y;(5)以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。11、基尼系数(P39)用于对经济发展、收入分配等均衡(不均衡)状况,进行定量化的描述。假若罗伦次曲线的解析式为:Y显然,该曲线下方区域的面积为:A对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。XXfXfGd)(212/1)(2/11010XXfAd)(10]1,0[)(XXfY(2.5.6),。512、锡尔系数又称锡尔熵,对经济发展、收入分配等不均衡状况进行定量化描述。有两个锡尔系数指标,即锡尔系数T和锡尔系数L如果以人口比重加权,锡尔系数L的计算公式为式中:n为区域(部门)个数;为i地区(部门)收入占全区(各部门总计)的份额;为i地区(部门)的人口占全区(各部门总计)的份额如果以收入比重加权,则锡尔系数T的计算公式为锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。13、相关系数-1=r=1,大于0时正相关,小于0时负相关。r的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。14、秩相关系数(P52)又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量15.、相关分析与回归分析的区别(参照后面的20、)相关分析揭示了要素之间的相关程度。然而,诸要素之间关系的进一步具体化,譬如某一要素与其他要素之间的关系若能用一定的函数形式予以近似地表达,那么其意义更大。回归分析方法就是研究要素之间具体数量关系的一种强有力的工具,运用这种方法能够建立反映地理要素之间具体数量关系的数学模型,即回归模型。16、普通最小二乘法不同的估计方法可得到不同的样本回归参数β1和β2,所估计的(У平均)也不同。●理想的估计方法应使У与(У平均)的差即剩余e越小越好●因e可正可负,所以可以取(e的和)最小即17、拟合优度概念:样本回归线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线,拟合的回归线)log(1iiniiyppLniiiipyyT1logniiniiniiixyyyxxyyxxr12121)()())((2212ˆˆmin()min()iiieYX6与样本观测值总有偏离。样本回归线对样本观测数据拟合的优劣程度——拟合优度拟合优度的度量建立在对总变差分解的基础上18、确定直线参数的方法与步骤①第一步,根据观测值和设定的回归方程,列式如下②第二步,根据取极值的必要条件(极值原理),有:③第三步,解上述正规方程组(3.2.4)式,得到参数a与b的拟合值,(x平均)和(y平均)分别是观测值x和y的平均值。一元线性回归方程的意义记和分别为参数a与b的拟合值,则一元线性回归模型为此式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。的意义是:以为基数,x每增加1个单位,y相应地平均增加个单位。19、可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合程度越差。20、相关与回归的区别与联系(接15、)相关关系的描述相关关系最直观的描述方式——坐标图(散布图)niiiniiibxayyy1212min)()'(niiiiniiixbxaybxay110)(0)(xbyaˆˆniiniiixxxyxxyyxxLLb121)())((ˆ2112111)(1))((1niiniininiiniiiixnxyxnyxaˆbˆxbayˆˆˆyˆba,ab7相关关系的类型●从涉及的变量数量看简单相关多重相关(复相关)●从变量相关关系的表现形式看线性相关——散布图接近一条直线非线性相关——散布图接近一条曲线●从变量相关关系变化的方向看正相关——变量同方向变化,同增同减负相关——变量反方向变化,一增一减不相关使用相关系数时应注意x和y都是相互对称的随机变量●线性相关系数只反映变量间的线性相关程度,不能说明非线性相关关系●样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验●相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线计量学关心:变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法回归的现代意义:一个应变量对若干解释变量依存关系的研究回归的目的(实质):由固定的解释变量去估计应变量的平均值21、趋势面分析的一般原理趋势面分析,是利用数学曲面模拟地理系统要素在空间上的分布及变化趋势的一种数学方法。它实质上是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,模拟地理要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。趋势面分析方法常常被用来模拟资源、环境、人口及经济要素在空间上的分布规律,它在空间分析方面具有重要的应用价值。趋势面是一种抽象的数学曲面,它抽象并过滤掉了一些局域随机因素的影响,使地理要素的空间分布规律明显化。通常把实际的地理曲面分解为趋势面和剩余面两部分,前者反映地理要素的宏观分布规律,属于确定性因素作用的结果;而后者则对应于微观局域,是随机因素影响的结果。趋势面分析的一个基本要求,就是所选择的趋势面模型应该是剩余值最小,而趋势值最大,这样拟合度精度才能达到足够的准确性。空间趋势面分析,正是从地理要素分布的实际数据中分解出趋势值和剩余值,从而揭示地理要素空间分布的趋势与规律。822、聚类分析是根据变量(或样品或指标)的属性或特征的相似性或亲疏程度,用数学方法把他们逐步地分型划类,最后得到一个能反映样品之间或指标之间亲疏关系的客观的分类系统,样品或指标逐步归并最后可形成分