第3章探索性空间数据分析与可视化3.1关于EDA、ESDA与可视化3.2EDA与可视化的基本方法3.3ESDA与空间数据可视化3.4交互技术与ESDA•伴随着计算机技术的发展,适用于海量数据环境的数据挖掘、空间数据挖掘方法正在得到大力发展,其中探索性数据分析技术(exploringdataanalysis,EDA)和数据可视化技术(datavisualization)是最基本的数据分析方法。3.1关于EDA、ESDA与可视化•19世纪60年代Tukey面向数据分析的主题,提出了探索性数据分析的新思路。•EDA技术的特点是对数据来源的总体不作假设,并且假设检验也经常被排除在外。这一技术使用统计图表、图形和统计概括方法对数据的特征进行分析和描述。EDA技术的核心首先是“让数据说话”,在探索的基础上再对数据进行更为复杂的建模分析。因此可将EDA作为数据分析的初级阶段。•ESDA技术是EDA思想在空间数据分析领域的推广。ESDA着重于概括空间数据的性质,探索空间数据中的模式,产生和地理数据相关的假设,并在地图上识别异常数据的分布位置,以发现是否存在热点区域(hotspot)等。ESDA的要求•ESDA需要熟知空间数据的特殊性及数据分析的探索性方法。探索性方法包括数据可视化并导出为表格、图形、地图及其他显示形式。•ESDA和数据挖掘一样是交互的、迭代的搜索过程,其中数据中的模式和关系被用于精炼并搜索更多的兴趣模式和关系。•在非常庞大的数据集中,ESDA等价于空间数据挖掘,其基本的思想是极力使用数据来表示其本身,以识别兴趣模式并帮助产生有关的假设。3.2EDA与可视化的基本方法主要有两类方法:•①计算EDA,包括从简单的统计计算到高级的探索分析多变量数据集中模式的多元统计分析方法。•其中基本统计方法主要研究变量的分布,例如,集中性统计量(包括均值—中位数等);分散性的统计量(包括方差—分位数等);识别偏斜或非正态分布(如双峰模式);识别异常数据,计算相关系数、相关矩阵等;•多变量探索技术(主要用于识别多变量数据集中的模式,包括聚类分析、因子分析、判别分析、多维标度、对数线性分析、典型相关、逐步回归和非线性回归、对应分析、分类树、时间序列、广义加法模型、广义分类树和回归树等)。•②图形EDA技术,即可视化的探索性数据分析。两种类型的EDA本质上是一致的,其目的都是为了揭示数据中的模式、趋势、关系等。常用的图形方法有:•直方图(histogram)•茎叶图(stem-leaf)•箱线图(box-whiskerplot)•散点图(scatterplot)•散点图矩阵(scatterplotmatrix)•平行坐标图(parallelcoordinateplot)•雷达图(radarplot)等。箱线图•箱线图与描述统计中的五数密切相关:•最小值、下四分位数、中位数、上四分位数、最大值•这些数值给出集中性、分散性、极端数据的分布情况。•中位数(media,简写为M)是从小到大排列的数据列中位于中间位置的数,用公式表示为•极差(range,简写为R):与中位数对应的描述分散性的统计量。•分位数(quantile)是一种利用数据的位序描述数据特征的统计量。设p是介于0到1之间的一个数值,有0≤p<1,有n个位序统计量,则p分位数定义为式中,[np]表示n*p的整数部分,于是x的下标是数据位序上的位置,x(np)表示该位序位置上的数值。•最常用的分位数是p=0.75和p=0.25,记为Q3,Q1,其含义是小于Q3和Q1的数据的个数分别占数据总数的75%和25%,因此它们又分别称为上、下四分位数。•均值x和中位数M都是描述数据集中性的统计量,但是前者使用的是数据序列的全部信息,后者只用了少量数据的信息,因此在没有异常数据的情况下,均值比中位数更好地反映了数据的集中性,但这同时也是后者比前者稳健的原因。•综合考虑代表性和稳健性两方面因素,探索性数据分析方法中提出了利用中位数和上、下四分位数3个特征量构造的一个“均值”,称之为三均值M,定义为异常数据和极端数据•异常数据(outlier)是产生均值不稳健的原因,判别一个数据列中的数据是否为异常值,需要一个标准,探索性数据分析技术给出了一种简单的判别方法。记A1、A3分别为异常数据的下、上截断点,则A1=Q1-1.5H,A3=Q3+1.5H(3.11)即非异常数据的分布区间为(Al,A3)=(Q1-1.5H,Q3+1.5H)数据列中的数据如果大于上截断点或小于下截断点都是异常数据。异常数据的分布区间分别为(Xmin,Q1-1.5H),(Xmax,Q3+1.5H)在异常数据中还可进一步地分离出极端数据(extremedata),分布区间为(Xmin,Q1-3H),(Xmax,Q3+3H)图3.2中位数、分位数、异常值、极端值的分布•图中,矩形表示上下四分位数之间的数据分布,中间的横线为中位数的位置,有时中位数的位置用小的方形符号“口”来表示,从矩形的两端各画一条直线到非异常值的最大和最小数值点,这条线称为须线(whisker),在这一点各画一条和须线垂直的短画线表示非异常的最大和最小值的位置。在最大、最小值之外的异常值用“o”表示,极端值则用星号“*”表示。图3.3某企业产品在各个销售区域上多年销售的箱线图•表3.1浦东新区唐镇2000年人口数据•根据下面的图3.4,可以看出总人口在各个居委会中的分布基本属于正常的范围,而人口密度的分布有极端值出现,大部分区域的人口密度为1000~3000人/km2,而王港居委会的人口密度达到了6000余人/km2。图3.4总人口和人口密度的箱线图•需要指出的是:如果在箱线图中选择均值作为中间点,则分散性的范围可根据标准差,或标准误差,或数据的最小-最大值来确定。3.2.2茎叶图和直方图•茎叶图(stem-leaf)和直方图(histogram)都是表示数据分布的图形,在揭示数据分布特征方面有着许多共同点:数据分布的对称性、集中性、分散性,以及异常数的存在性等。•由于茎叶图使用的是数据值本身,而不是直方图那样的面积,因此茎叶图能够更为细致地表现出数据分布的结构。茎叶图的行数选择•合理地选择茎叶图的行数涉及数据的个数、范围以及经验判断。•Hoaglin等根据数据的个数n确定行数的方法主要有3个,公式分别为式中,L表示行数;[]表示取整数。•Hoaglin等认为:样本数n小于100时用式(中式);n大于100时使用式(上式)比较合理;式(下式)在样本数不超过30或40时,可以使用。直方图区间宽度选择•茎叶图中的行数选择实际上提供了区间选择的计算方法。以下式为例,设数据的极差为H,区间宽度为h,则•Scott(1979)和Freedman等从理论上推出了以下两个结果:•Scott推导的公式为•Freedman推导的公式为3.2.3散点图矩阵•散点图的方法给出了两个变量之间关系的初步描述,但是在很多的研究中需要分析多变量之间的关系,散点图矩阵则能够提供有效的可视化表示。•散点图矩阵相当于在由m个变量构成的矩阵中,用相应的两个变量之间的散点图替代矩阵中的元素构成的图形。•散点图矩阵的不足:当所研究的问题中变量数足够多时,散点图矩阵表示的细节信息可能不够充分。散点图矩阵只能表示成对变量之间的关系。3.2.4平行坐标图•平行坐标系中所有的变量轴都是平行的。•平行坐标图提供的是一种在2维平面上表示高维空间中变量之间关系的技术。•在平行坐标图中每一条线可以设想为给定的一个观测实例的“廓线”。•在实践中,对于连续变量需要首先进行标准化,然后用标准化的数值画平行坐标图。•平行坐标系的优点是可以在2维空间上考察分析m维变量的相关性,但是为了表示m维数据,所有的变量都以折线的形式画在平行坐标图上,然而对于非常大的数据集,平行坐标图容易引起视觉上的混淆。•平行坐标图重要的作用在于:①可用于突出显示异常数据;②根据某一变量选择数据子集;③与其他可视化技术结合探索数据中的模式。3.3ESDA与空间数据可视化•地学可视化被定义为使用地理空间视觉显示探索空间数据,并通过这种探索回答问题,产生假设,提出问题解决方案,构建领域知识等。3.3.1空间数据的地图化表示——主题地图①名义变量适合于用独立值表示,它只表示同类地理对象的类型的区分。例如国家政区划分、土地利用、气候类型区等通常这种方式表示。②序数变量可以使用等级符号和分层设色图表示。但需要注意的是符号和颜色的选择需要体现序数变量表示的等级概念的本质。③间隔变量和比率变量体现数据的连续变化,一般使用等级符号、范围图等表示,但是点密度图只适合于比率变量的表示。•饼状图和柱状图是为了在地图上表示多变量的分布特征及其空间差异性而设计的表示方式,其中前者适合于表示结构关系,后者着重于表示数量差异。•当变量个数多时,这种表示方式可能会超出人的视觉判断能力,反而不利于信息的表示。3.3.2主题地图表示的数据分类问题•GIS软件都提供了相关的数据分类方法,主要有:等间隔、等范围、自然分割法、分位数分类、自定义等。•当设计数据分类时,必须注意的因素是:①包括所有范围的数据(最小和最大)。②使用不重叠的值和不空的类。③分类数量足够大以避免牺牲数据的精确性,但是这种精确性不能超过采集数据所保证的精度。④划分数据集到合理的等价的观测组中。⑤如果可能给定一个逻辑数学关系。•确定数据分类数量的基本技术是Sturges规则:分类的数量x介于2的n次方与2的n+1次方。•自然分割的分类方法。基本思想是最小化数据集内部的变异、最大化类型间的变异。通常用图形方法确定分割,即数字线、直方图、频率曲线,GeogreJenks建立了“最优分类方法”作为计算方法确定其理想的分割。•在利用GIS进行主题制图分析中,必须知道系统所提供的分类方法以及这些方法的限制。3.4交互技术与ESDA•交互性的分析技术主要有:1)地图与其他图形显示方式之间通过刷新(brushing)技术建立动态联系。2)利用实时控制工具改变常规的制图方法的参数,获得新状态下的分布特征等。•交互技术的重要特征是建立了地理空间和数据空间的联系,或者将EDA方法紧密地融合于ESDA中。这样就可以从空间特征到属性特征对地理现象进行全面的研究和分析。3.4.1地理空间和数据空间•地理空间(geographicspace)就是由空间参考数据构成的坐标空间,它使用地理坐标定义地理事物和现象,也就是地图形式的地理表示。•数据空间(dataspace)是地理实体属性所构成的空间,其中每一个点代表地理事物在数据空间中的位置。3.4.2交互分析—动态联系窗口和刷新技术•动态联系窗口(linkingwindow)通过刷新技术将地理空间和属性空间的各种视图组合在一起,是一种交互式探索空间数据的选择、聚集、趋势、分类、异常识别的工具。•这种动态交互技术的特点是:①在一种信息窗口中点击或选择,其他的信息窗口产生相应的响应,并以高亮度显示选中的信息,便于对比观察。②ESDA将多种可视化的数据分析工具和地图分析结合在一起,并提供了丰富的交互工具,不仅可以进行选择的操作,而且能够进行改变数据参数等模式的探索。