第2*卷第*期计算机辅助设计与图形学学报Vol.2*No.*201*年*月JournalofComputer-AidedDesign&ComputerGraphics***.201*收稿日期:2017-6-30;修回日期:20**-**-**.基金项目:国家自然科学基金(61472354,61672452),NSFC-广东省人民政府大数据科学研究中心项目(U1611263).黄文达(1995—),男,硕士,主要研究方向为信息可视化;陶煜波(1980—),男,博士,副教授,CCF会员,论文通讯作者,主要研究方向为数据可视化、可视分析;屈珂(1994—),女,硕士,主要研究方向为信息可视化;林海(1965—),男,博士,教授,博士生导师,主要研究方向为数据可视化、可视分析、电磁计算.基于OD数据的群体行为可视分析黄文达,陶煜波*,屈珂,林海(浙江大学CAD&CG国家重点实验室杭州310058)(taoyubo@cad.zju.edu.cn)摘要:公共自行车服务系统记录了人们日常出行的移动数据,研究这些数据有助于了解群体行为的轨迹和模式.已有的基于公共自行车数据的群体行为研究只分析了站点之间的群体流动,没有提供更高层次的群体行为分析.本文通过群体定义从自行车数据中提取群体行为,并设计了一个多视图合作的可视分析系统,支持从区域深入到站点的群体行为交互分析.日历图展示群体行为随时间的变化.群体行为分布地图支持在区域或站点层面对群体行为进行分析,并配以时间和流量筛选实现更细粒度的探索分析.堆叠时钟图对比群体行为在工作日和周末的模式.最后,通过四个案例来展示群体行为的时空,轨迹模式,证明本系统的有用性和有效性.关键词:OD数据;群体行为;区域划分;可视分析;时空数据中图法分类号:TP391.41VisualAnalysisofGroupBehaviorBasedonOrigin-DestinationDataHuangWenda,TaoYubo*,QuKe,andLinHai(StateKeyLaboratoryofCAD&CG,ZheJiangUniversity,Hangzhou310058)Abstract:Thepublicbikeservicesystemrecordstheroutinemovementdataproducedbypeople,andresearchonthesedataisbeneficialtoperceivethetrajectoryandpatternofgroupbehaviorExistingresearchbasedonpublicbikedatawhichstudygroupbehavioronlyanalyzegroupflowsbetweenstations,withoutprovidinganalysisofgroupbehavioratahigherlevel.Inthispaper,groupbehaviorisextractedfrombikedataaccordingtothedefinitionofgroup.Avisualanalysissystemwithmultiplecoordinatedviewsisdesignedaswell,whichsupportsinteractiveanalysisofgroupbehaviorinaregions-to-stationsway.Calendarviewshowsthetemporalvariationofgroupbehavior.Groupbehaviordistributionmapisusedtoanalyzegroupbehavioratstationleveloratregionlevel,withtimefilterandflowfiltertoachievefinergranularityinexplorationandanalysis.Stackedclockviewcomparespatternsofgroupbehaviorinweekendandthoseonweekday.Finally,fourcasestudiesareusedtoshowthespatial,temporalandtrajectorypatternofgroupbehavior,whichprovetheuseful-nessandeffectivenessofoursystem.Keywords:ODdata;Groupbehavior;RegionSegmentation;Visualanalysis;Spatial-temporaldata轨迹数据在社会科学、生物、城市交通等诸多领域都已经存在大量的工作和研究.在城市交通领域,研究轨迹数据具有十分重要的意义和价值,比如可以研究城市道路的交通状况来识别拥堵区2计算机辅助设计与图形学学报第2*卷域和地段,根据用户推荐个性化路线,挖掘人们坐地铁的主要换乘模式,识别套牌车等等.轨迹数据存在关联关系,并非孤立产生,比如由结伴而行所产生的一组轨迹,这种行为被称之为群体行为.蕴藏在公共自行车数据中的群体行为通常都表现出其独有的时空特征.比如结伴骑车出行的人们都会更倾向于在周末,午后和晚上出行,且选择的地点都是类似公园,广场等人群密集的地方.研究群体行为有助于发现群体的移动规律以及分析群体形成的原因.比如,研究发现女性相比男性更倾向于群体骑行是出于一种自我保护的意识[1],因为女性单独骑行存在更大的风险.也有研究发现群体骑行是引导那些童年以后就不再骑自行车的人重新骑车的重要原因之一[2].公共自行车出发点-目的地(origin-destination)数据记录了借车站点,还车站点等属性,提供了借车还车的站点位置以及时间信息.然而,由于自行车站点数目较多,倘若需要从宏观上一一研究两个站点之间的流量关系,那么n个站点就会产生n2数量级的关联关系,这将会给可视化带来了难度不小的挑战.同时,考虑到人们借车还车的习惯:倘若在站点A借不到车,那么很有可能会从A相邻的站点借车(还车亦然),以及考虑到单个站点的流入流出量受天气,活动事件等不确定因素的影响具有很大的不稳定性,即人们并不会固定的选择某一站点进行有规律的骑行.本文选择对城市进行区域划分,对一片区域进行观察和分析.具体地,本文选择采用一个迭代双聚类算法对站点进行聚类,将群体功能相似且位置相邻的站点聚为一类,以便更有效地进行数据分析以及更好的可视化展示.本文先从自行车数据中提取出需要研究的群体行为,并以此为依据,利用群体流量对自行车站点进行聚类从而实现区域划分,进而探索群体行为的时空分布,区域与区域之间的群体流量关系,再深入到站点与站点之间的群体流量关系.最后设计并实现了一个包含日历图,群体行为分布地图,流量散点图,堆叠时钟图,和年龄直方图的可视分析交互系统.本文的主要贡献如下:基于群体流量对自行车站点进行聚类,旨在将群体功能相似的站点聚成一个类,从而得到划分后群体功能相似的区域.设计了一个支持区域模式,和站点模式的群体行为分布地图,支持从区域深入到站点的自顶向下的可视分析流程.实现了一个多视图合作,协同高效且交互功能丰富的可视分析系统,实现群体行为挖掘和语义分析.1相关工作与本文工作相关的主要工作有:轨迹数据的可视分析,OD数据可视化,和空间区域的划分.1.1轨迹数据的可视分析轨迹数据[3][4]可以分为个体移动轨迹数据和群体移动轨迹数据.目前国内外对群体移动行为的可视分析研究工作相对较少,一般都关注于个体移动行为的分析,并针对此设计了诸多应用性的可视分析系统.Shamal等[5]设计的SematicTraj系统用一种直观高效,语义丰富的手段来管理和检索出租车的移动轨迹;Wang等[6]利用出租车GPS轨迹对城市交通拥堵以及拥堵传播模式进行可视分析;Zeng等[7]针对公共交通系统研究了人们在不同时刻从某一站点出发到达另一站点所需的时间问题;对于群体移动轨迹具体的可视分析,Andrien-ko等[8]结合动画以及用户自定义时间窗来动态展示物体移动的轨迹,然而动画在展示多个物体的移动时会给用户带来认知负担和记忆负担,且对轨迹的直接可视化只能胜任一些定义明确,操作简单,意义单薄的可视分析任务.Hoang等[9]基于区域流量来预测人群流动从而预防大规模的踩踏事件.与本文工作联系较为密切的是Beecham等的工作.他们针对伦敦公共自行车数据,从年龄,性别等方面研究了对群体租车这一行为的影响因素和决定因素[10].特别地,他们基于站点流量将群体行为的租车轨迹进一步分类,得到若干种类型的群体租车行为模式,进而对这几种模式进行讨论和对比[11].虽然已有工作确实得到了不少有价值的结论,但可视分析方法要么是基于站点,要么是基于区域,没有将二者有机地结合起来,且缺乏一个针对群体行为进行高效分析的交互式可视化系统.因此本文结合出发点-目的地聚集的可视化和面向群体行为的特征可视化来支持更加系统全面的可视分析任务,设计并实现一个界面友好,高效凝练,多视图合作的可视化系统,将群体移动的第*期黄文达等:基于OD数据的群体行为可视分析3规律从区域到站点的层面直观地展现出来.1.2OD数据可视化OD数据属于轨迹数据中的一种,是由起点终点,起止时间以及一些其他附加属性所构成的轨迹数据.例如卡口数据,公共自行车数据,人口迁移数据等都属于此类数据.OD数据的特点是只提供了起点和终点的位置,但不记录具体的轨迹路径.因此比较适合回答诸如“从站点A到站点B平均每天有多少车辆经过”等问题.Jiang等[12]对出租车的OD数据进行了可视分析.对于OD数据的可视化,可视化研究者们已经提出了不少方法.其中主要分为3大类:流图,OD矩阵和OD图.流图是一种将起点和终点用直线或曲线连接起来,并用线的宽度来编码流量大小的可视化方法.毫无疑问,这种方法简单明了且通俗易懂.Wang等[13]在对稀疏轨迹数据进行分析的时候,用流图来比较不同链路之间流量的大小,以及链路流量大小与该链路相邻站点的交通状态的联系.但是流图只适合于单个起点的展示,对于多个起点,大量交叉和错综复杂的线条将引起严重的相互遮挡.针对这一问题,有不少研究者们提出了各种不同的边捆绑以及边过滤技术.OD矩阵是一个m行n列,并用其中的小方格的颜色来编码流量大小的可视化方法.这种方法相对于流图可扩展性更高.但因为其丢失了地理位置信息,往往需要和另外的地图结合起来才能发现出和地理位置相关的规律.OD图[14]是指将整个地图分割成大小一样的方格,然后再在每个小方格里面嵌套一个小的经过分割的整体地图的一种可视化方法.这样一来,方格A的小地图里面对应的方格B的颜色编码的就是从A到B的流量.Yang等[15]设计了OD图的另一个变种MapTrix并在文中用定量的方法比较Maptrix和OD图的优劣.该方法主要是用连线将一个存放起点的地图,一个存放终点的地图和一个OD矩阵图用直线一一对应连接起来,从而充分发挥了了OD矩阵的简洁性,又保留了地理空间位置信息.OD数据除了包含空间属性以外,往往还带有时间属性.如何将这两种属性编码在一起一直给可视化研究者们带来很大的挑战.Boyandin等对流图中用动画或者smallmultiples编码时间属性的差异做了定量对比[16].他同时也提出了一个较为新颖的可视化图表Flowstrates[17]来编码时间属性.在此基础上,Zeng等[18]研究了经过某一路径点的所有OD轨迹的流量在一段时间内的变化.本文综合考虑群体行为分析的主要需求,从直观和易用的角度出发,采用流图作为主要方法来编码OD数据之间的流量关系.1.3区域划分区域划分的实质是按照一定的规则将地图划分成一块块区域,然后将属于该区域的所有个体的统计信息聚集在一起作为一个代表整体的信息,典型的例子就是将自行车站点聚类,将同一个区域内所有站点的流量聚集在一起,作为该区域的流量.区域划分的规则依据可以是均匀网格划分,行政区域划分,人口密度划分,功