国外交通事故大数据挖掘分析摘要:近年来,随着车速的提高及交通量的增长,道路交通事故每年呈上升趋势。通过对交通事故大数据挖掘分析,k-means聚类分析和Apriori关联规则分析交通事故的趋势和模式,找出事故频发的路段和引发事故的原因以及事故频发的高峰期,以数据分析结果为依据,改善交通状况,减少交通事故,提高交通系统的效率。关键词:交通系统、k-means聚类、Apriori算法Abstract:recentyears,astheimprovementofspeedofvehicleandgrowthoftrafficvolume,roadtrafficaccidentsisontheriseeveryyear.basedondataminingandanalysisoftrafficaccidentsbigdata,K-meansclusteranalysisandAprioriassociationrulesanalysistrafficaccidenttendencyandpattern.findoutfrequentaccidentsectionsandthecauseofaccidentandpeakhours,baseondataanalysisresult,improvethetrafficsituation,reducetarfficaccident,improvetheefficiencyoftrafficsystem.Keywords:transportationsystem、k-meanscluster、Apriorialgorithm一、引言1随着我国经济的发展,交通安全问题日益突出,已经引起了人们的广泛关注。如何对大量的交通事故信息进行数据挖掘,寻找出其中隐藏的知识与规律,用以改善交通安全状况已成为数据挖掘的一个重要的研究领域。2国内外现状智能交通系统国内外研究现状随着智能交通的发展,美国正在研究和部署车辆避碰、司机与车辆监控、与乘坐者安全性能改善等工作。欧洲正在开展为优化人机界面和道路安全的远程信理“智能道路”的研究和示范。澳大利亚也正在用智能交通系统新技术改善道路安全。日本投入了大量的人力和资金,成功地组织了一个“动态路径诱导系统”的实验,日本相继完成了路车间通信系统、交通信息通信系统、宽区域旅行信息系统、超智能车辆系统、安全车辆系统及新交通管理系统等方面的研究。日本“车辆、道路与交通智能协会”成立,ITS由导航系统、自动收费系统、安全驾驶6援助系统等9个开发领域和20个用户服务功能构成。欧洲的ITS的开发与应用是与欧盟的交通运输一体化建设进程紧密联系在一起的。智能交通系统的交通管理、车辆行驶和电子收费等都围绕全欧无线数据通信网来展开。韩国政府于2001月制订了全新的RRS计划投入75亿美元,建成包括汽车及高速公路系统,先进交通管理系统,电子收费系统个先进的RRS子系统。新加坡的ITS研发也具有了较高的水平,其城市高速路监控系统(EMAS),优化交通信号系统(GLIDE),出行者信息服务系统。二、交通事故大数据分析流程1数据采集交通事故大数据来源于公共安全部门和交通部门下的事故数据仓库CTCDR,CTCDR的目标是给负责交通安全人员提供及时、精确、完整、标准的交通事故数据。CTCDR允许对数据进行复杂的查询,属性包括日期、道路位置、道路类型、碰撞类型、伤害程度等。通过用户自定义交通事故数据维度,进行更高级的数据分析识别趋势和模式。2数据分析k-means聚类分析,Apriori关联规则分析,关联规则反映一个事物与其他事物之间的相互依赖性或相互关联性。事故数据的维度包括:日期、事故伤害程度、事故地点和区域、事故影响因素、事故碰撞类型、天气条件、路面情况、建设或维护相关、光照条件、路拦等;交通个体数据的维度包括:车辆是否是有资格的发动机型号、车辆类型、车辆制动、车辆机动前缀、车辆机动后缀、驾驶员或行人的年龄、驾驶员或行人是否喝酒和吸毒、车辆出毛病的个数、首先撞上物体、然后撞上物体。涉及人员数据维度包括ID号、伤害分类、座位、年龄、保护系统的使用、安全气袋的状态、喷射状态。道路特性数据的维度包括平均日流量、农村或城市、通道数。3数据可视化Tableau进行数据可视化,生成相应的图表图形,直观表示交通事故大数据分析结果。三、关于研究领域的原理及应用介绍(算法原理)(1)K-means算法是一种经典的聚类算法,其基本思想是:以随机选取的K个样本作为起始中心点,将其余样本归入相似度最高中心点所在的簇,再确立当前簇中样本坐标的均值为新的中心点,依次循环下去,直到所有样本类别不再变动,得到K个交通事故类,并得到聚类算法模型,能够将所有交通事故数据划分到所属的类中,同时得到m个交通事故信息的特征对聚类效果的重要性程度。图1K-means聚类算法流程(2)Apriori算法是一种挖掘关联规则的频繁项集算法,设置最小支持度和最小置信度,产生频繁项集,关联分析数据源,某个项目集的支持度大于或等于最小支持度,则该项目集被标记为频繁项集。找出频繁项集,根据这些频繁项集可以得到候选关联规则,计算每条候选关联规则的置信度,筛选出大于最小置信度的关联规则,这些关联规则能够发现道路交通事故数据中各种属性的关联,以及驾驶员、车辆、道路、天气、时间等属性引起道路交通事故的原因因素与事故结果之间的规则,从中得到规律。图2Apriori算法流程图本文采用k-means聚类算法对交通事故数据进行基于属性聚类分析,在属性聚类中,使得在一个类中的事故特性具有很高的相似性,将每个类的事故原因当作一个整体来看。采用Apriori关联规则算法找到引起事故的多因素和各自的占比,运用多维关联规则挖掘方法建立Apriori关联规则挖掘模型,通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,并将这些规律作为现实中作出预防举措的依据。四、研究的点采用数据挖掘方法研究交通事故数据,建立多维关联规则数据挖掘模型,旨在通过数据挖掘的关联规则算法,将事故因素集和事故结果集组成事故模式,交通管理部门就可以通过对驾驶员、车辆、道路、天气、时间等因素来判断道路交通事故发生的可能性。k-means算法对属性做聚类分析,通过指定时间范围,选择某个区域或某条道路来确定要分析的数据对象,选定需要分析的项目属性进行聚类分析,在属性聚类中,利用聚类分析对事故原因进行聚类和分组,使得在一个类中的事故特性具有很高的相似性,可以将每个类的事故原因当作一个整体。根据实际需要,在事故原因聚类分析时,要考虑事故原因中各个属性的重要程度,进行属性重要度分析。五、结果分析表明引起交通事故绝大部分都是在没有不利天气条件下发生的,下雨或下雪对事故发生有较大影响。上图说明事故多发生Daylight和Darklight,事故发生和光照条件并无太大关系。交通事故多发生路面情况正常即干燥路面,其他情况如路面是湿的、有融雪等等容易引起交通事故。上图表明引起交通事故的影响因素依次从大到小,分别是跟车距离太近、未能给出优先权、司机失控、变换车道不当、违反交通管理、速度过快、弯道超车、不安全倒退等等。按路面情况进行聚类,路面情况可分为冰雪、潮湿、平坦等状况,根据聚类算法得出结论:平坦路面状况最多,事故数也最多,冰雪只在冬季的部分时间和部分路面才出现,发生事故的比例相对很大,说明冰雪路面易发生事故。路面积水导致摩擦系数降低,车辆容易发生侧滑而冲出公路,导致交通事故的发生。六、未来展望随着经济与社会的发展,公路交通量与日俱增,其交通堵塞、交通拥挤与交通肇事等现象日益增多。且公路占地多、环境污染和财力不足等诸多原因,己不再主要用修建更多公路的办法来解决交通问题,而是致力于用高科技改造现有公路网的技术状况和完善交通管理体系,以提高现有路网的通过能力,适应当前和未来交通量大幅度增长的社会需求。智能交通系统应用计算机系统监控交通状况和系统自身性能,道路上埋设的感应线圈可检测车辆的车速,车流量及道路占用情况,并可在一秒钟内实时修改数据,交通信号可由计算机根据实际情况进行自适应调整或人为干涉,关键路段和重点地区配有摄像机实时监控交通情况。智能交通系统正在研究将城市地区开发的交通管理技术和系统功能推广应用,通过先进的电子通信技术提高行车的安全性。系统包括为驾驶员和事故受害者提供援助的无线紧急呼救系统,恶劣道路和交通环境的实时警告系统。参考文献:[1]交通事故的深入数据分析及其应用,李一兵,袁泉,张雷,清华大学汽车安全与节能国家重点实验室;[2]智能交通发展中的大数据分析,岳建明,袁伦渠,北京交通大学经济管理学院;[3]基于大数据的智能交通运输平台的研究,韩欢,成都理工大学;[4]基于R语言的多种聚类算法演示平台开发,徐天宇,浙江理工大学;[5]道路交通事故原因的聚类分析,于泓漪,吉林大学;[6]基于Apriori算法的交通事故关联规则挖掘,石鹏,宇仁德,刘芳,山东理工大学,TP312;[7]我国各省市交通事故情况聚类分析,周丽,长沙理工大学经济学院;