一种可供选择的对交通数据建模和仿真的方法:人工神经网络论文出处:SimulationModellingPracticeandTheory12(2004)351–362原文作者:S.FigenKalyoncuoglu,MesutTigdemir作者单位:SDU,CivilEngineeringDepartment,Isparta32260,Turkey原文相关时间:Received25November2002;Receivedinrevisedform9March2004;Accepted20April2004;Availableonline15June2004摘要假定在驾驶员特性和交通事故之间有复杂的关系。而与交通事故有关的这些驾驶员特性的影响是很难仿真的。由于人工神经网络(ANN)的方法是一种更有可塑性和想象空间的方法,本文提出使用该方法来训练和预报数据库。网络被组织成不同的结构体系并且为了确定最合适的那一个已经对结果进行了比较。最后,最可能的结构体系被选来作为对调查数据和事故百分比的预报的更好的表示。对于在对ANN的训练中未曾用到的那些输入的输出的预报提供了数据库中没有的驾驶员的信息。预报结果是十分令人满意的,而ANN也已经被证明是对交通数据的估计进行建模和仿真的可靠的处理系统。关键词:神经网络,交通建模问题,辨识,数据挖掘,探测数据集分析,仿真1.绪论:由交通事故引起的人身伤亡和物质损失是全球日益发展的科技的负面影响之一。当我们将高速公路上的交通密度考虑在内,就不会为土耳其是交通事故发生率最高的国家之一而感到惊讶。正是由于如此高的事故发生率,找到造成人身伤亡和物质损失的事故发生的主要因素并作必要的防范就显得十分必要。虽然引起交通事故的因素很多,但通过相关的统计,驾驶员的因素是造成交通事故高发生率的主要因素。因此,所有影响驾驶员行为的特性都必须进行分析。在确定这些因素时有很多方法可以使用,最有效的方法是对人们进行的面对面的调查。通过这些调查可以建立庞大的数据库并且运用不同的方法对数据进行分析。数据库由每个驾驶员的信息组成,他们卷入交通事故的百分比可以用那些具有相同特性的驾驶员的数据库来进行预报。而对那些数据库中没有的驾驶员,卷入交通事故的百分比就不能仅仅利用数据库来预报。为了能作如此的预报,驾驶员特性和卷入交通事故之间的关系就必须在数据库中建立/记录。因此,该数据库肯定是典型的。目前在建模时可以使用统计等若干种方法。上世纪末使用得相当频繁的人工神经网络(ANN)就为很多信息处理程序提供了一种可选择的方法。由于ANN是一种更有可塑性和想象空间的方法并且不要求统计学上的专门技术,本文使用其来进行可靠的数据处理及随后的解释。要对该数据库建模,必须拥有一个基本数据库、ANN软件工具箱和关于建立ANN体系结构的软件的足够的知识。因为这个原因,一些驾驶员特性和它们对卷入交通事故的影响被选来显示关于驾驶员的数据库是如何很容易的用ANN的方法来建立的。本文中关于涉及交通事故的驾驶员特性(包括年龄、性别、受教育程度、驾龄、每天驾驶的平均里程)以及它们的影响的那些数据来自于曾经在本文第一作者的博士论文[1]中使用过的一项专门研究报告。该报告通过对考虑了人口密度的30个城市(如图1所示)的5520名驾驶员进行的面对面的问卷调查获得上述的数据。由于在交通事故中有影响的驾驶员特性很多,笔者随机的选取了其中的五个来作研究。图130个城市的位置地图2.驾驶员特性数据尽管对交通事故有影响的驾驶员特性很多,在本研究中,只有那些用来建模的特性是有依据的。涉及的特性在下面给出并作了概要的解释以支持数据库的建立。2.1驾驶员的年龄年龄和发生交通事故的概率之间的关系是在各种文献中调查频率最高的课题之一。总的来说,在25岁之前发生交通事故的比率比较高,而尽管在该年龄之后事故比率有所下降,一旦超过60岁该比率又开始上升。对于年轻驾驶员的事故高发生率可以解释为他们没有经验,粗心,训练不足,过于自信和没有家庭责任感。而对于老年驾驶员,他们身体机能的下降引起了交通事故。关节组织变得不牢固,敏捷性下降,对于新情况的的反应时间随着年龄的增长而变长等诸如此类的原因引起事故发生率的增长[2]。与性别和年龄相对的驾驶员比率在那些快到二十岁和刚超过二十岁的,尤其是男性的驾驶员中是引人注目的更高。2.2驾驶员的性别不同性别间的特性差异在交通事故的发生上是有影响的。男性驾驶员应该比女性驾驶员为更多的交通事故负责,因为在实际驾驶中他们没感觉的、竞争性的、好斗的、喜欢冒险的、不受约束的本性就会显现出来。尽管男性对于汽车和驾驶的兴趣使他们更有能力和经验,但不幸的是,这还不足以降低事故的比率。根据经验的分析揭露了男性驾驶员和女性驾驶员特性之间的重要差异,他们各自的交通事故危险度已经在Mannering的文章中提到[4]。由于男性驾驶员和女性驾驶员很少工作在相同的领域因此很难对他们进行比较。然而,一项对于出租车驾驶员的研究结果显示女性驾驶员卷入交通事故的比率比男性驾驶员多3.5倍。2.3驾驶员的受教育程度正如在很多领域一样,受教育程度是另一项对交通安全来说是十分重要的因数。观察的重点、认知的特性、理解和说明的方式、对规则的服从度等是与受教育程度同步的。一个受过教育的人不会走由未受教育引起的两个极端——畏缩和无畏——并且行为更有逻辑性。2.4驾龄经验会使驾驶员对环境的观察更好从而降低危险水平。调查显示经验和交通事故的频率之间有各种各样的关系。研究结果显示年龄在16到18岁之间的拿了驾照还不到一年的人引起更多的交通事故。而由于有更多的经验,在18到24这一年龄段的人引发的事故相对于16到18岁年龄段的人来说就更少[5]。驾驶员的经验和能力越高,发生交通事故的可能性就越少[6]。2.5每天驾驶的平均里程旅行者的社会-经济参数被频繁的用来对其旅行行为作解释。一个人每天驾驶的时间越长,发生交通事故的可能性就越高。当驾驶时间变长,驾驶员由于疲劳和感觉上的困难而变得更粗心。Greenshields研究了驾驶的持续时间和驾驶员的表现之间的关系并得出结论:随着连续的长时间驾驶而引起的驾驶员表现恶化和失常是被交通和安全工程师所公认的在高速公路上引发事故和死亡的一个主要原因[7]。3.人工神经网络(ANN)从网络展开的视角对人类行为进行的分析在过去的十年中已经获得了很多科学上的注意。网络模型将他们的分析集中在将个体的空间行为聚集成一个由节点和连接组成的有组织的模式上[8]。有些网络模型与社会的行为基础和经济决策有关。神经网络是基于对人类大脑机能的类比,它尝试借助于人类行为基础的学习机制并用计算机化的方法来反映这些机能。ANN的方法在过去的十年中已经在各种交通运输工程学所涉及问题的通信中得到运用。Belgarovi和Blosseville研究了ANN在道路交通的自动测量中的应用[9]。特别的,他们还利用ANN来建立了一条道路的交通状况的样例。他们使用的网络包括18个输入层的神经元、2个隐藏层和4个不同种类的输出层的神经元。Huang和Part以ANN模型作为界面发展了一种新的仿真模型[10]。Chin和其他人用ANN来综合处理了一个循环的OD(初始点-目的地)流[11]。最后,一股研究用组合模糊逻辑的ANN方法来模拟旅行行为的新潮流是值得提及的[12,13]。ANN在旅行行为、交通流和交通管理方面有很多的应用[8]。4.实现方法用ANN来对数据库建模,首先要决定输入和输出部分。驾驶员特性和子群中的驾驶员数目作为输入,涉及交通事故的百分比作为输出。因此,在ANN模型中有六个输入和一个输出。依照驾驶员特性,参与问卷调查的驾驶员按详细的说明(表1)被分为487个子群。为了使驾驶员更容易的填写调查表以及能很快地将其作为结果的数据库转移到计算机中,调查表上的问题被分为小类,举个例子来说,男性(小类编号;性别:1),二十五岁以下(年龄:1),高中毕业(受教育程度:4),驾车两年(驾龄:2),每天行驶里程在二十公里以下(日行驶里程:1)就是一个编号为11421的特殊子群。如果对于详细说明表中的每个子群都有驾驶员的话,一共将被分为2×5×5×5×5=1250个子群。一个确定的子群卷入交通事故的百分比是由涉及交通事故的驾驶员的数目占该子群的驾驶员的总数目的比例来决定。为了预报各个子群在卷入交通事故的百分比上的影响和找到用最好的方式模拟数据库体系结构,不同的ANN被组织起来。这些ANN使用具有反馈传播的前馈方法进行训练。激发的传播以一种前馈的方式从输入转移到输出层,而误差的反向传播从输出返回到输入层。网络先提供了一种初步的输出,它接着与期望输出进行比较,为使其与预期输出的误差最小化直到误差被限制在预先确定的容许范围之内,该误差会在反馈传播的处理中改变各连接的权值。表1驾驶员特性的子群驾驶员特性驾驶员特性的小类编号12345性别年龄受教育程度驾龄日行驶里程男性(93%)25(22%)文盲(5%)0-1(17%)20(21%)女性(7%)26-35(40%)小学文化(33%)1-5(21%)20-50(29%)-36-55(34%)初中文化(19%)6-10(27%)51-150(27%)-56-65(3%)高中文化(28%)11-20(24%)151-300(16%)-65(1%)大学以上文化(15%)〉20(11%)300(7%)在该ANN的模型中(图2和图3),隐藏层的神经元数量,激发函数和隐藏层的数量均已被改变以获得对调查数据(表2)的最好的模拟。数据库被划分为两个部分,拥有400个子群的第一部分作为训练数据,而拥有87个子群的另一部分作为预报数据。图2单隐藏层的ANN模型图3双隐藏层的ANN模型表2ANN模型及其详细说明ANN模型隐藏层数量隐藏层神经激发函数500个初项实际值和元数目的均方误差和预报值间(SSE)的相关系数ANN1ANN2ANN3ANN4ANN5ANN6ANN7ANN8ANN912248164-28-216-26-26-26-2TansigTansigTansigTansigTansigTansigTansig-tansig-PurelinLansig-purelin-PurelinTansig-tansig-Logsig0.10120.05730.05670.05560.03110.02360.03990.05090.03720.56390.65350.6544-0.60850.73550.76200.88200.92510.9122TANSIG是双曲线型正切S形传递函数xxxxeeeexf)(LOGSIG是log型S形传递函数xexf11)(PURELIN是直线型传递函数xxf)(SSE为均方误差和对于只有一个隐藏层的模型来说隐藏层中神经元数量的增长使SSE从0.1012降到了0.0567,由此可知,为了降低SSE和提高相关系数,ANN结构应为双隐藏型的,在这种ANN结构中,ANN9模型给出了对于SSE和相关系数两方面都是最好的结果。建模的目标是获得最小的SSE,而上面提到的相关系数是指实际值和预报值之间的相关系数。模型使用包含在训练用数据中的那些数据来进行训练。训练的水平用实际数据和训练好的数据之间的相关系数来进行评估。训练好的ANN模型用来进行预报,也就是说,将数据输入ANN模型中,它就会根据输入和输出之间的存在的逻辑关系计算出输出数据。在ANN模型输入和输出变量之间的隐藏层中包含了一个具有高度非线性的神经元泛函结构。每一个神经元或者处理元素接收到若干由前面的节点引发的输入信号jx然后根据他们的连接权值ijw对各个信号进行处理。输入信号和处理元素的内部活性水平之间的关系由它的输入的权值总和给出,其形式如下:nijijixwN)(其中iN是指节点i中的网络输入信号(内部活性水平),ijw是指人工神经元i和j之间的连接权值,jx是指来自于先前节点j的信号的值,i是指节点i的偏差项,n使指来自先前的节点的输入信号的数目。当输入信号的权值和超过了激发阈值i,人工神经