交通数据处理---参数估计与假设检验1

boken0312
0 ℃
2020-09-22

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

概率统计方法是最早应用于交通研究的数学方法之一。在交通控制，驾驶人行为分析，通行能力研究和交通规划等研究方向都得到了较广泛的应用。概率统计模型分为离散型分布和连续型分布。离散型分布产用于描述一定时间间隔内事件的发生次数。如某段时间内到达停车场的车辆数，某路段一年内发生的交通事故数等。交通工程中常用的离散型分布主要有三种：泊松分布、二项分布和负二项分布。泊松（Poisson）分布()(),0,1,2,...!xTTePXxxxll-===()TXxTe2.718280PXxl=--------------------在计数时间内，时间发生次的概率单位时间内平均发生的事件次数计数时间，如一个信号周期。自然对数的底数，取值为泊松（Poisson）分布记，则m为时间T内平均发生的事件数。期望与方差分别为在实际应用中，期望和方差分别可有样本均值和样本方差进行估计mTl=()(),0,1,2,...!xmmePXxxx-===()EXm=()VarXm=111kkiiiiiikiixfxfmnf=====邋å()()222111111NkijjijSxmxmfnn===-=---邋泊松分布的理论期望和方差是相等的，这是泊松分布的一个重要特点。当显著不等于1时，意味着应用泊松分布拟合数据不合适。在交通工程中，泊松分布最早用于描述一定时间内到达车辆数的分布规律。当交通量不大且没有交通信号干扰时，基本上可用泊松分布拟合观测数据；当交通拥挤时，车辆间的干扰较大，应考虑其他分布。此外，泊松分布还常用于描述一定时间内交通事故发生次数。2Sm例：假设一个商场停车场停车需求服从泊松分布。停车场每小时平均停车数为10辆，求1小时内到达车辆数小于等于10辆的概率；1小时内车辆数大于10辆的概率；1小时内到达车辆数大于5但不超过10的概率。()0Tx!imximePXxi-=?å时间内到达车辆数小于等于辆的概率为1T=小时，x=10,m=10()101001010!iiePXi-=?å()1010010101!iiePXi-==-å()1010510510!iiePXi-=?å二项分布()()1,0,1,2,...nxxxnPXxCppx-==-=()!!!xnnCxnx=-式中，,1,pnpn---?二项分布参数，0为正整数()()()1XEXnpVarXnpp==-的期望和方差分别为()()222,ˆˆˆ()pnpmSmnmpmmS=-==-参数的估计值为取整数当观测数据服从二项分布时，应有21Sm对于拥挤的交通流，可应用二项分布描述车辆到达规律负二项分布及其应用()()111,0,1,2,...xkxkPXxCpx-+-==-=,1,pkpk---?负二项分布参数，0为正整数()222,ˆˆpkpmSkmSm==-参数的估计值为（取整数）当观测数据服从负二项分布时，应有21Sm当随机变量X取值是连续的，则称X的分布为连续型分布。在交通研究中常用的连续型分布主要有正态分布、对数正态分布、负指数分布、M3分布等。正态分布（又称高斯分布）在交通工程中，常用正态分布来描述车来那个运行速度分布；此外，在干扰较小的情况下各种不幸设施上行人步行速度也可用正态分布来描述。()()221exp,22xfxxmsps骣-÷ç÷ç=--?+?÷ç÷ç÷ç桫对数正态分布()()22ln,~,XYXNXXLNmsms=设是取正值的随机变量，如果服从正态分布则称服从对数正态分布记为()()222ln1;,exp,022xfxxxmmssps轾-犏=-?犏犏臌概率密度分布函数对数正态分布在交通研究中是常用分布之一。与交通参与者生理、心理变化有关的变量（如驾驶员的反应时间、脉搏频率等）用对数正态分布来刻画是很好的选择。负指数分布在交通工程中，负指数分布、移位负指数分布、M3分布和爱尔郎分布常用于描述交通流中车头时距的分布。用T表示车头时距，则T为随机变量。当T的密度为，则车头时距服从负指数分布其分布为其意义是车头时距小于t的概率负指数分布适用于车流密度不大，车辆到达随机性较大情况下的车头时距分布。当车辆到达服从泊松分布时，车头时距服从负指数分布。()tftell-=()1tFtel-=-移位负指数分布负指数分布拟合单车道交通流车头时距分布时，理论上会得到车头时距在0~0.1秒的概率较大，这与实际情况不符。为了克服负指数分布描述车头时距分布的这种局限性，引入了移位负指数分布，假设最小车头时距不应小于一个给定的值τ。()()1,tFtetltt--=-?分布函数为()(),tftetltlt--=?密度函数为M3分布当交通较拥挤时，出现了部分车辆成车队状态行驶。负指数分布和移位负指数分布都不能很好的描述这一现象。为此，Cowan提出了M3分布模型。该模型假设车辆处于两种行驶状态：一部分是车队状态形式，另一部分车辆按自由流状态行驶。M3分布函数为：()()1,0,(/)1tetFttqsqqltattatallt--ìï-?ï=íïïî--------=-式中：按自由流状态行驶车辆所占的比例车辆处于车队状态行驶时，车辆之间保持的最小车头时距流量辆统计分布在道路通行能力分析中的应用间隙接受理论在相交的两支车流中，假定一支车流是主路车流，另一支车流是次要车流，次要车流只能利用主路车流的间隙通过。当主路车流上的某一间隙大于临界间隙tc时，次要道路上的车流才能通过。由前述假设可知，如果主路上的间隙Ttc，则支路上车辆不能穿插；如果主路车流间隙满足()1cfcftntTtnt+-?+tf为次要道路上车辆连续通过时保持的车头时距，称为随车时距间隙T内可穿插n辆车的概率为：在一个间隙内可穿插的平均车辆数为假设主路的到达率为λ（辆/s），则一小时内主路为次要道路提供的间隙有q=3600*λ故次要道路一小时可穿插车辆数为()()1ncfcfPPtntTtnt=+-?+[]0nnENnP¥==å0*nnCqnP¥==å无信号控制交叉口通行能力根据主路车流中车头时距分布特性，可以得到相应的理论通行能力。当车头时距服从负指数分布（车辆到达服从泊松分布）则有()1tFtel-=-()()()()()()111cfcfncfcfcfcftnttntPPtntTtntPTtntPTtnteell轾轾-+--+犏犏臌臌=+-?+=+-+-=-整理可得次要道路通行能力为当车头时距服从M3分布时，次要道路通行能力为1cftteCqell--=-()()1,0,tetFttltatt--ìï-?ï=íïïî1cftteCqella--=-在交通设计中的应用统计分布在交通设计中也有着较为广泛的应用，如在行人交通控制系统设计时需要考虑行人可穿越间隙分布，在信号交叉口左转车道设计中需要预测每周期到达左转车辆数。此外，统计分布还可以用于评价这些交通设计的服务特性，如延误分析、排队长度计算等。例：在高速公路设计中，进口引道加速车道长度的确定是加速车道设计的核心内容。加速车道长度不仅要保证车辆在加速车道上完成需要的加速过程，还要保证一定的时间内车辆能够顺利汇入主线车流。假设高速公路上外侧车道的车头时距H服从参数为λ的负指数分布，并假设当H≧t0是匝道上的车辆可以汇入；而对Ht0的间隙则不可汇入。求匝道上车辆在进入匝道后[0,t]时间内能顺利汇入主线车流的概率在交通安全评价中为评价改善措施对道路交通事故减少的效果，往往采用改善前和改善后两个统计周期内发生的事故数进行对比的方法来评价。该方法面临的问题是，所观测到的事故次数减少是由于偶然因素造成，该是改善措施的结果该问题可转化为统计假设检验问题。设有n辆车，所发生事故数X为随机变量令1,0,iXìïï=íïïî事故发生事故没发生ip1i1-p,0ii==设第辆车发生事故的概率为，此时X则第辆车每发生事故的概率为此时X1niiX=å发生事故的总数可以表示为X=()0XB(n,p)XXB(n,p)~,Bnp并且服从二项分布假设用表示措施实施后事故发生的次数，如果改善措施没有效果，则措施实施后事故发生的次数仍然服从二项分布。用统计学的术语，就是要检验原假设H对于交通数据分析，分布模型的选择是非常关键的（1）数据类型和分布特点离散型分布和连续型分布分别适用于离散型变量和连续型变量。因此，要先对数据类型加以辨别。对于属性数据和计数数据则选择离散型分布；对连续取值数据则考虑连续型变量。之后，根据数据的分布特点来选择具体的分布。例如，对于离散型变量，当样本方差接近样本均值时，泊松分布时较好的选择；而当样本方差大于样本均值时，负二项分布时较好的选择。（2）数据拟合程度和合理性选择模型是否合适，一个重要的判断标准就是对数据的拟合效果好并且合理。只有对现有数据拟合程度高的模型才可以做为备选模型；此外，只有符合实际的模型才可以被接受。例如，之所以选择对数正态分布来拟合驾驶人的反应时间，而不用正态分布，原因之一就是反应时间只能取正值，而正态分布的取值区间可以为负（3）专业知识和经验对于同一问题，合适的模型不止一个。这种情况下，可以借助专业知识和经验来选择模型。例如，过去的研究表明，反应时间可以用对数正态分布进行拟合；M3分布可以很好的拟合信号控制路段上的车头时距。（4)）处理上的可行性。在没有特别适合的模型的情况下，可以考虑数学上处理的方便性和方法可用性。负指数分布在描述车头时距分布特性方面是最常用的方法。原因之一就是其在数学形式上比较简单，易于计算处理。人们每时每刻都在做估计，如出门根据天色云量等预测今天的天气、根据婴儿的哭声判断其冷热和是否想吃奶、根据望闻问切来估计病人的病情、根据外表估计一个人的身高体重、根据营业数据等估计一个公司的业绩等估计就是根据你拥有的信息来对真实世界进行某种判断。统计中的估计也不例外，它完全是依据数据得出结论。举例说，人们想知道到底有多大比例的长春人民同意大力发展地铁。由于不太可能一一询问所有长春市民，所以只好进行抽样调查以得到样本，并用样本中同意发展地铁交通的比例来估计真实比例。从不同的样本得到的结论可能不会完全一样。虽然真实的比例在这种抽样过程中永远也不会知道，但是通过某些数学方法知道估计出来的比例与真实的比例大致相差多少从数据得到关于现实世界的结论的过程就叫做统计推断(statisticalinference)。上面调查例子是估计总体参数（某种意见的比例）的一个过程。估计(estimation)是统计推断的重要内容之一。统计推断的另一个主要内容是下一章要引进的假设检验(hypothesistesting)。这里介绍两种估计，一种是点估计(pointestimation)，即用估计量的实现值来近似相应的总体参数。另一种是区间估计(intervalestimation)；它是包括估计量在内（有时是以估计量为中心）的一个区间；该区间被认为很可能包含总体参数。点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不像点估计那么绝对。那么，什么是好估计量的标准呢？一种统计量称为无偏估计量(unbiasedestimator)。所谓的无偏性(unbiasedness)就是：虽然每个样本产生的估计量的取值不一定等于参数，但当抽取大量样本时，那些样本产生的估计量的均值会接近真正要估计的参数。由于一般仅仅抽取一个样本，并且用该样本的这个估计量的实现来估计对应的参数，人们并不知道这个估计值和要估计的参数差多少。因此，无偏性仅仅是非常多次重复抽样时的一个渐近概念。当描述一个人的体重时，你一般可能不会说这个人是76.35公斤你会说这个人是七八十公斤，或者是在70公斤到80公斤之间。这个范围就是区间估计的例子在抽样调查例子中也常用点估计加区间估计的说法。比如，为了估计某电视节目在观众中的支持率（即总体比例p），某调查结果会显示，该节目的“收视率为90%，误差是±3%，置信度为95%”