高频数据分析与市场微观结构1高频数据:指在细小的时间间隔上抽取的观测值。在金融市场中,高频数据与市场微观结构紧密联系,常用于比较不同交易系统价格发现的有效性以及特定股票买卖报价的动态性。2▲股票交易发生是非同步的;▲不同股票交易频率不同;▲相同股票不同时间交易频率也不同;非同步交易:3针对股票日收益率,非同步交易会导致股票收益率出现一些相关的关系。非同步交易:例:股票A、B相互独立,且股票A交易更为频繁。当某天接近收盘时刻出现一个特定的消息,股票A由于交易更频繁,所以比股票B更可能在同一天显示出这个消息的效应,而该消息对股票B的效应则可能延迟到下一个交易日。4非同步交易导致收益率序列负相关基本假设:▲每个时间段,证券不交易的概率为π▲rt表示证券在t时刻的复合收益率▲{rt}独立同分布,满足均值为µ,标准差为δ▲表示观测到的收益率5与rt的数学关系6相关推论:,利用独立性可得,利用方差公式以及独立性可得,利用协方差公式可得7的计算:可得:结论:非同步交易会导致收益率序列负相关8买卖报价差:在某些股票交易所,采取的仍然是做市商交易制度,通过做市商来给市场提供足够的流动性。而做市商的利润来源,则是买价与卖价之间的价差。买卖价差虽然数量较小,但其存在使资产收益率序列有了一步延迟负序列相关关系。9买卖报价差:基本假设:1.2.服从1,-1的二项分布,概率各为0.53.表示t时刻资产基本价值,保持不变则有:10相关推论115.3交易数据的经验特征12•(1)不等间隔的时间区间•(2)离散取值的价格•(3)日周期或者日模式的存在•(4)一秒钟的多种交易13每五分钟间隔内的交易次数14序列样本的ACF15解释可能为:开盘大家对于价格的竞争非常激烈,临近中午收盘交易强度下降,下午开盘交易强度逐渐回升,在收盘前又会迎来多空双方相互竞争价格的高峰16第i次交易第i-1次交易17185.4价格变化模型•5.4.1顺序概率模型•5.4.2分解模型195.4.1顺序概率模型*iiiyx•表示所研究的资产不能观测到的价格变化()•表示时刻可以得到的解释变量的p维行向量•,1***iiittyPP*iyix1it(|)0iiEx2(|)iiiVarx2()iig在给定和的条件下服从正态分布iixi20观测值:,=,若,j=1,2,…,kyiyijs*1jijy011...kkix()ii21例5.1,以IBM为例,得到与与的解释变量,将其带入式5.18,可通过最大似然估计或MCMC方法得到β、α、γ的估计值ix()ii22估计结果:23•边界的划分并不是等间隔的,但是几乎是关于0对称的(α)•交易的持续期不仅影响的条件均值,而且影响的条件方差()•滞后价格变化的系数为负并且是高度显著的,显示了价格的逆转性质•时刻的买卖报价价差显著地影响条件方差结论:ityiyi1it11、234(、、)2()245.4.2分解模型1iiittiiiyPPADS表示价格变动了多少个最小单位iSiS25•对于•对于都是二元变量,所以都可以logit模型进行估计:,iiAD26•对的解释变量的估计:–其中:g(λ)是参数λ的几何分布参数随时间的变化为:iS,ji27估计方法:•第i次交易有三种情况:–价格无变化:–价格上升:–价格下降:•对于第i次交易,方程(5.24)的对数似然函数为•由此,全部的对数似然函数为:0iA0,1iiAD0,1iiAD28例5.2IBM股票交易数据•模型简介:•估计结果:29•价格变化依赖于上一次的价格变化:•价格变化的方式由下式控制:•只有很弱的证据表明大的价格变化有更大的可能性跟随另外一个大的价格变化:结论:30R软件进行logistic回归315.5持续期模型1、持续期定义持续期是指交易之间的时间间隔。持续期与交易强度呈反比。持续期越长,交易强度越低,即交易活动较少。一般使用指数分布、韦布尔分布以及广义伽马分布来刻画时间间隔的随机分布。2、持续期日模式特征交易之间的时间持续期呈现日循环模式。举例说,在NYSE中,开盘和收盘时刻的交易比较频繁,而中午交易比较少,交易强度呈U型,对应持续期呈倒转U型。这种日模式是由于标的资产以及市场的系统行为造成的。在建模中,需要剔除日模式对持续期的确定性影响,着重研究它的随机成分。32铺垫一:概率分布知识1、指数分布X~exp(β)概率密度函数——累积分布函数——E(X)=βVar(X)=233此处1=342、伽马函数3、伽马分布称随机变量X服从参数为(形状参数)和(尺度参数)的伽马分布,如果其pdf为35此处,k是形状参数,θ是尺度参数k=1时,伽马分布就是指数分布;K越大,伽马分布近似于正态分布。364、韦布尔分布(Weibull)称一个随机变量X服从参数(形状参数)和(尺度参数)()如果其pdf为X的cdf为当α=1时,韦布尔分布简化为指数分布。37此处,λ是尺度参数,k是形状参数。38标准化韦布尔分布:定义则E(Y)=1,而且Y的pdf为Y的cdf为对韦布尔分布进行标准化,尺度参数消失,期望变为1,方差变为395、广义伽马分布称随机变量X服从参数的广义伽马分布(形状参数α和κ,尺度参数是β)它的pdf由下式:当κ=1时,广义伽马分布简化为韦布尔分布。当α=1时为伽马分布。当κ=1,α=1时为指数分布其期望为标准化广义伽马分布:定义Y=X/[].则E(Y)=1.Y的pdf为40铺垫二:调整时间持续期实证发现,时间持续期呈现出日内模式。需要剔除其循环成分,使得模型针对的对象为调整后的时间持续期其中是一个确定的函数。实际应用中,有很多估计的方法。光滑插值是一个通常的方法。一下运用简单的二次插值函数和示性变量来处理日交易活动中确定的组成部分。我们假定其中(t)if是示性变量5(t)if6(t)if7(t)if41通过线性回归的最小二乘法估计拟合的模型为42建模:ACD模型1、思想:自回归条件持续期(ACD)模型利用GARCH模型的思想来研究调整的时间持续期的动态结构。2、记号说明:(1)调整的时间持续期(2)第i-1次交易至第i次交易的调整的时间持续期的条件期望(3)是独立同分布的非负随机变量序列,并满足根据服从的分布,标准指数分布、标准韦布尔分布、标准广义伽马分布,ACD模型可依次分为EACD、WACD、GACD。3、模型形式回忆GARCH模型形式:43与GARCH模型类似,过程是一个鞅差序列,即,无条件期望也为0ACD模型变形为此处由上式可以得到ACD模型弱平稳性的基本条件:期望持续期是正数,则需要举例:EACD(1,1)模型Page217-218其中服从标准指数分布。假定是弱平稳,计算其不随时间变化的头两阶矩,并得到参数需要满足的条件。444、带有广义伽马分布的ACD模型指数分布、韦布尔分布以及广义伽马分布分别都有相应的危险率函数,也即是强度函数,通俗的理解是事件发生率(联想泊松分布的参数λ(t))危险率函数的定义具体计算为:X的危险率函数其中和是X的pdf和生存函数。生存函数指数分布的危险率函数是常数,韦布尔分布的危险率函数是单调的。对于广义伽马分布,危险率函数可以有各种不同的形状,包括U型和倒U型。在现实生活中,股票交易的强度函数不是固定的,对采用标准化的广义伽马分布,为股票交易的持续期建模提供了一个灵活的方法。r0h(x)=limXx+|Tx)/xPxx(x()fx()sx45ACD模型估计ACD模型估计使用极大似然估计令,持续期的似然函数为其中θ表示模型的参数向量,T表示样本大小。边缘概率密度函数精确形式相当复杂,而且随着样本容量增大,它对似然函数的影响递减的,去掉该项后,导致了条件似然方法的运用。举例:求WACD模型的条件对数似然函数Page220-22146ACD模型模拟以及估计验证1、模拟一WACD(1,1)假定服从参数α=1.5的标准化韦布尔分布。从模型中产生500个观测值,下图是观测值序列时间图47模拟序列直方图:48模拟序列的ACF以及标准化序列的ACF(为标准化序列)49把WACD(1,1)模型中模拟出的500个观测值作为样本,利用条件似然方法估计模型,估计结果如下:估计看上去很合理。从ACF可以看出,原始序列有明显的序列相关性,而估计得到的序列没有显著的序列相关,从而说明拟合的模型是正确的,符合是独立同分布随机变量的假定。502、模拟二GACD(1,1)假定服从参数κ=1.5,α=0.5的标准化广义伽马分布。从模型中产生500个观测值,下图是观测值序列时间图51模拟序列直方图:52模拟序列的ACF以及标准化序列的ACF(为标准化序列)53把WACD(1,1)模型中模拟出的500个观测值作为样本,利用条件似然方法估计模型,估计结果如下:估计看上去很合理。从ACF可以看出,原始序列有明显的序列相关性,而估计得到的序列没有显著的序列相关,从而说明拟合的模型是正确的,符合是独立同分布随机变量的假定。545.6非线性持续期模型(thresholddurationmodel门限持续期模型)表5-8对IBM从1990年11月1日至1990年11月7日交易持续期的非线性检验只利用了日内持续期.TAR-F检验括号内的数表示时间延迟.55•对IBM的日内持续期考虑一个两体制的门限持续期模型门限变量为,门限值的估计为3.79拟合的门限WACD(1,1)模型是表示参数为的标准化韦布尔分布(5.45)上述门限WACD(1,1)模型的标准化新息没有检验出非线性565.7价格变化和持续期的二元模型(pricechangeandduration,PCD模型)ititP1iiittt第i次价格发生变化时的交易价格价格变化的时间持续期iN时间间隔中无价格变化时的交易数量),(1iittiD第i次价格变化的方向(+1上升;-1下降)iS以最小价位变动单位测量的第i次变化的大小资产在第i次价格变化的日历时间57新的定义下,股票价格随时间的变化为iittSDPPii1对第i次价格变化的交易数据包括{,,,}(5.46)itiNiDiSPCD模型关心的是对()的联合分析注:1、集中于与价格变化相联系的交易可降低样本大小2、价格变化的时间持续期中没有日内模式58IBM股票在1990年11月21日的日内交易价格时间图59给定的条件下,PCD模型将()的1iF联合分布分解为:),,,(1iiiiiFSDNtf)(),(),,(),,,(1111iiiiiiiiiiiiiFtfFtNfFtNDfFtNDSf(5.47)60it①对价格变化之间的时间持续期iiiiStt12110)ln()ln((5.48)其中,是正数i是独立同分布,服从N(0,1)的随机变量序列采用模型:61②对中无价格变化时的交易数量iitt,1iNiN的条件模型进一步分解为两部分:第一部分为logit模型)ln(log),0(101iiiititFtNp(5.49)其中)exp(1/)exp()(logxxxit第二部分为),,0(1iiiiFtNN~)(1ig)ln(exp1)ln(exp1010iiitt(5.50)62③对价格变化的方向iD)(),,(1iiiiiisignFtND采用模型:(5.51)其中为服从N(0,1)的随机变量,且)ln(2110iiitD432141)ln(iiiijjiiDDDDD63④对价格变化的大小iS),,,1(1iiiiiFtNDS1)(,idp采用不同的模型表示正负价格运动之间的不同动态性⑴负的价格运动:13,2,1,0,,)ln()ln(idididdidStN),,,1(1iiiiiFtNDS1)(