能量管理系统EMS_不良数据的检测和辩识吴文传不良数据的检测和辩识的数学基础-正态分布当被研究的随机变量是数量众多的相互独立的随机变量之和,则他必定服从正态分布或近似正态分布的.(概率极限定理可证)22()221(),,2(xfxeExDx是常数()=)=hh正态分布的概率密度函数:正态分布的分布函数:22()21()2txFxedt不良数据的检测和辩识的数学基础-正态分布{||}0.6827{||2}0.9545{||3}0.9973PXPXPX2(,)XN1,0标准正态分布:22221()21()2xxtfxeFxedt对于任意的正态分布随机变量3正态分布随机变量落在区间内的概率几乎等于1不良数据的检测和辩识的数学基础2分布22n个随机变量X1,X2,…,Xn相互独立,且都服从正态分布。它们的平方和记作:22()n212...nXXX服从参数为n的分布,记为:2()n12221,0()2()20,0nynyeynfyy120()2ntnetdt分布的概率密度函数为:式中:2分布的性质(1)数学期望值等于参数n,即:2()En2()2Dn22221(0,1),()0,(){[()]}()1;()()iiiiiiniiXNEXEXEXEXDXEEXn因为故222224222242244222211(){[(()]}{(2()[()]}()[()]3121()32()[]()2iiiiiiiiiixiiinniiiiDXEXEXEXXEXEXEXEXEXxedxDDXDXn这是由于:故:(2)方差等于2n,即:2n分布中的参数又成为自由度实时数据的误差从采样到计算机数据库的全过程,每个环节都可能受到各种随机干扰而产生误差量测值和真值总是存在差异,即误差误差来源:–各环节的随机干扰–量测的不同时性,死区传送,CDT不同时误差的性质假设误差具有正态分布的性质2()1,...,0,()iiiiiiZhximED),(~2NZ坏数据定义只有0.3%的可能性,Z落在3σ范围之外误差大于3σ的量测数据叫坏数据%7.99)3|(|%5.95)2|(|%3.68)|(|ZPZPZP量测坏数据的检测与辨识内含量测预处理、拓扑错误辨识、遥测坏数据的检测和辨识–量测预处理:去掉明显的坏数据–拓扑错误辨识:找出开关、刀闸的状态错误–遥测坏数据的检测和辨识采用估计--检测和辨识--再估计--再检测和辨识的迭代模式拓扑错误辨识◇线路两端潮流合理而一端开关错开;◇一个厂站通道坏,通过对端厂站信息判断;◇开关合而发电机量测值为零。拓扑错误辨识找出开关、刀闸的状态(遥信)错误利用遥测量有无及测值大小信息推断电气设备的连通情况,从而得出遥信错误信息一般在估计计算前进行拓扑错误辨识不同的拓扑结构,估计计算的迭代矩阵不同坏数据的可检测和可辨识性◎可观测(估计)性◎不良数据可检测(有没有)◎不良数据可辨识(哪个是)◎量测冗余度=m/n=1.5~2.5量测冗余度越大,坏数据的可检测和可辨识性越好残差r与误差ν的关系-残差方程ˆxxxrZhxvZhx^()^^1^^^11^1^^111()()()()()()(()(()),()(())0()0()(())0[()()]()ZhxvTTTTTThxhxHxxrZhxHxxvHxxZhxRZhxHxRZhxHxRrHxRvHxxxHxRHxHxRv状态估计的优化条件:min(即或代入上式得:残差:误差:在真值x附近Taylor级数展开:ˆhx111ˆˆ()TTWIHxHxRHxHxRrWv设:则:残差方程W是残差灵敏度矩阵111ˆˆ()}TTrIHxHxRHxHxRv残差灵敏度矩阵残差灵敏度矩阵S的特性W是奇异矩阵。其秩是k=m-nW是等幂矩阵:WW=WWR-1W=R-1WWRWT=WR=RWT0Wii1残差方程的作用描述了残差和量测误差之间的线性关系11221miijjiiimmjrWvWvWvWv如果W对角占优,则具有最大量测误差的量测,所对应的残差一般也大残差r的分布函数(),(0,)DdiagWRrND令则2211(0,),()()()0()[()]()()()()TTTTTTTTTvNRRrErEWvWEvVarrErrErEWvvWWEvvWWRWIHHRRIRHHRHHWR其中的期望值:r的方差:,TTWRRHHHH非负定所以r的方差总是小于误差v的方差,体现了滤波的效果加权残差与正则化残差加权残差:正则化残差:,iwiiirr是量测误差的标准差,iwiivv加权量测误差2(0,),(0,1)iiwivNvN由于故iNiNirriiiD是残差的标准差,D=diag(WR)()()0iNiNiErEr222(0,1),(0,/)(0,)NiwiNiiwiiirNrNrNW即222()()1iNiNiNiNiVarrVarr不良数据的检测(2)wr检测^(1)()Jx检测(略)利用估计后的目标函数进行坏数据检测的方法简称为检测JxJxZhxRZhxrRrrTTWjjm1121(0,)wrNWrrNWWiiiii~,0或NNii022,对于第i个量测PrWWiii309975.wii1当检查最大的加权残差rWi大于3时,则认为量测集中存在坏数据检概率:Pe00025.不良数据的检测3)rN检测1,0~NrrNiiNiPrNi309975.检查最大的正则化残差rNi大于3时,则认为量测集中存在坏数据检概率:Pe00025.不良数据的检测举例ZHR1050981021110050010022...,,...计算正常时的J,rW,rN00032248.0000022481.00024225.0504.1992.02016.103008.00992.006008.0ˆ98992.0ˆ1290011111TWTTHHRdiagDrRrxHZrZRHxHRHrDrJrrNWTW112207209221675046899....解:不良数据的检测举例(续)1.当Z10520102...时,有.,...,.......xrrJrrrWWTWN1780607306021940760614612194380321411148446274236残差污染:10.9690.7750.1940.0310.2250.1940.0310.7750.806TWIHHRrWv09690775019400310225019400310775080600510002073002190760...............检测方法的评价(1)对系统规模小的情况效果较好。因为系统规模大时,k增大、的均值和方差都增大,不良数据对值的影响相对较小。另外法只能判断是否存在不良数据,不能检测出哪些数据可能是坏数据。(2)rW和rN法不受系统规模影响,其检测灵敏度,当量测冗余度高时,rW和rN都有极好的检测效果,当冗余度较小时效果较差。一般rN检测效果总是不劣于rW检测。但rN法要计算;这需要一定的计算代价。这两种方法,尤其是rN法,还能找出哪些数据最可能是坏数据,为BD辨识打下了基础。JxN不良数据的辨识-残差搜索辨识法rWirNi计算或寻找最大的||3wir||3Nir或删除i量测计算一次状态估计,系统残差是否降低N放回i量测Y结束残差搜索辨识法的性能如果坏数据的误差幅值是ii^^,iiiiivvv即是正常的量测误差利用残差方程,并忽略正常量测误差有://wiiiiiiiiiiwkkiiikikikrWWrWW||||iiikikWW正则化残差是:的条件:rWrWNiiiiiNiNkkiiiNk//WWiiNikiNk||||wiwkrrrrNiNk的条件:???!!!残差搜索辨识法的性能22(0,1)()[()]()1NiNiNiNiNirNErErErDr这意味着rNi的自相关系数为1。再考虑rNi和rNk之间的互相关系数。由概率论知,该互相关系数的绝对值恒小于或等于自相关系数:12121NiNkNkkiiNiNiErrWEr2221:1NiNiiiiNiErW即111KiNkiiNiWW即:NkkiNiiiWW原来如此!残差搜索辨识例子Z10520102...14.6114.8421.94,46.2738.0342.36WNrr按加权残差幅值顺序,量测3具有最大加权残差,被怀疑是坏数据。删除量测3,重新进行状态估计有61.1863.18/0019612.004903.0347,65.327.18,0365.09135.09635.1205.101.005.01110400ˆ104001101.005.011221112DrrJrrxNW,=D-残差搜索辨识例子110050021129001100500210521024110510211102410025900041518020521122.............xrroW,.JrrWTW03103首先在|rN|排序中找最大rN的量测,它是量测2,其值rN24627.不良数据的量测误差估计辨识法问题描述(1)独立状态变量为n个,独立量测方程有m个,当mn时,有k=m-n个方程不独立,换句话说,这k个方程是冗余的。(2)不良数据的个数P超过k个,是不可辨识的(3)PK,也不一定能辨识不良数据的量测误差估计辨识法(1)非线性方法TST集中全是好数据S集中全是坏数据TSTSS集中有少量好数据S集中有少量坏数据按rN幅值顺序初分量测集,使T集主要是正常数据,S集主要是不良数据xhZrtttˆ'xhZrsssˆ'不良数据的量测误差估计辨识法(2)线性化方法用m个量测所做的状态估计结果为ˆx用t个量测所做状态估计结果是ˆx11ˆˆˆˆTTtttttttttxxxHRZhxHRr以为初值,计算ˆxˆx计算残差:rrˆˆˆˆrZhxZhxHxrHx线性化ttTttrRHHrr1状