第30卷第1期电网技术Vol.30No.12006年1月PowerSystemTechnologyJan.2006文章编号:1000-3673(2006)01-0099-06中图分类号:TM715文献标识码:A学科代码:470⋅4051基于改进回归法的电力负荷预测李钷,李敏,刘涤尘(武汉大学电气工程学院,湖北省武汉市430072)PowerLoadForecastingBasedonImprovedRegressionLIPo,LIMin,LIUDi-chen(SchoolofElectricalEngineering,WuhanUniversity,Wuhan430072,HubeiProvince,China)ABSTRACT:Aloadforecastingmethodbasedonimprovedregressionisproposed.Onthebasisofhistoricaldataanalysisandparameterestimation,firstlythesingularvaluesarerejectedbyridgeregression,thenthemainfactorsimpactingtheloadareextractedbyprincipalcomponentregressionandtheanalyticalformofthemodelisobtained.Applyingthismethodtoactualpowersystem,theresultsshowthatnotonlytheproposedmethodissuitabletoshort-termloadforecasting,butalsotoultrashort-termloadforecasting.Inaddition,thefuzzyfunctionsforspecifiedfactorsarebuilt,andinultrashort-termloadforecastingthesimilarloaddaysareextractedbyclusteringanalysis.ThroughdifferentsimplificationtheproposedmethodcanbetransferredintotraditionalKalmanfilterforecasting,similardayforecastingandneuralnetworkforecastingrespectively,thereforethismethodisarelativelycomprehensiveloadforecastingmethodandbythismethodtheforecastingresultswithhighaccuracycanbeobtained.KEYWORDS:Loadforecasting;Ridgeregression;Principalcomponentregression;Clusteringanalysis;Powersystem摘要:提出了一种基于改进回归法的电力负荷预测方法,在对历史数据进行分析和参数估计的基础上,先用岭回归法剔除奇异值,再用主成分回归法提取影响负荷的主要因素,得出模型的解析形式。针对实际系统的应用验证了该方法不仅适用于短期负荷预测,也适用于超短期负荷预测。此外建立了一些特定因素的模糊函数,在超短期负荷预测过程中采用了聚类分析法提取负荷相似日。通过不同的简化,该方法可蜕化为传统的Kalman预测、相似日预测和神经网络预测,是一种比较全面的负荷预测方法,可得出高精度的预测结果。关键词:负荷预测;岭回归;主成分回归;聚类分析;电力系统1引言电力负荷预测按照预测点的时间间隔可划分为长期、中期、短期和超短期预测。中期和长期预测主要用于厂网规划和水库调度等,预测周期的范围分别为1~12月和1~10年;短期负荷预测可预测未来1~7日或稍长时间的负荷,用于发电机组的经济调度、制定功率交换计划等;超短期负荷预测预测1天之内的负荷,主要用于预防控制、紧急处理和频率控制等[1,2]。负荷与很多因素存在强相关的线性关系,本文提出了一种基于改进回归法的负荷预测方法,在对历史数据进行分析和参数估计的基础上,先用岭回归方法剔除奇异值,再用主成分回归法提取影响负荷的主要因素,得出模型的解析形式。同时建立了一些特定因素的模糊函数,以提高短期预测对相关量的灵敏度。在超短期负荷预测过程中还采用了聚类分析的方法提取负荷相似日。实例分析表明该方法可以得到高精度的预测结果。误差的定义是判断一种预测方法优劣的标准,本文采用文献[3]中的定义来计算误差,Ak为第k日的日负荷预测准确率,Eki为第k日第i点负荷的相对预测误差,有如下关系式FRR100%iikiiLLEL-⎛⎞=×⎜⎟⎝⎠(1)211=100%1nkkiiAEn=⎛⎞×-⎜⎟⎝⎠∑(2)式中LFi、LRi分别为负荷的预测值和实际值;n为每日负荷预测的点数。2回归预测原理多元回归研究的是因变量y与多个变量1[,x=x2,,]pxx之间的定量关系,主体方法采用的是最小二乘法和显著检验,二者相结合最终得出强相关因PDF文件使用pdfFactoryPro试用版本创建www.fineprint.com.cn100李钷等:基于改进回归法的电力负荷预测Vol.30No.1素之间的关系[4-6]。在实际应用中,由于选择的变量之间存在很强的相互关系,可能会导致令人无法理解的结果,为更好地解决这一问题,人们提出了多种改进方法,本文应用的岭回归就是其中的一种。(1)岭回归岭回归是Horel和Kennard于1970年提出的,旨在解决所选择的自变量之间强相关时引起无法解释的解析结果的问题,基本模型如下:假设在实际测量中取得了关于因变量的n个独立数据12[,,,]nyyyΤ=Y,相应的自变量数据矩阵为12[,,,]p=XXXX,其中12[,,,]iiiinxxxΤ=X,xij表示与yj对应的自变量xi的取值。基本回归模型为1piiiykxC==+∑(3)式中C为常数;ki为不同自变量对应的回归系数。建立最小二乘模型,得出代价函数为minPQ=(4)211pnjiijiQykxC==⎛⎞=-+⎜⎟⎝⎠∑∑这是一个无约束的最优解问题,当式(5)成立时可得到最优解0iQk∂=∂(1,2,,ip=)(5)记12[,,,]pkkkΤ=K,整理成矩阵形式为1piiiCYkXΤΤ=⎧=⎪⎨=-⎪⎩∑XXKXY(6)其中1/niijjXxn==∑,1/niiYyn==∑在式(6)的基础上可以证明,当两个自变量之间的相关系数接近1时其中一个很容易被另一个“吞没”[4]。同时,奇异值还会大大影响最终回归结果,并且会出现不能由残差大小判断奇异值的情况。岭回归模型如下:从式(6)解出K值,在求解过程中添加一个微扰矩阵aE(a为系数,E为p×p的单位矩阵),表达式为1()aΤ-Τ=+KXXEXY(7)只要选择适当的a值就可得到满足实际情况的合适的K值,在选择a时通常从岭迹来考虑。遍历[0,)a∈+∞,将ki随a变化的情况用曲线的形式表示出来,选择一个a0值使得aa0时各成分的变化率不大即可。这是一种定性的方法,要求出比较准确的a值还需要加强条件,笔者选择使C值最接近0的a值。选取合适的a以后可以准确标示异常值,为减少主成分回归中的主元个数做准备。(2)主成分回归与聚类分析与岭回归相比,主成分回归在精确逼近目标值的过程中进一步引用了各成分之间的相关性质,通过引入新的变量12[,,,]mzzz=Z(mp≤)来减少自变量的个数,解耦自变量的相关性,减少计算量。式(7)中Τ=XXR为非负定矩阵,故存在p个特征根120plll≥≥≥≥。记相应的规范化特征向量为12,,,plll,则12[,,,]p=Llll为正交阵,根据实际需要剔除其中l与其它相比很小的量,剔除的越多自变量越少,精度会越低,因此在选取剔除量的过程中要兼顾精度和自变量个数,一般剔除0.01l的值。经上述处理后通过式(8)来计算新的主元自变量iizΤΤ=lx(8)然后按照最小二乘法(式(3)~(6))得出新的主元系数,完成回归,主成分回归是聚类分析(相似类的选取)的基本要求。在超短期负荷预测过程中常用的方法是查找相似日[7],相似日的选取有规律可寻,聚类分析就是一种成熟而有效的方法。聚类分析是研究“物以类聚”的方法,通过定义某种距离对样本进行分类,常用的方法为Q型系统聚类,其方法如下:对于任意两个样本1{,Aa=2,,}naa和12{,,,}nBbbb=,定义如下距离21()nABiiilab==-∑(9)需指出的是,该公式是在变量相互独立的条件下得出的,在使用之前要进行主成分回归来“解耦”各分量之间的相关性。开始时各样本自成一类,将距离最近的两类化归为新的一类,在计算新类与老类之间的距离时有最短距离法、最长距离法和平均距离法等多种,本文采用平均距离法,公式为22()()/2CABACBClll=+(10)式中()CABl为C到类AB(由AB聚合后形成的新类)的距离;lAC、lBC由式(9)定义,分别表示A到C和B到C的距离。当一个新类中有多个元素时方法与此类似。计算完成后确定一个阈值,当两类之间的距离PDF文件使用pdfFactoryPro试用版本创建www.fineprint.com.cn第30卷第1期电网技术101大于该阈值时认为它们是两类,可采用不同的回归系数进行回归综合,以提高预测精度。3回归模型设计3.1模型设计(1)短期预测模型影响短期预测精度的可观测量很多,包括当日温度、当日的星期值及是否为节假日等,同时还有一些不可测量的量,如节假日民众的高兴程度等。为简化模型,首先考虑对可测量的值进行最优回归分析,然后在适当的时候通过特定的模糊函数以附加值的形式进行小范围修正。本模型初始选择的可测自变量如下:与预测日最近的两天的负荷实际值、前一天的温度、当天的温度、星期值、是否为节假日、前一天是否为节假日、后一天是否为节假日、常数(共15个)。预测算法步骤如下:①用历史数据建立最小二乘数据组,采用岭回归法对历史数据进行分析,得出接近实际的回归解析式,剔除奇异值;②主成分回归分析;③对特殊日进行聚类分析,依据历史数据设计修正模糊值;④预测与小范围修正。在节假日和星期值的量化过程中,为便于讨论只取0和1两个值,符合条件的为1,否则为0。在分析过程中发现,对不同时期星期值的量化对结果影响很小,但对节假日的“一视同仁”导致节假日的预测值与真实值偏差百分比分布不均且较大,如前所述,可将其归结为民众的高兴程度。对于这种无法预测的值,只能根据不同的节日在民众心中的地位和对历史数据的分析设计模糊函数进行估计(分为重要节日、次要节日和一般节日),对不同地区和不同的生产结构(工、商、民、农的用电比)而言,模糊系数的设计结果相差较大。(2)超短期预测模型超短期负荷预测是对某天的观察点进行预测(本文将文献[7]中的超短期预测和扩展短期预测都归为超短期预测,该模型能解决以上相关问题),当真实值与预测值有较大偏移时还要对当天剩余观察点的值重新进行预测。与此相对应,以下模型分两步来完成上述任务:第一步,采用与短期负荷相似的回归方法进行数据预测,若结果偏差在容许范围之内则不需进行进一步预测;第二步,在已知数据的基础上进行聚类回归分析,查找相似类,重新对后续时间点的负荷进行估计。3.2该模型与部分预测方法的比较在电力负荷预测方法中,比较有代表性的有Kalman预测[8,9]和神经网络(BP)[10-12]及其相关的改进算法等。下面将改进回归法与以上两种方法进行比较。(1)与Kalman预测方法的比较与本文方法不同,Kalman预测强调一步预测,与回归方法的多步超前预测相比能力有限。Kalman预测是一种多维的线性预测,其基本原理是新息的应用,其单值预测迭代表达式为12ˆˆ(1)()[()-()]mmLmkLmkLmLm+=+(11)式中ˆL(m)为第m次的估计值,()Lm为