多元线性回归模型在电力负荷预测中的应用学院:电气工程学院专业:电力系统姓名:毛艳丽学号:20111102137指导老师:荣腾中成绩:重庆大学电气工程学院2012年5月20日研究生“应用数理统计”课程课外作业多元线性回归模型在电力负荷预测中的应用摘要:电力负荷预测是电力系统规划和运行的重要依据,是电力系统调度的重要组成部分,科学、准确地电力需求预测对电力工业的健康发展,乃至对整个国民经济的发展均有着十分重要的意义。本文介绍了多元线性回归模型的原理,针对我国1994年至2009年人口、GDP和全社会用电量的历史数据,建立多元线性回归数学模型进行中、长期电力负荷预测,多元线性回归模型通过变量GDP和人口实现对全社会用电量的电力负荷定量预测。结果表明该模型具有有效性,有良好的应用前景,为电力负荷预测的滚动修正,实现电力负荷控制和预测提供了科学依据。关键词:负荷预测;多元线性;回归模型1引言1.1电力负荷预测的重要作用电力负荷预测是供电部门的重要工作之一,准确的负荷预测可以经济合理地安排电网内部发电机组的启停,保持电网运行的安全稳定性,减少不必要的旋转储备容量,合理安排机组检修计划,保证社会的正常生产和生活,有效降低发电成本,提高经济效益和社会效益[1]。负荷预测的结果还有利于决定未来新的发电机组的安装,装机容量的大小、地点和时间,电网的增容和改建,电网的建设和发展等。因此,电力负荷预测工作的水平已成为衡量一个电力企业的管理是否走向现代化的显著标志之一,尤其在我国电力事业空前发展的今天,用电管理走向市场,电力负荷预测问题的解决已经成为我们面临的重要而艰巨的任务。研究生“应用数理统计”课程课外作业1.2电力负荷预测电力负荷预测是指在满足一定精度的条件下,在充分考虑电力负荷特性、经济、社会、气象等的历史数据的基础上,探索电力负荷历史数据的变化规律,寻求电力负荷与各种相关因素之间的内在联系,从而预测出电力负荷在未来时期的变化趋势及状态[2]。由于电力负荷具有周期性(年、月、天)、趋势性和随机性(受温度、气候、产业结构、政治等因素的影响)等特征,故电力负荷预测可分为超短期(15分钟或1个小时)、短期(1年以内的天或月)和中、长期(5~10年)负荷预测。电力负荷预测的方法包括经验预测法,如专家预测法、类比法和主观概率预测法等;经典预测技术,如单耗法、密度法、比例增长法和弹性系数法等[1]。随着技术的飞速发展,专家系统、神经网络、灰色理论和回归分析等几种现代技术也受到日益重视。电力系统中长期负荷的变化受到很多因素的制约,这种制约关系难以定性描述,针对负荷影响因素的复杂性和不确定性[3],即多变量和随机性特征,本文将定量预测方法中多元线性回归分析应用于中、长期负荷预测。在多元线性回归分析中,随机变量是自变量,非随机变量是因变量。因变量一般是电力系统负荷,自变量是影响电力系统负荷的各种因素,如经济、人口、气候等,由给定的多组自变量和因变量历史数据研究二者之间的关系,形成回归方程。回归分析方法计算原理和结构形式简单、预测速度快、外推性能好,对于历史上未出现的情况有较好的预测性[4],为电力负荷预测提供了科学依据。2数据说明由于电力系统负荷的周期性、趋势性和随机性,导致电力负荷受到很多方面因素的制约,这里仅考虑GDP和人口数量对电力负荷的影响。通过对全社会用电量、GDP和人口的历史数据的研究,进行电力系统中、长期负荷预测。其中全社会用电量是指第一、二、三产业等所有用电领域的电能消耗的总量,包括工业用电、农业用电、商业用电、居民用电、公共设施用电以及其他用电等,主要用于经济统计。本文中的全社会用电量是指全中国某一年的用电量。GDP,是GrossDomesticProduct的简称,又称国内生产总值,是指一定时间(一个季度或一年)内,一个国家或地区的经济中所生产出的全部最终商品和提供劳务的市场价值的总和。本文中所说的GDP是指全中国某一年内的市场价值总和。人口通常指一个地理区域的人的数目,本文中的人口是某一年全中国的人口。原始数据来源于中国统计年鉴2011[5],见表2.1。研究生“应用数理统计”课程课外作业表2.1原始数据年份全社会用电量(亿千瓦时)GDP(亿元)人口(万人)19949260.448197.9119850199510023.460793.7121121199610764.371176.6122389199711273.678973.0123626199811590.484402.3124761199912305.289677.1125786200013472.799214.6126743200114632.6109655.2127627200216330.7120332.7128453200319032.2135822.8129227200421972.3159878.3129998200524940.8184937.4130756200628588.4216314.4131448200732712.4265810.31322129200834540.8314045.4132802200937032.7340902.81334503多元线性回归模型3.1多元线性回归模型的基本原理在线性相关条件下,两个或两个以上自变量对因变量的数量变化关系称为多元线性回归分析[6]。多元线性回归模型是一元线性回归模型的拓展,其基本原理与一元线性回归模型类似。一般地,设有k个因素X1,X2,…,Xk影响因变量Y,(xi1,xi2,…,xik,yi)(i=0,1,…,n)为(X1,X2,…,Xk,Y)的试验数据,则有0112,1,2,,(0,),1,2,,Cov(,)=0,,1,2,,ikkiiijyxxinNinijn(3.1)其中βi(i=0,1,…,k)称为回归系数,βi(i=0,1,…,k)与σ2均未知。记β=(β0,β1,…,βk)T,Y=(y1,y2,…,yn)T,ε=(ε1,ε2,…,εn)T,研究生“应用数理统计”课程课外作业111212122212111kknnnkxxxxxxxxxX,则式(3.1)可表示为2(,)nnN0YXI(3.2)这就是多元线性回归模型。设T01ˆˆˆˆ(,,,)k是的估计量,记T01ˆˆˆˆ(,,,)kyyyY,则ˆˆY=X(3.3)残差平方和2TTˆˆ()()ˆˆ()()ˆˆˆ2ETTTTSYYYYYXYXYYYXXX(3.4)对给定的观测数据(xi1,xi2,…,xik,yi),(i=0,1,…,n),ˆ选择为式(3.5)的最优解。2min()ES(3.5)因此ˆ等于式(3.6)的解。2()0ES(3.6)由式(3.6)可得ˆ的最小二乘估计(LS估计)为T1TˆXXXY(3.7)3.2建立多元线性回归模型本文主要研究GDP和人口数量对全社会用电量的影响,故多元线性回归的数学模型可表示为2(,)nnN0YXI(3.8)其中T01ˆˆˆˆ(,,,)kyyyY,为全社会用电量,单位为亿千瓦时;研究生“应用数理统计”课程课外作业1112212212111nnxxxxxxX,X中的第2列元素表示国内生产总值(亿元),第3列元素表示人口数量,单位为万人;β为回归系数,是n×3阶的矩阵。利用最小二乘估计可得T1TˆXXXY(3.9)4计算方法设计本文的多元线性回归过程采用Excel软件进行相关的分析模块进行处理。在用Excel进行线性回归分析之前,要首先安装Excel的统计功能。单击MicrosoftExcel中文版菜单栏中“工具”的“加载宏”命令,在“加载宏”对话框中选定“分析工具库”,再按“确定”钮,“数据分析”这一项就出现在工具菜单栏中。利用“数据分析”中的“回归”就可以进行相关的回归分析。5结果分析本文中,电力负荷预测的回归方程以GDP、人口为自变量,以全社会用电量为因变量,采用全部选入法分析。拟合过程小结见表5.1。表5.1拟合过程小结表编号复相关系数多重判定相关系数修正多重判定系数估计标准差10.9937040.9874480.9856541281.465745上述表格表明,回归方程的复相关系数为0.993704,复相关系数的平方,即多重判定系数为0.987448,修正多重判定系数为0.985654,回归方程的估计标准误差为1281.465745。依据该表可以进行拟合优度检验。参考修正多重判定系数,其拟合优度较高,说明全社会的用电量的98.5654%由GDP和人口决定。回归方程显著F检验的方差分析见表5.2。研究生“应用数理统计”课程课外作业表5.2方差分析表被解释变量的方差来源离差平方和自由度均方F检验统计量观测值P值回归平方和18085514772904275738.5550.6642420.000000残差平方和22990162.38141642154.455总离差平方和183154169316上述表格表明,变量全社会用电量的总离差平方和为1831541639,回归平方和及均方分别为1808551477和904275738.5,残差平方和及均方分别为22990162.38和1642154.455,F检验统计量的观测值为550.664242,对应的概率P值为0.000000。结果表明最终的回归方程应包括GDP和人口两个变量,且方程的拟合效果较好。回归系数的显著性检验见表5.3。表5.3回归系数的显著性检验表变量非标准化的偏回归系数t检验统计量观测值对应概率P值偏回归系数偏回归系数标准误差常数-42065.5338419514.51145-2.2149620.043852GDP0.0927400.00658112.7898880.000000人口0.3733760.1600212.4461080.028255上述表格依次为非标准化的偏回归系数、偏回归系数标准误差、回归系数显著性检验中t检验统计量的观测值及对应的概率P值。GDP回归系数为0.092740,P值为0.000000,说明在回归方程中GDP变量的存在具有统计学意义。回归方程为:全社会用电量=-42065.53384+0.092740×GDP+0.373376×人口。由此可认为,通过GDP和人口可以对全社会用电量的电力负荷定量预测,从而为电力负荷控制和预测提供科学依据。如2011年我国GDP为471564亿元,全国总人口为137054万人,全社会用电量46928亿千瓦时[5]。由上述得到的回归方程计算得到2011年全社会用电量ˆ42065.533840.0927404715640.37337613705450119.55816y(5.1)由回归方程得到的2011年全社会用电量与实际值46928亿千瓦时有统计学上的误差,但并不降低得到的多元线性回归模型的有效性。研究生“应用数理统计”课程课外作业6结论经济的高速增长拉动了电力工业的迅猛发展。经济的增长并不必然带来电力消费的同速增长,但电力消费则是促进国内生产总值(GDP)增长的主要原因。以“电力先行”为指导原则,以GDP增长速度为依据,加强电力生产、安全生产和预测,规划建设充足的发电能力和输送能力,以满足社会各方面需求,不断适应社会经济快速发展的需要。从发展来看,电力负荷预测也是我国实现电力市场的必备条件。加强用电市场的分析和预测,辅助其经营计划的确定,制定合理科学的经济计划也是供电企业实现稳定、协调、经济与安全运作的关键。应该注意到,准确的用电量预测必须建立在准确的GDP、人口增长预测上,文中数据来源于中国统计年鉴2011。由于国内外经济大环境的变动会影响国家GDP预测数据的准确性,比如国际金融危机可能导致我国GDP增长速度明显放缓:同时,考虑到历年的GDP指标摘录自统计局发布的统计数据,而统计部门往往会按照某一年度的价格重新核算和发布。以上因素将影响到预测的准确性