PSO_多元线性回归

prddd
1 ℃
2020-01-10

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

鉴于影响奖牌的人为偶然性因素太多，单纯运用之前所建立的灰色预测和马尔科夫预测模型，其预测结果往往不能令人满意；经过分析知道，影响一个国家所获的金牌的数目和该国经济，人口等方面各个指标有关；因此我们建立多元线性回归模型，并同时引入PSO算法，将PSO、竞技体育实力评估和多元线性回归分析有机结合，建立奥运会成绩预测模型。1、多元线性回归模型在实际问题中，根据各国已获奖金牌数量来预测当前情况，假设某国奖牌数量为y，影响奖牌数量的多个因素为𝑥1，𝑥2,...𝑥𝑘又估计它们之间存在某种线性关系，则可建立多元线性回归模型:y=𝛽0+𝛽1𝑥1+𝛽2𝑥2+⋯+𝛽𝑘𝑥𝑘+𝜀其中，𝛽0，𝛽1，𝛽2…𝛽𝑘为k+1个未知回归系数，𝜀是随机误差变量，是y的变化中不能用自变量解释的部分，服从N（0，𝜎2）分布，一般假设：E（𝜀）=0，D（𝜀）=𝜎2，𝜎20。为了估计未知参数𝛽0，𝛽1，𝛽2…𝛽𝑘及𝜎2，对y与𝑥1，𝑥2,...𝑥𝑘同时做n次独立观察，得n组观察值𝑦𝑡,𝑥𝑡1，𝑥𝑡2,...,𝑥𝑡𝑘,t=1,2,…,n(nk+1)满足关系式：𝑦𝑡=𝛽0+𝛽1𝑥𝑡1+𝛽2𝑥𝑡2+⋯+𝛽𝑘𝑥𝑡𝑘+𝜀𝑡其中，t=1,…,n,𝜀1,…,𝜀𝑛互不相关且均是与𝜀同分布的随机变量。用矩阵形式表示上式：Y=⌈𝑦1⋮𝑦𝑛⌉,X=[1𝑥11𝑥12…1𝑥21𝑥22…⋮⋮⋮1𝑥𝑛1𝑥𝑛2…]𝛽=[𝛽0，𝛽1，𝛽2…𝛽𝑘],𝜀=[𝜀0，𝜀1，𝜀2…𝜀𝑛]于是，多元线性回归模型可以表示为：{𝑌=𝑋𝛽+𝜀𝐸(𝜀)=0,𝑐𝑜𝑣=𝜎2𝐼𝑛其中，𝐼𝑛为n阶单位矩阵。用最小二乘法得𝛽的最小二乘估计为：𝛽′=(𝑋′𝑋)−1𝑋′𝑌为线性回归方程，当由实际获得自变量的值后，代入回归方程，变得到对应的因变量的值，称为回归值。设𝛽0′，𝛽1′，𝛽2′…𝛽𝑘′分别是参数𝛽0，𝛽1，𝛽2…𝛽𝑘的最小二乘估计，则y的观测值可表示为：y’=𝛽0′+𝛽1′𝑥𝑚1+𝛽2′𝑥𝑚2+⋯+𝛽𝑘′𝑥𝑚𝑘+𝜀𝑚采用最小二乘法建立多元线性回归方程，即寻找适宜的系数𝛽0，𝛽1，𝛽2…𝛽𝑘，是因变量观测值与其回归值之间的残差平方和最小。为求得待估参数，传统的方法是用矩阵公式计算，但这样的方法要涉及大量矩阵计算，计算方法复杂，计算量大且不易编程，本文考虑引入PSO智能优化算法，以高效实用地计算待估参数。2.PSO优化算法PSO技术最早是由Eberhat和Kannedy于1995年提出的，源于对鸟群捕食行为的研究。该算法是一种基于迭代的优化工具。其主要优点是简单，易于实现，参数较少，在较短的时间内可以产生高质量的解$通过大量的测试函数表明，它比传统优化技术收敛速度更快。PSO初始化为一组随机粒子(随机解)，通过跟踪当前最优的粒子来搜索最优解。PSO求解优化问题时，每个候选解都是搜索空间中一只鸟的位置，称这些鸟为粒子。每个粒子都有自己的位置和速度(决定飞行的方向和距离)，每个粒子性能的优劣程度取决于待优化问题目标函数确定的适应值。各个粒子记忆、追随当前的最优粒子，在解空间中搜索。每次迭代的过程不是完全随机的，如果找到较好解，将会以此为依据来寻找下一个解。把奖牌模型中多元线性回归模型的一组参数看作一个粒子，种群中的每一个粒子代表模型估计问题中的一个候选解，于是第i个粒子𝑃𝑖可以表示为：𝑃𝑖=(𝛽𝑖,0,𝛽𝑖,1,…,𝛽𝑖,𝑝),i=1,2,…,k定义适应度函数评价种群中的每个粒子如下：Q（θ）=∑(𝑦𝑖−𝛽0−𝛽1𝑥𝑖,1−⋯−𝛽𝑝𝑥𝑖,𝑝)𝑘𝑖=1,求某国金牌最优解就是是适应度函数Q（θ）最小的粒子。3.PSO和多元线性回归预测奖牌步骤a.获得候选自变量和因变量的观测值;b.从候选自变量中选择合适的自变量;c.确定回归系数，判断回归方程的拟合优度;d.根据回归方程进行预测;f.初始化粒子群算法中的各参数和初始适应度;g.更新各粒子的速度和位置;h.计算后验差比值与小误差概率，符合要求则停止，否则转到步骤e;i.输出奖牌预测的最优解模型。4.应用实例及结果分析以各国五届金牌的数量作为多元线性回归模型的因变量和作为PSO的输出量，利用个4解释变量建立多元线性回归模型和作为PSO的训练样本。针对4个解释变量的选择，我们从经济，人口，体育水平，各国之前参赛成绩这4个方面考虑；选取的具体指标为：各国GDP，人均GDP，各国人口，体育水平和之前一届的金牌数；而对于体育水平这一较为抽象的指标，我们采用模糊C均值聚类算法对参赛国进行等级评估；首先对奥运会参赛国建立5个评价等级（见表1），依据1992至2008年各国参加奥运会获得金牌总数为样本数据，统计出这5届奥运会世界各国获得的奖牌总数，利用模糊C均值聚类进行分类比较，实现工具为MATLAB。表一参赛国竞技体育实力标度的划分及虚拟变量设定类别第一类第二类第三类第四类第五类竞技实力弱较弱一般较强强01111虚拟标量101111101111101表二基于模糊C均值聚类分类结果国家金牌总数类别中国1874美国2375俄罗斯1654德国1083澳大利亚702韩国622法国652意大利582英国742古巴502匈牙利451罗马尼亚331日本432乌克兰431荷兰351巴西151可以从表二中聚类分析的结果看到，其国家所在类别类别与金牌总数的关系拟合的较好；由以上因变量以及各解释变量的分析可以得出所建立的多元线性回归数学模型，然而若直接以GDP等指标为因素，会使回归系数过小，分析效果较差，为了优化该模型，我们选取去GDP等指标的对数作为因变量进行分析，得到的最终模型数学表达式如下：Y𝑖=𝑥1*log(GDP𝑖)+𝑥2*log(𝑝𝑜𝑝𝑖)+𝑥3*log(𝑝𝑔𝑑𝑝𝑖)+𝑥4*𝑑𝑖,1+𝑥5*𝑑𝑖,2+𝑥6*𝑑𝑖,3+𝑥7*𝑑𝑖,4+𝑥8*𝑟𝑒𝑎𝑙𝑖+𝑥9;其中：GDP表示该国的国民生产总值，pop表示该国人口，pgdp表示其人均国民生产总值，d则为之前做的模糊聚类分析得到的体育等级，real为该国上一届的金牌数目；为了提高回归方程的可靠性和回归曲线的精度，选用MATLAB7.0软件来对回归曲线进行拟合。在确定拟合的多项式次数后，将实测数据代入得到的多项式，即获得建立奖牌方程所需的参数。PSO的参数选择如下:种群大小50;迭代次数为400;C1=C2=2，w=0.7由于粒子群算法属于随机优化算法，因此需将回归系数确定问题转换成多元函数优化组合问题，经过PSO算法得到多元线性回归模型算例的参数估计平均最优值为:X=[16.74996124-15.13291463-13.0309641211.235855810.7415954112.66968218-3.5707691080.502914491-3.753500179];利用此结果进行检验和预测，得到的结果如下：1996预测值1996实际值2000预测值2000实际值2004预测值2004实际值2008预测值2008实际值1416252831323551384436393835363625263232352734232020141411141216899161117141410788991013915131312111278131213121011881611119111999711895287687873444118864835591612969634987546121047743513463各年份平均误差19962000200420080.015374330.0108274080.006880250.0184544从表中我们可以看到，采用此种模型预测的效果较前两种方法而言效果更好故在预测2016年的奖牌榜排名时，我们采用此种方法作为最终的预测模型；得到的2016年预测结果如下（见表）：由于之前在计算时去掉了考虑东道主效应，故在计算最终结果时作为东道主的巴西应做相应调整；由之前东道主效应的计算结果；巴西的金牌数应该为：6*（1+1.11）=13；故巴西大概得到13枚金牌。由以上过程，可以预测在2016年前十位的国家分别为：美国中国俄罗斯英国韩国巴西法国德国意大利日本表2016年各国预测金牌数国家金牌数中国39美国42俄罗斯31德国11澳大利亚9韩国13法国12意大利10英国14古巴5匈牙利7罗马尼亚4日本10乌克兰4荷兰8巴西6问题二国家体育水平分类模型IV模糊综合评价模型模型提出模糊综合评价法是一种基于模糊数学的综合评标方法。它根据模糊数学的隶属度理论把定性评价转化为定量评价，即用模糊数学对受到多种因素制约的事物或对象做出一个总体的评价。衡量一个国家的体育水平，需要综合考虑各国奥运会奖牌数目、人类发展指数、人均GDP，运用模糊评价法得出一个综合得分，再进行分类。模型准备（1）各国奥运奖牌数目归一化利用excel软件将马尔科夫模型预测得出的前十国家的前5届奥运会金牌数求取平均值，对其进行归一化处理，得到表1奥运奖牌数比例表美国中国俄罗斯英国德国法国意大利澳大利亚韩国巴西0.2040.1420.1610.0720.1030.0740.0640.090.0580.033（2）各国人类发展指数归一化人类发展指数包括预期寿命、教育水准和生活质量三项基础变量，进行归一化处理，得到表2人类发展指数比例表美国中国俄罗斯英国德国法国意大利澳大利亚韩国巴西0.1060.0830.090.1040.1060.1030.1010.1080.1030.095（3）各国人均GDP归一化查询2014年各国的人均GDP数值，归一化处理，得到表3人均GDP比例表美国中国俄罗斯英国德国法国意大利澳大利亚韩国巴西0.1550.0220.0370.130.1350.1270.1020.1740.080.039模型建立（1）对象集、因素集、评价集的确定对象集：选取马尔科夫模型预测得出的前十个国家（美国、中国、俄罗斯、英国、德国、法国、意大利、澳大利亚、韩国、巴西），记为}...,{1021oooO因素集：选取各国奥运会奖牌数目、人类发展指数、人均GDP三个因素，记为},,{321uuuU评价集：优、良、中、较差、差，记为}...,{521vvvV（2）确定因素集的权重分配向量)...,(21naaaA10(ia)1iia其中ia为因素iu对A的隶属度，也就是单元素ia在所有元素中的重要程度的度量，通常称A为因素集U的模糊权重向量。采用专家咨询法，得出}3.0,4.0,3.0{A（3）建立模糊评价矩阵从因素集},,{321uuuU和评价集}...,{521vvvV入手，建立两者之间模糊关系矩阵R352515322212312111.........rrrrrrrrr其中ijr为因素iu对等级jv隶属度。根据表1，十个国家奥运奖牌数比例的最大值和最小值分别为204.0max033.0min，去除最大值后得到三组}09.0,058.0,033.0{1l}103.0,074.0,064.0{2l}142.0,161.0,072.0{3l,分别求各组平均值得0.0603、0.0803、0.125，所以隶属函数界限为204.0,125.0,0803.0,063.0,033.05141312111xxxxx同理求得人类发展指数比例、人均GDP比例对应隶属函数界限从而得到三项指标的隶属函数界限矩阵174.014.0103.0032.0022.0108.0105.0102.0089.0083.0204.0125.00803.0063.0033.0根据以下公式计算出中国的模糊评价矩阵为：1000010000000785.