投影寻踪ProjectionPursuit,简称PP世界著名的数理统计杂志,美国的TheAnnalsofStatistics1985年第3期上,刊登了该杂志特邀的综合性论文,长达40页,还同时刊登了十五篇讨论该论文的文章,又是50页,参加讨论的包括好几位世界著名的统计学家.这篇论文是哈佛大学教授P.J.Huber写的,题目就叫“ProjectionPursuit”(投影寻踪,简称PP),那么,什么是投影寻踪呢?投影寻踪技术是国际统计界于70年代中期发展起来的、用来处理和分析高维观测数据,尤其是非正态、非线性高维数据的一种新兴统计方法。它利用计算机直接对高维数据进行投影降维分析,进行数据客观投影诊断,自动找出能反映高维空间规律的数据结构,达到研究分析高维数据的目的。一、产生背景传统的多元分析方法是建立在总体服从某种分布比如正态分布这个假定基础之上的,采用“假定—模拟—检验”这样一种证实数据分析法(ConfirmatoryDataAnalysis,简称CDA)。但实际问题中有许多数据并不满足正态分布,需要用稳健的或非参数的方法去解决。不过,当数据维数很高时,存在计算量大、维数祸根、稳健性变差等问题。当数据的结构或特征与假定不相符时,模型的拟合和预报的精度均差,尤其对高维非正态、非线性数据分析,传统的CDA方法很难收到好的效果。其原因是它过于形式化、数学化,受束缚大,无法真正找到数据的内在规律,远不能满足高维非正态数据分析的需要。为了克服上述困难,需要对客观数据不作假定或只作极少假定,而采用“直接审视数据——通过计算机模拟数据结构——检验”这样一种探索性数据分析方法。而PP就是实现这种新思维的一条行之有效的途径。二、投影寻踪技术的基本思想投影寻踪是一种用来处理和分析高维数据,既可作探索性分析,又可作确定性分析的有效方法,其基本思想是:利用计算机技术,把高维数据通过某种组合,投影到低维子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影,在低维空间上对数据结构进行分析,以达到研究和分析高维数据的目的。三、投影寻踪技术的实现方法用PP探索高维数据的结构或特征时,一般采用迭代模式。首先根据经验或猜想给定一个初始模型;其次把数据投影到低维空间上,找出数据与现有模型相差最大的投影。这表明在这个投影中含有现有模型中没有反映的结构,然后把上述投影中所包含的结构并在现有模型上,得到改进了的新模型。再从这个新模型出发,重复以上步骤,直到数据与模型在任何投影空间都没有明显的差别为止。由于PP是一种数据分析的新思维方式,因此将这种新思想与传统的回归分析、聚类分析、判别分析、时序分析和主分量分析等相结合,会产生很多新的分析方法,如PP回归分析、PP聚类、PP判别等。四、PP的应用(一)PP聚类(PPC)设第i个样本的第j个因素为(i=1,…,n;j=1,…,m;n为样本个数,m为因素个数),投影寻踪聚类模型的实现步骤如下:1.数据无量纲化.为了消除各指标的量纲效应,首先对各指标进行无量纲化处理.无量纲化公式较多,可选择采用,这里采用如下公式:其中:和分别为第j个指标的初始最大值和最小值.0ijx00min00maxminijijxxxxx0maxx0minx2.线性投影.所谓投影实质上就是从不同的角度去观察数据,寻找能够最大程度地反映数据特征和最能充分挖掘数据信息的最佳观察角度即最优投影方向.设为m维单位向量,则的一维投影特征值为,i=1,2…,nijxa1mijijjzax3.目标函数:聚类分析就是对样本群进行合理的分类,可以根据分类指标来构造目标函数,故将目标函数Q(a)定义为类间距离s(a)与类内密度d(a)的乘积,即Q(a)=s(a)·d(a)。类间距离用样本序列的投影特征值标准差计算,S(a)愈大,散布愈开。设投影特征值间的距离(k=1,2,…,n),则其中为单位阶跃函数,当Rr时,=1,反之为0;R为密度窗宽参数,其取值与样本数据结构有关。类内密度d(a)愈大,分类愈显著。211()()1niaisazznikikrzz11()()()nnikikikdaRrfRr()ikfRr()ikfRr4.优化投影方向:由上述分析可知,当Q(a)取得最大值时所对应的投影方向就是最优投影方向。因此,寻找最优投影方向的问题可转化为优化问题可采用遗传算法等优化方法求解.5.综合评价分析:根据最优投影方向,便可计算反映各评价指标综合信息的投影特征值,以的差异水平对样本群进行综合分析。max()1Qaaiziz密度窗宽参数R的确定不同的R值对应不同的最佳投影方向,也就是从不同角度观测数据样本的特性,对于某一样本群体,只有选择合理的密度窗宽参数才能得到合理的分类结果,因此,参数R的取值在模型中非常关键。目前大多是通过试算或经验来确定,一般认为R的合理取值为max22mrRmPP动态聚类(PPDC)PPC在多因素评价、聚类、优选等方面得到了广泛应用,充分体现了PP处理高维数据的优势.然而,一方面,PPC中的唯一参数—密度窗宽R还是依靠经验或试算来确定,缺乏理论依据.另一方面,对于没有参照标准的聚类问题,PPC并不能直接输出明确的聚类结果,只能输出样本的投影特征值序列,必须借助其它方法对投影特征值序列进行分类处理才能得到最终的聚类结果。针对上述问题,结合动态聚类思想,可建立投影寻踪动态聚类(ProjectionPursuitDynamicCluster,简称PPDC)模型。PPDC步骤设第i个样本的第j个因素为(i=1,…,n;j=1,…,m;n为样本个数,m为因素个数),投影寻踪聚类模型的实现步骤如下:1.数据无量纲化.为了消除各指标的量纲效应,首先对各指标进行无量纲化处理.无量纲化公式较多,可选择采用,这里采用如下公式:其中:和分别为第j个指标的初始最大值和最小值.0ijx00min00maxminijijxxxxx0maxx0minx2.线性投影.所谓投影实质上就是从不同的角度去观察数据,寻找能够最大程度地反映数据特征和最能充分挖掘数据信息的最佳观察角度即最优投影方向.设为m维单位向量,则的一维投影特征值为,i=1,2…,nijxa1mijijjzax3.构造目标函数。对于任一投影方向,基于某一聚类准则的样本分类结果是确定的,记整个样本的投影特征值序列组成的集合为,要将它们分成K类,采用动态聚类法,实现步骤如下:(1)随机选取K个点作为K个聚核,记为(2)根据L0,把Ω中的点分为K类,记为其中,,为点和集合中任一点的绝对值距离。12{,,,}nzzz000012(,,,)kLAAA000012(,,,)kPPPP000{()(),1,2,,,}iijPzdAzdAzjKji0()idAz0iA0P(3)由出发,计算新的聚核,其中(4)重复以上步骤,由此得到一个分类结果序列。记,则算法的终止判断条件是充分小。类内样本的聚集度可表示为,d(a)愈小,则相似样本的聚集程度越高。投影分散度记为,其值愈大,则整个样本投影特征值离散程度越高。根据类内聚集度与投影分散度的定义可将目标函数Q(a)定义为投影分散度与类内聚集度之差,即Q(a)=s(a)-d(a)。对此目标函数的求解就是寻求一投影方向满足Q(a)取得最大值,显然,投影分散度越大或类内聚集度越小,则目标函数越大,这正是投影寻踪建模思想的体现。111112(,,,)KLAAA011iiiizPiAzn(,),1,2,tttVLPt1(,),(,)tiiKtttttiiiitiiizPDAPzAuDAP11tttuuu1,()(,)mjikmjizzPdadzz,()(,)mjmjzzsadzza4.优化投影方向。模型建立的关键是找到能反映系统特征的最优投影方向,根据上述分析可知,当式Q(a)=s(a)-d(a)取得最大值时所对应的就是最优投影方向向量。所以,此问题可转化为下式描述的优化问题:免疫进化算法可应用于解决上述优化问题。max()1Qaa(二)投影寻踪主成分分析PPCAPPCA的基本思想:如果投影指标函数值的大于0的部分归因于前d(d≤p)个成分,那么这些成分就可以体现原来的p个特征,而且信息完全利用。实现步骤:1.数据无量纲化.先归一化,再标准化。2.线性投影。3.构造投影指标函数。Q(a1)是主成分分析中协方差矩阵的最大特征值,a1就是其对应的最大特征向量。继续做投影…1,1,2,,pijijjzaxin22111()max(()),11pnijijQazEzan……共提取投影指标函数值大于0的d(d≤p)个成分.4.计算各个主成分。构造各个评价样本的综合评价函数其中,为第一、二…第d主成分的贡献率。2222211()max(()),1,1pnijijQazEzaaan221,2,11()max(()),1,,1pndidjddijQazEzaaaaan,1,,;1,,;pmimjijjFaxinmddp1,1,,;1,,;dimmimFFinmddp12,,,d(三)PP回归(四)解不确定型决策问题的投影寻踪模型五、实证分析在股票的选择上,经典方法是Markowitz首先提出的以分散风险为主要目的的现代投资组合理论,近代又兴起了利用多元统计分析方法中的因子分析和聚类分析来预测股票行情。投影寻踪聚类分析建立的是一种长期投资的理念,有利于缩小投资选择范围,确定投资价值,降低投资风险。在我国证券市场走向成熟的过程中,提倡运用这种理性的投资分析方法,不仅可以降低投资风险,规范投资行为,也可促进我国证券市场的健康发展。这里尝试将投影寻踪聚类分析用于股票的选择上,选取16支银行股票的主要财务指标进行实证分析。样本股票的主要财务指标数据来自同花顺F10,包括12项财务指标:每股收益、每股净资产、每股现金流、每股未分配利润、每股公积金、主营收入、利润总额、净利润、净资产收益率、销售毛利率、主营收入同比增长率、净利润同比增长率。在DPS数据处理系统中作投影寻踪聚类分析,对数据标准化处理,设定密度窗R=12,得到最优投影方向向量a=(0.5091,0.4492,0.4167,0.5101,0.4582,0.0009,0.0001,0.0006,0.0029,0.0539,0.0802,0.0260)。由投影方向向量值的大小可知,前5个指标每股收益、每股净资产、每股现金流、每股未分配利润、每股公积金是影响分类结果的主要因素。得到16个银行股的一维投影值,如下表:证券代码银行投影值证券代码银行投影值601166兴业银行6.4939600016民生银行-1.1189000001深发展A2.1825601328交通银行-1.2228600000浦发银行1.278601998中信银行-1.4057002142宁波银行1.1045601939建设银行-1.4686601009南京银行0.7732601398工商银行-1.8287601169北京银行0.7132601988中国银行-1.8591600015华夏银行0.5646601818光大银行-1.9227600036招商银行0.2582601288农业银行-2.2171投影特征值越大说明对应的股票投资价值越大。根据16个股票样本的投影特征值的大小,将16支股票分为3类:1、兴业银行。2、深发展、浦发银行、宁波银行、南京银行、北京银行、华夏银行、招商银行。3、民生银行、交通银行、中信银行、建设银行、工商银行、中国银行、光大银行、农业银行。