浙江大学理学院硕士学位论文偏最小二乘回归的研究姓名:宋高阳申请学位级别:硕士专业:概率论与数理统计指导教师:苏中根20090505偏最小二乘回归的研究作者:宋高阳学位授予单位:浙江大学理学院相似文献(10条)1.学位论文肖琳偏最小二乘回归方法及其在医学领域中的应用2000文章主要从理论与应用相结合的角度,较系统地介绍偏最小二乘回归理论,阐明了使用PLS回旭处理医学实例的一般步骤,并将之与其他主要回归方法进行了对比.其内容主要包括PLS回归的基本思想、Wold建模过程及算法、Holland简便算法及自编程序、实例分析等.对山西省汾阳实实验县合作医疗保险投保率的影响因素分析,结果表明偏最小二乘回归方法,无论是拟合效果还是预测效果都优于逐步回归及主成分回归.它在医学领域必将会有很好的推广和应用前景.2.期刊论文周光文.袁晓峰.黄筱蓉.ZHOUGuangwen.YUANXiaofeng.HUANGXiaorong递阶偏最小二乘回归在大坝安全监测中的应用-水电自动化与大坝监测2008,32(4)偏最小二乘回归能有效地消除因子间的多重相关性,但从其算法特点和实际应用来看,也存在不足.例如,在算法方面,偏最小二乘提取的主成分不一定能同时保证方差和相关程度最大;在应用方面,含有较多自变量的偏最小二乘回归模型的可解释性不高.递阶偏最小二乘回归是偏最小二乘回归后续研究的成果之一,在一定程度上克服了上述不足.算例表明,递阶偏最小二乘回归模型较其他回归模型的可解释性强,较为合理.3.学位论文蒋国兴偏最小二乘回归方法(PLS)在短期气候预测中的应用研究2007本文采用PLS方法对广西冬季月平均气温进行预测建模进行了研究。文章以广西88站1959~2000年冬季(12月、1月、2月)3个月各月平均气温距平场作为预报量,以1958~2000年的500hPa、100hPa月平均高度场,以及北太洋月平均海表温度场作为预报因子,进行预报建模,并对2001-2005年5年独立样本进行预报试验。在建模过程中本文并不是直接针对某一个站点建立一个预报方程,而是采用EOF降维方法,提取广西全区88个站点每个月月平均气温距平场的前三个时间系数作为预报分量。在预报建模过程中发现,PLS一般提取3-5个主成分,就可包含75%以上的自变量变异信息和50%左右的因变量信息,不仅能较好地概括自变量系统信息,同时也能很好地解释因变量。论文以中国气象局下发的《短期气候预测质量评定暂行办法》对预报结果进行客观评分计算,其中12月、1月和2月的预报结果评分分别为75.8、84.7和72.6分,3个月平均得分为77.7分,预报效果比较令人满意。本文还在同样条件下用逐步回归方法进行预报建模对比试验,结果发现,直接采用逐步回归方法,对广西88个站冬季3个月预报评分为12月62.8分、1月73.6分、2月66.9分,3个月平均得分为68.8分。对比两种方法预报结果来看,PLS在预报评分、预报的稳定性及提取因子所包含的异常信息等方面均明显优于逐步回归方法。4.期刊论文徐洪钟.吴中如偏最小二乘回归在大坝安全监控中的应用-大坝观测与土工测试2001,25(6)针对统计回归计算中出现的水压因子难以入选和入选以后计算结果不合理的困难,本文应用偏最小二乘回归建立坝顶水平位移的统计模型.计算结果表明,相对于逐步回归和多元回归,基于偏最小二乘法的回归模型,取得较合理的结果.5.学位论文丁磊偏最小二乘回归算法改进及应用2007偏最小二乘回归(PartialLeastSquaresRegression,PLSR)是一种先进的多元统计分析方法,于1964由瑞典计量经济学家HermanWold等人首次提出,主要用来解决多元回归分析中的变量多重相关性或变量多于样本点等实际情况的问题.由于它集多元线性回归分析,主成份分析和典型相关分析的基本功能为一体,因此在国外被誉为第二代多元统计分析方法,该方法目前已广泛应用于化学计量,工业设计,计量经济学等各个领域.本文的主要内容可以概述如下:第一部分主要阐述了偏最小二乘方法的历史和现状,并对偏最小二乘回归近期的热点问题进行了总结.第二部分详细介绍了偏最小二乘回归的基本思想,数学原理和单因变量偏最小二乘的算法推导,并利用该方法对防治沙尘暴研究进行了偏最小二乘回归建模分析,从中发现抑制沙尘暴的根本办法不是治理沙漠,而是要控制土地沙漠化和抑制裸露农田起尘.第三部分在回归分析中经常存在自变量过多并且之间存在多重相关性现象,为了寻找对因变量有重要影响的自变量,本文提出了偏最小二乘向前逐步回归法,并对该方法进行了详细的理论推导.同时,运用SAS软件,利用该方法对化工领域的典型数据进行建模分析,结果发现,该方法易于操作,具有一定的实用性.另外,在多指标体系中建立综合评价指数时,往往会遇到指标变量集合间存在多重相关性问题,而传统的主成份分析并不能解决该问题,针对这种情况,本文采用PLS路径分析的思想,构建综合评价指标,对中国西部城市综合评价进行实证分析.第四部分针对偏最小二乘回归无法对未来值进行预测的问题,采用了偏最小二乘时间序列预测模型.一方面,针对因子间的多重相关性现象,采用偏最小二乘回归建模,从而明确各因子对因变量的影响程度;另一方面,根据构成因子数据的特点,利用AR(p)模型对各因子未来值进行预测,然后将其代入已建成的偏最小二乘回归方程,从而实现对因变量未来值进行预测.本文利用该方法对烟台市年生活用水量进行了实证分析.6.学位论文张巧真试验设计中的数据分析方法2007人们探索、研究和利用自然的一个重要途径是进行试验。通常在一个试验中,我们要考虑p个输入变量对输出变量的影响。在试验设计中输入变量常被称作因子,而输出变量被称作响应.另外我们称因子的设置为其水平。如果一个试验中包含p个因子F,1…,F,p,而这p个因子的水平分别为s,1…,s,p(≥2),则称其为s,1×…×s,p的因析试验,特别的如果s,1=…=s,p=s,则称其为一个对称的s'p因析试验,否则即为一个非对称因析试验。这p个因子的任一水平组合被称为一个处理组合。如果一个试验中包含有所有可能的处理组合,则称这个试验为完全因析试验。然而一般情况下,试验者负担不起一个完全因析设计,尤其是当因子个数较多的时候,所以往往从所有处理组合中取出一部分来安排试验,这一部分即是一个部分因析试验设计。如果一个部分因析设计能够由定义关系得到,则称之为正规的,否则称为非正规的。为了能够对因子效应进行有效的统计推断,试验者首先应该选择一个好的部分因析设计。很多文章都致力于寻找一个最优性准则,并在相应的准则下构造出最优设计.例如,对正规的部分因析设计,最常用的有最大分辨度准则,最小低阶混杂准则,纯净效应准则和最大估计能力准则等等。寻找一个好的设计和进行数据分析是试验设计的两个重要方面。在工业试验设计和分析的初级阶段,筛选因子具有非常重要的作用。由于客观条件的约束,可作试验的次数受到限制。在这种情况下,非正规设计、饱和设计、超饱和设计常常因为其试验次数节俭而被采用.文献中对这一类筛选设计的构造问题有很多的讨论,在相应准则下最优的设计大多有表可查,试验者在安排试验时可以方便的查出。这儿,我们只讨论数据分析方面的问题。要对从筛选试验中收集来的数据进行分析,一个最基本的原则,就是效应稀疏性的假定,即在考虑的效应中,只有少数几个是不为零的。通常在筛选试验中,试验者希望能考查的因子越多越好,但通常由于时间、物力和人力的限制,所能选择的试验次数并不太多。所以,一般情况下筛选试验中每个处理组合只进行一次,没有重复,这样也就没有剩余的自由度去估计误差项的方差,比如,当这种筛选试验安排成饱和设计时,恰有足够的观测来估计所有的效应,而不再有自由度来估计误差项的方差,因而,对于适用于有重复试验的标准数据分析方法,比如方差分析,置信区间和基于t-分布的假设试验,不再适用。然而,如果效应稀疏性假设成立,即便是使用饱和或超饱和设计,有效的数据分析方法也会使得那些显著因子效应的估计仍然会比较大,以致于可以识别出真正活跃的因子.因此对筛选设计的数据分析来说,效应稀疏性的假定是关键的一点。在任何决策问题中,都必须考虑其代价,在各种错误中作个权衡。在筛选活跃因子时,可能会犯两种错误:一种是把惰性因子误认为活跃的(第一类错误),另一种是把活跃的效应认为是惰性的(第二类错误)。如果犯了第一类错误,结果是一个惰性因子包含在以后的研究中,占用资源;另一方面,如果犯了第二类错误,进一步的研究中将会漏掉一个重要的因子,这可能会导致整个研究的失败。一般而言,在筛选试验中第二类错误或者和第一类错误一样重要,或者要比第一类错误重要.当然,如果我们宣称所有的因子都是非零的,也就是不筛选任何因子,则可以避免犯第二类错误,但筛选试验的基本目标就不能实现了。所以在筛选设计的分析中,要寻找一种在探索大的效应时最优的数据分析方法,就必须在第一类和第二类错误中作个权衡。超饱和设计是部分因析设计的一种,在这类设计中,待估计的效应较试验次数要多。当试验中需要考查的因子数目较多,而进行一次试验又很昂贵的话,可以考虑使用超饱和设计。对于超饱和设计的构造问题,研究颇多。但这类设计的数据分析是个难题,因为困难不仅在于非正交性,还有不可估这个问题:如果所有感兴趣的效应均包含在模型中,这个模型的参数相对试验次数而言太多了,所以效应是不可估计的,文献中提出了一些办法来解决这个问题,这些方法基本上可以分为三类:一类是一般线性模型中适用的变量选择方法,或直接拿过来用(如逐步回归),或经过适当的修正后再用到该类设计中(如LiandLin(2002,2003)给出的SCAD方法、LuandWu(2004)的逐步降维方法等等);第二类是适用于正规设计的正态图或半正态图方法(Daniel(1959));最后一类是Bayesian方法,如Chipmanetal.(1997)、Beattieetal.(2002)的SSVS/IBF、两步选择策略.逐步筛选的不足之处是其不稳定性,而正态或半正态图则有些主观,另外效应估计的非正交性也使得由此所的结果和实际有偏差,总之这些方法中有的不能很好的控制犯错误的概率,有的则难以理解.我们在第2章介绍了一种新的方法--PLSVS方法来筛选混水平超饱和设计的显著效应,这种方法是基于偏最小二乘回归给出的。在2.2节,我们给出这种可用于一般线性模型中的变量选择方法;我们在2.4节介绍了SSD的线性模型以及如何将PLSVS方法用到SSD中进行效应筛选.随机模拟的结果在2.4节中列出,本节中我们还把这种新的方法与已有的方法进行了比较。随机模拟的结果和一个例子的分析均显示这种方法是十分有效的。已有的方法都只是用在2-水平的超饱和设计中,而我们的PLSVS方法可用于2-水平、高水平以及混水平的超饱和设计中去筛选显著效应,并且这种方法易于理解和实现。我们都知道,非正规的正交表在某些方面优于正规的部分因析设计,比如处理组合数目的灵活性,较高的估计能力等等。因此实际中变得越来越常用。有些情况下,由于试验单元的非齐次性可能会引起一些系统变差,而分区组则可以消除这些系统变差,进而提高试验的效率,所以有时候要求设计分区组。对分区组的正规设计的构造,讨论颇多,多种准则以及在相应准则下的最优设计大多可以从文献中查到,而分区组非正规设计的构造,讨论还不是很多,可以参考Cheng,LiandYe(2004)和AiandZhang(2004)。对于分区组试验设计的数据分析,研究还比较少.LoeppkyandSitter(2002)将LoughinandNoble(1997)的排序方法及Lenth′s(1989)的方法推广到分区组的正规设计,但对于分区组非正规的设计,由于效应间存在部分别名和混杂,试验的数据分析变得更复杂。这种情况下,很多模型都是可估的,备选的变量(因子效应)经常比试验次数还要多,即使我们能估出所有效应(包括区组效应,处理因子主效应,处理因子二阶交互作用),效应的估计也可能是相关的,因此无法直接判