面向生物数据分析的支持向量机技术的研究

yclin20
5 ℃
2018-05-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

北京工业大学博士学位论文面向生物数据分析的支持向量机技术的研究姓名：刘建丽申请学位级别：博士专业：计算机应用技术指导教师：刘椿年20070401面向生物数据分析的支持向量机技术的研究作者：刘建丽学位授予单位：北京工业大学相似文献(10条)1.学位论文张洪亮基于机器学习的一种模式识别及其应用1999该文针对过程曲线的一种模式识别问题,提出了自己的解决方案,并用于实际.解决方案的理论基础是模糊理论,并运用了矩阵论等数学工具.解决方案从部分和整体的角度提出了层次逐级分解法和正交函数系分解法,并采用了模糊推理.机器学习采用了梯度上升学习算法和遗传学习算法.通过机器学习,可使模式识别适用于不同专业领域.作为应用实例,该模式识别应用于土石坝过程线识别和承压含水层抽水层抽水实验配线中.编程工具使用的是Microsoft公司面向对象的程序设计语言VisualC++.并通过具有导师样本学习,使应用取得较好的效果.最后该文针对曲线模式识别中的相差和周期问题,提出了解决方法,以满足处理更复杂问题的要求.2.学位论文刘敬伟基于DTW相似度的统计学习方法及其在模式识别中的应用2002该文研究了基于（DynamicTimeWarping)DTW相似度的统计学习方法在高维时间序列（语音信号,基因数据等）的统计模式识别中的理论及其应用.第二章系统地讨论了高维时间序列的基于一般相似度的小样本学习中的Bayes决策理论,提出了基于DTW相似度的基因芯片数据的基因识别的两种识别方法：等分投影法和AR模型法.并且在Iris数据库上,讨论了Bayes决策理论的合理性.第三章提出了基于DTW相似度的随机阈值0-1矩阵方法.在分类器是DTW下,给出了语音识别和说话人识别中临界带倒谱（MFCC）和线性预测倒谱（LPCC）对语音识别和说话人识别效果都好的问题的一个解释.第四章推广了基于DTW相似度的无向图聚类方法为基于DTW相似度的有向图聚类.第五章基于抽样理论和类间信息,建立了基于DTW的概率模型.与（l-r)优化算法结合.应用于语音识别和说话人识别的特征评估中.第六章提出了基于空间数据的“劈分融合”技术.这种技术为克服基于机器学习的Variance&Bias提供了一种解决策略.第七章讨论了将参数模型和一般相似度的小样本学习结合的可能性.该文的研究为模式识别,机器学习,人工智能,数据挖掘中小样本统计学习提供了新的工具.并且,该文的方法可以推广到一般的相似度和贝叶斯概率模型中.3.期刊论文杜明.周而重.DUMing.ZHOUEr-zhong机器学习在模式识别中的应用研究-科技信息2009,(9)近年来,机器学习已成功应用于模式识别领域,并且随着研究的深入,机器学习的相关算法和理论又得到了完善和扩展.本文将阐述机器学习的基本概念,分析应用在模式识别领域的若干机器学习算法.4.学位论文谢薇薇机器学习在模拟电路故障诊断中的应用研究2009模拟电路由于本身的容差性、非线性和难以模型化等特点，导致故障诊断工作异常困难。因此，模拟电路故障诊断是一个富有挑战性的研究课题。超深亚微米半导体技术的进展，推动了超大规模模拟电路和模数混合电路的发展，对模拟电路故障诊断提出了新的挑战，传统的故障诊断理论和方法已经难以应对。作为计算智能技术的一个分支－－机器学习，为模拟电路故障诊断提供了一条有效的途径，受到普遍关注和重视。针对模拟电路的特点，本文使用了机器学习算法来进行模拟电路故障诊断。通过从工程实践中探索得来的诊断方法，提出了一套基于模式识别理论的诊断系统，并使用一系列模型评估标准对机器学习模型的诊断性能进行了客观评估。本文从选定测试电路开始，对故障集的选择、解决电路容差的MonteCarlo仿真方法、基于PCA的特征提取以及机器学习算法应用等进行了探讨，详细地阐述了每个环节是如何进行的。然后在此基础上提出了一套系统化的诊断流程，使得机器学习算法可以顺利地应用到模拟电路的工业化自动故障诊断中。此方案可以适应模拟电路的容差性、噪声性、非线性和难以建模等特点。随后运用一系列模型评估标准对有代表性的机器学习算法建立的诊断模型进行客观公正地评估。目前，对学习算法进行综合性比较的研究比较少。不同的领域，对学习算法有不同的评估标准。本文整理了适合于故障诊断领域的评估标准，分别对决策树、神经网络和支持向量机算法在故障诊断领域的应用效果做出了评估。针对两个国际标准电路的故障模拟仿真结果，对三种机器学习算法的建模性能进行了点评。5.学位论文鲁春元流形学习的统一框架及其在模式识别中的应用2009随着信息时代的到来，人们获得了方便的信息提取手段，也面临着复杂的海量数据处理的问题，尤其是面对模式识别、数据挖掘、图像处理与机器学习领域中的海量数据时。这些数据往往都呈现出高维数、高增长率、难以被人感知的特点。因此如何从这些数据中合理有效的找到对人们有用的信息成为亟待解决的问题。数据降维是一种有效的处理手段。降维就是要在保持数据信息尽量完整的条件下合理的降低数据的维数。通过发现和描述数据内部的规律来降低数据维数，从而满足人们压缩、存储、感知和进一步复杂处理的需要。传统的降维方法往往都假定数据的分布具有全局线性特性。其中广泛应用的有：独立分量分析（ICA），主成分分析（PCA）和线性判别分析（LDA）等等。显然这种假设大大限制了传统降维方法的能力。当面临的真实数据大多是呈现相互关联，非线性化的结构时，传统的降维方法显得越来越无能为力。近年来，一类具有代表性的非线性降维算法，如等距流形映射（ISOMAP）、局部线性嵌入（LLE）等方法的提出，引起了人们极大的兴趣。由于这类算法的能够发现嵌入在高维空间中的低维流形结构，所以也把这类算法叫做流形学习算法。流形学习是一种新的机器学习与认知科学的方法。它的主要目标是发现嵌入在高维数据空间的低维光滑流形表示及其嵌入规则。目前，流形学习算法已经成为降维领域的一个研究热点，并且流形学习算法在高维数据可视化、人脸识别和文本分类等领域取得了一定的效果。本文针对几种有代表性的流形学习算法进行了深入的研究，主要探讨了流形学习的框架理论相关研究及其在模式识别中的应用。在理论方面本文做出了两方面的工作。一是构造了一个统一框架，将传统的线性降维算法如主成分分析（PCA）、线性判别分析（LDA）与流形学习算法如ISOMAP、LLE、保近邻嵌入（NPE）、拉普拉斯特征映射（LE）、保局投影（LPP）与边界费舍尔分析（MFA）等统一到这个框架之下。并在提出的统一框架下构造了一个新的流形学习算法——子流形保形分析（Sub—ManifoldPreservingAnalysis，简称SMPA）。该算法不仅适于数据可视化，也适于模式分类。实验结果表明该算法优于其他算法。二是摆脱传统核方法在核函数上的制约，构造出了数据上的最优流形核矩阵。本文通过将本文框架下的流形学习转变为一个半正定规划问题，通过半正定规划的技术构造最优核矩阵。实验结果显示了该方法的有效性。在应用方面，本文针对目前流形学习算法在模式识别应用中稳定性较差，识别率不高的情况，结合AdaBoost方法，提出了一套新的最优分类流形子空间的人脸识别方法。另外，本文还提出了一种基于流形分值的特征选择方法。总的来说，本文的主要贡献包括以下五个方面：1.本文对几种有代表性的流形学习算法进行了深入的研究，提出了基于度量的流形学习算法的统一框架。该框架能够将现有的降维算法（PCA、LDA等线性算法与ISOMAP、LLE、NPE、LE、LPP、MFA等非线性降维算法）统一起来，更好地解释与比较各个算法的优劣。2.在本文提出的框架下，能够根据不同的目的衍生出不同的算法。由此本文提出了一个用于数据可视化与分类的新算法——子流形保形分析（SMPA）。该算法旨在进行分类的情况下，保持多类数据中的子流形结构。实验验证了该算法的有效性。3.在模式分类中，数据的特征极为关键，本文提出了基于本文框架下流形学习的流形分值特征选择。这种特征选择方法在模式识别应用上显示了较好的效果。4.本文突破传统核方法在核函数上的制约，通过半正定规划（SDP）构造最优流形核矩阵。相关实验结果显示了该方法的有效性。5.本文结合AdaBoost方法，提出了一套新的最优分类流形子空间的人脸识别方法。该方法不仅能提高识别率，而且具有很好的稳定性和抗光照能力。6.期刊论文夏胜平.张乐锋.虞华.张静.胡卫东.郁文贤.XIASheng-ping.ZHANGLe-feng.YUHua.ZHANGJing.HUWei-dong.YUWen-xian基于RSOM树模型的机器学习原理与算法研究-电子学报2005,33(5)机器学习和识别可归结于一个高速、有效地搜索非常大的样本空间问题,以实现对训练和识别样本的最佳拟合.对于复杂背景的模式样本集,同类型样本的独立同分布(i.i.d)特性通常难以保证,统计理论无法有效应用.本文将层次化思想和自组织映射(SOM)神经网络相结合,采用递归实现技术实现了一种高效、高容量,能够自适应增长的模式分类树(RSOM树)生长方法,用于模式识别和机器学习的基本建模.通过对大量公用数据集的测试以及在实际的雷达目标识别系统中应用,方法有效性得到了证明.7.学位论文夏建涛基于机器学习的高维多光谱数据分类2002结合国家863计划项目、国防973项目和教育部博士点基金项目,研究了有限样本下基于机器学习的高维多光谱数据分类问题.高维多光谱数据分类中,由于训练样本非常有限、数据维数很高,以经验风险最小化为归纳原则的传统模式识别方法通常难以取得很好的结果.以统计学习理论(StatisticLearningTheory-SLT)、支持向量机(SupportVectorMachine-SVM)和人工神经网络(ArtificialNeuralNetworks-ANN)为基础,该文开展了以下几个方面的研究工作:深入分析了高维多光谱数据的特点和传统模式分类方法在高维多光谱数据分类中面临的困难.根据SVM的分类判决面仅由支持向量决定的特点,提出了基于边界样本选择的快速SVM学习算法(BSS-SVM).该文提出了基于纠错编码的SVM多类分类算法(ECC-SVM),并分析了ECC-SVM的推广能力与编码长度、码间汉明距离、编码顺序以及分类间隙等之间的关系,给出了这种关系的数学描述.该文对DPFNN的推广性进行了深入的理论分析.根据高维核空间的性质,提出了基于Bhattacharyya距离准则的核空间特征提取算法(BKFE).以上理论分析结果和算法已应用于国家863-308提供的64波段多光谱数据和美国AVIRIS220波段多光谱数据的实际分类中,取得了令人满意的结果.该文的研究结果为有限样本下高维多光谱数据分类提供了新的理论和方法.8.学位论文姜文瀚模式识别中的样本选择研究及其应用2007随着信息科技的发展，人们需要处理的信息数据日渐呈现出高维和海量的特点。然而，随之而来的困扰是如何有效地分析和利用这些数据。这是模式识别、数据挖掘、神经网络、机器学习等学科所共同面临的问题。在统计模式识别中，许多分类方法的计算复杂度随着训练集样本个数的增加而快速增长。因此对于较大规模数据的处理常常陷入困难。一个直接有效的解决途径就是在保证学习算法分类性能的前提下，通过样本选择来约简训练样本集。样本选择既可以起到降低算法计算代价，加快学习速度的作用，也可能避免“过拟合”现象的发生，从而提高分类算法的泛化能力。本文针对分类决策与训练样本凸包有关的一类分类器，包括线性支持向量机、非线性支持向量机、最近邻凸包分类器和核最近邻凸包分类器，提出了几种样本选择方法，并通过实验分别对它们的有效性进行了验证。本文首先提出了子类凸包样本选择方法。该方法针对一类训练样本，通过迭代逐一选择距离选择集凸包最远的样本，从而使得选择集凸包尽可能地逼近原凸包。经证明，该方法选择的样本为原训练集凸包边缘点。本文将该样本选择方法分别与线性支持向量机和最近邻凸包分类器相结合，并取得了良好的实验效果。本文将核函数方法与子类凸包样本选择算法相结合，提出了核子类凸包样本选择方法。该方