基于SVM的数据挖掘技术研究作者:刘森华学位授予单位:长春理工大学相似文献(10条)1.学位论文王家琦有关分类问题的统计学习理论与算法研究2002机器学习一直被认为是经验科学,在泛化性能、计算效率、非线性、模型简洁程度等几个方面都缺少理论指导.幸运的是,一大批学者一直致力于机器学习的理论工作.统计学习理论建立了机器学习泛化性能方面的理论基础,这一理论中的渐进理论开创性的将概率统计学中依概率近似思想引入到机器学习研究当中并证明了泛函空间的大数定理,从而解决了机器学习当中期望风险与经验风险之间的关系问题.在此基础上,统计学习理论中的非渐进理论给出了期望风险依概率成立的界并提出结构风险最小化推理原则,使得有限样本的机器学习具备了理论基础.PAC学习理论在统计学习理论基础上进一步讨论计算复杂性问题,使得机器学习计算效率方面的研究也具备了一定的理论基础.核方法为解决机器学习的非线性问题提供了一个崭新的思路.有关某个具体算法下的模型简洁性的结论也已经被证明.这些都说明机器学习正逐渐成为一门真正的科学.2.学位论文刘华煜基于支持向量机的机器学习研究2005学习是一切智能系统最根本的特征。机器学习是人工智能最具智能特征、最前沿的研究领域之一。机器学习研究的是如何使机器通过识别和利用现有知识来获取新知识和新技能。机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善。与传统统计学相比,统计学习理论是一种专门研究小样本情况下机器学习规律的理论。V.Vapnik等人从上世纪六七十年代开始致力于此方面研究,到90年代中期,其理论不断发展和成熟。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架,它能将很多现有方法纳入其中,同时,在这一理论基础上发展了一种新的通用学习方法——支持向量机(SupportVectorMachine或SVM),它已初步表现出很多优于已有方法的性能。文章对机器学习、支持向量机的研究现状及应用领域进行了综述,阐述了机器学习和支持向量机的基本概念、基本模型和支持向量机的训练算法。针对机器学习系统的具体结构,提出了机器学习系统的模块化设计,划分出了输入处理、训练、执行与评价、评价表示4个模块,设计了各个模块之间的通信方式,并具体实现了4个模块和模块集成系统。根据基于支持向量机的机器学习的研究成果,研制开发出人脸检测系统,主要包括人脸图像处理和编码、基于支持向量机的机器学习、执行与评价、评价表示功能,实现了人脸的自动判定。3.期刊论文谭东宁.谭东汉小样本机器学习理论:统计学习理论-南京理工大学学报2001,25(1)统计学习理论是由Vapnik等人提出的一种有限样本统计理论,是模式识别领域新近发展的一种新理论,着重研究在小样本情况下的统计规律及学习方法性质。它为小样本机器学习问题建立了一个较好的理论框架,也发展了一种新的通用学习算法——支持向量机,较好地解决了小样本机器学习问题。该文旨在介绍统计学习理论的基本思想、特点、研究现状和一些思考。4.学位论文李海霞基于统计学习理论的支持向量回归研究与应用2007基于数据的机器学习问题是现代智能技术非常重要的研究内容。现有的机器学习方法的重要理论基础之一是统计学,统计学研究的是样本数目趋于无穷大时的渐进理论,但在实际问题中,样本数目往往是有限的,因此这些学习方法存在着固有的缺陷。统计学习理论是一种专门研究有限样本情况下机器学习规律的理论。在此理论框架下产生的支持向量机是一种将抽象的理论转化为实际的学习方法,主要应用于分类和回归两个领域。其中分类的理论和应用都已经比较成熟,而对回归的研究还缺乏广度和深度。本文对支持向量回归在数据拟合、函数逼近、线性算子方程求解等方面的应用进行了较为系统地研究。数据拟合与函数逼近方面,利用支持向量回归对自变量分别是一维和二维的数据给出拟合和逼近;线性算子方程求解方面,构造了一种新的非乘积型二元B样条核,并以Fredllolm为例,利用支持向量回归对两类算子方程进行求解,得到其解析解。5.学位论文周伟达核机器学习方法研究2003摘要从上世纪60年代始,人们开始研究基于数据的机器学习问题理论,直至上世纪九十年代,在Vapnik等人的努力下,基于数据的机器学习理论得到了长足的发展,形成了一门比较完善的统计学习理论,并在此基础上创建了一类全新的通用的有效的机器学习算法:支撑矢量机.统计学习理论的精髓在于引入了假设函数集容量控制的概念,学习机为了获得好的推广能力,需在假设函数集容量控制和最小化经验风险之间作一个好的折衷.在统计学习理论出现和完善之前,在机器学习中引入核函数,更广义地说就是引入非线性映射和非线性函数技术早已有之.但核函数真正在机器学习中获得成功应用始于支撑矢量机.其原因就是由于引入了非线性函数,使得学习机假设函数集太大,容易导致学习机的过拟合而降低推广能力.正是统计学习理论和核技术的结合,才触发了从上世纪九十年代中期开始的核机器的出现和快速成功的发展.目前主要的核机器技术包括支撑矢量机、核Rsher分类器和核主分量分析等.该论文的所有工作正是在上述结合点上展开,主要包括两大部份的内容:支撑矢量机算法分析和改进方面以及基于统计学习理论的新核机器算法方面.在支撑矢量机算法分析和改进方面,该论文主要作了以下四方面的工作:第一、分析了支撑矢量机的基本几何性质.我们针对模式识别和回归估计两类支撑矢量机,分别分析和证明了它们的一些基本几何性质,基于这些性质讨论了支撑矢量机对新增样本的推广能力,得到了一些非常有价值的结论.第二、提出了线性规划支撑矢量机.我们通过对统计学习理论中一些重要结论,特别是线性假设函数集VC维数的分析,得到了一类线性规划支撑矢量机.第三、提出了无约束规划回归估计支撑矢量机.当采用高斯损失函数时,我们提出了一种无约束支撑矢量机回归估计算法,并证明了该算法具有严格的凸性,不存在局部极小解.第四、提出了自适应支撑矢量机算法.通常无线通信信道具有时变性,要求多用户检测算法具有自适应性.在新的基于统计学习理论的核机器方面,该论文主要作了以下四方面的工作.第一、提出了一种新的支撑矢量机模型选择准则.第二、提出了复值支撑矢量机算法.第三、提出了基于父子波正交投影核的支撑矢量机算法.第四、提出了在隐空间中的两种核机器学习算法.6.期刊论文叶晨洲.杨杰.姚莉秀.陈念贻统计学习理论的原理与应用-计算机与应用化学2002,19(6)经验风险与实际风险间的不一致是一个长期困扰机器学习(各种分类或拟合问题)的难题.统计学习理论提供了对这一问题的部分解决方法.本文从理论及现实两方面介绍经验风险与实际风险间的不一致现象,定义了算法的泛化能力,简单介绍了统计学习理论各组成部分的主要结论,并总结了这一理论的应用方向和存在的问题.7.学位论文夏建涛基于机器学习的高维多光谱数据分类2002结合国家863计划项目、国防973项目和教育部博士点基金项目,研究了有限样本下基于机器学习的高维多光谱数据分类问题.高维多光谱数据分类中,由于训练样本非常有限、数据维数很高,以经验风险最小化为归纳原则的传统模式识别方法通常难以取得很好的结果.以统计学习理论(StatisticLearningTheory-SLT)、支持向量机(SupportVectorMachine-SVM)和人工神经网络(ArtificialNeuralNetworks-ANN)为基础,该文开展了以下几个方面的研究工作:深入分析了高维多光谱数据的特点和传统模式分类方法在高维多光谱数据分类中面临的困难.根据SVM的分类判决面仅由支持向量决定的特点,提出了基于边界样本选择的快速SVM学习算法(BSS-SVM).该文提出了基于纠错编码的SVM多类分类算法(ECC-SVM),并分析了ECC-SVM的推广能力与编码长度、码间汉明距离、编码顺序以及分类间隙等之间的关系,给出了这种关系的数学描述.该文对DPFNN的推广性进行了深入的理论分析.根据高维核空间的性质,提出了基于Bhattacharyya距离准则的核空间特征提取算法(BKFE).以上理论分析结果和算法已应用于国家863-308提供的64波段多光谱数据和美国AVIRIS220波段多光谱数据的实际分类中,取得了令人满意的结果.该文的研究结果为有限样本下高维多光谱数据分类提供了新的理论和方法.8.学位论文柏海滨基于机器学习的入侵检测系统的研究与实现2008统计学习理论是在有限样本情况下新建立起来的统计学理论体系。统计学习为人们系统地研究小样本情况下机器学习问题提供了有力的理论基础。支持向量机(SupportVectorMachine,SVM)是在该理论体系下产生的一种新的、非常有力的机器学习方法。它较好地解决了以往很多学习方法的小样本、非线性、过学习、高维数、局部极小点等实际问题,具有很强的推广能力。作为SVM方法的一个分支,最小二乘支持向量机(LeastSquaresSupportVectorMachine,LSSVM)继承了SVM在理论与应用方面的许多研究成果。相对于SVM,LSSVM所具有的一些特性可以概括为:求解线性方程组,具有更快的求解速度,求解所需的计算资源较少,其解满足极值条件。本文首先阐述了论文研究背景和意义,介绍入侵检测的模型、分类,比较了应用于入侵检测的不同方法的优缺点。然后介绍了统计学习理论,支持向量机和最小二乘支持向量机的相关理论,提出了基于最小二乘支持向量机的网络入侵检测系统模型,并对模型的各个组件的功能、机制,实现进行了深入的探讨。对用于入侵检测的网络数据特征,本文利用异构数据集上的距离度量函数(HeterogeneousValueDifferenceMetric,HVDM)进行特征数据的预处理,针对LSSVM丧失鲁棒性的缺点,使用加权的方法增强其鲁棒性,由于计算经验风险的损失函数为二次函数形式,LSSVM丧失了标准支持向量机的稀疏性,导致了其训练完毕后,用于分类时的效率降低的特点,为使LSSVM具有稀疏性,本文从统计分析的角度出发,应用主成分分析的方法,对样本集进行特征提取,消除变量间的相关性,选取训练样本中分类作用最大的若干样本个体作为支持向量,并将非支持向量上的分类信息转移至支持向量上,从而改善模型的预测精度和泛化能力,提出了新的LSSVM稀疏化算法—基于主成分分析的最小二乘支持向量机算法,在模拟实验中,选取径向基核函数,将训练数据从低维空间映射到高维空间中,使数据在高维空间中能够线性可分,并采用三步搜索法进行参数的选择,使用贯序最小优化算法(SequentialMinimalOptimization,SMO)对样本集进行训练。实验结果表明,由此构建的稀疏LSSVM分类器保持了支持向量机的良好分类性能,而稀疏率相对高,其支持向量数甚至少于标准支持向量机,明显提高了LSSVM的分类效率和实时性。9.期刊论文张学工.ZHANGXuegong关于统计学习理论与支持向量机-自动化学报2000,26(1)模式识别、函数拟合及概率密度估计等都属于基于数据学习的问题,现有方法的重要基础是传统的统计学,前提是有足够多样本,当样本数目有限时难以取得理想的效果.统计学习理论(SLT)是由Vapnik等人提出的一种小样本统计理论,着重研究在小样本情况下的统计规律及学习方法性质.SLT为机器学习问题建立了一个较好的理论框架,也发展了一种新的通用学习算法--支持向量机(SVM),能够较好的解决小样本学习问题.目前,SLT和SVM已成为国际上机器学习领域新的研究热点.本文是一篇综述,旨在介绍SLT和SVM的基本思想、特点和研究发展现状,以引起国内学者的进一步关注.10.学位论文柯海昕基于统计学习理论的支持向量机算法研究及其应用2001该文概述了统计学习理论中关于小样本统计的部分重要结论,详细地介绍了支持向量机方法的基本原理,并讨论了该方法与统计学习理论中相关结论的关系,方法的性质以及存在的一些问题.文中专门讨论了支持向量机中存在的对噪声和野值敏感和算法实现效率低的问题,分别介绍和分析了目