基于支持向量机的文本分类方法研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

山西大学硕士学位论文基于支持向量机的文本分类方法研究姓名:崔彩霞申请学位级别:硕士专业:模式识别与智能系统指导教师:王素格20050101://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://://基于支持向量机的文本分类方法研究作者:崔彩霞学位授予单位:山西大学相似文献(10条)1.期刊论文张苗.张德贤.ZHANGMiao.ZHANGDe-xian多类支持向量机文本分类方法-计算机技术与发展2008,18(3)文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一.传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题.介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较.提出了多类支持向量机文本分类中存在的问题和今后的发展.2.学位论文张阜东综合结构分析和内容分析的两种XML文本分类方法2009随着互联网的快速发展,XML正在得到越来越广泛的应用。XML文档作为一种新的数据格式,针对XML文档的数据挖掘研究也成为了研究的热点。由于XML文档具有半结构化的特点,包含内容特征和结构特征。如何将XML文档的内容特征和结构特征结合起来,进行XML文档的分析挖掘,是研究的重点之一。br  本文重点研究了两种XML文档分类方法:br  1)基于SINM模型的XML文本分类方法;br  2)基于频繁子树SLVM模型的XML文本分类方法。br  SLVM模型是向量空间模型的一种扩展,基本思想从XML文档中提取结构单元,再从每个结构单元中的提取文本信息;将XML文档中的每个结构单元中的文本信息看作一个一维向量;整个XML文档则被建模为一组向量,用一个矩阵表示;从而达到将XML文档的结构分析与文本内容分析相结合的目的。本文首先研究了以元素、路径作为SLVM模型的结构单元的XML文本分类方法。更进一步,本文尝试从XML数据集中提取闭合频繁子树作为SLVM结构单元,挖掘更复杂的结构信息,提出了基于频繁子树SLVM模型的XML文本分类方法。br  同时,本文还研究了XML文档的相似度计算方法;讨论了XML文档结构单元之间的关系矩阵的计算方法;使用支持向量机算法(SVM)对大规模XML文档进行分类。使用上述两种方法,在INEX2007和INEX2008测评的XML文档分类任务上,都取得了较好的成绩。3.期刊论文应伟.王正欧.安金龙.YINGWei.WANGZhengou.ANJinlong一种基于改进的支持向量机的多类文本分类方法-计算机工程2006,32(16)提出了一种基于二叉树、预抽取支持向量机及循环迭代算法的改进的支持向量机(SVM)的多类文本分类方法,与现有的多类分类SVM算法相比,该方法具有较高的计算效率.给出了具体实现过程并将其用于文本分类中,实验表明该算法用于文本分类的有效性及其高效率.4.学位论文夏侯振宇基于粗糙集和支持向量机的文本分类方法研究2008本文首先对文本分类的发展现状及存在问题进行了系统性阐述,按文本分类的流程对文本分类相关技术进行了介绍和探讨,重点分析和研究了文本表示、特征选择技术以及文本分类算法等文本分类关键技术。本文较为系统地总结和研究了粗糙集和支持向量机的基本原理。并分别就属性约简算法、支持向量机训练和分类算法等问题加以讨论。为了更好地提高文本分类准确率,降低支持向量机分类算法的运行时间,针对文本经过预处理和文本表示后高维稀疏性的特点,本文在研究和分析了一些粗糙集属性约简算法及其存在的问题的基础上,提出了一种改进的基于属性重要度函数的属性约筒算法,并将该算法和相关已有算法进行了对比分析,从理论上证明了该改进算法的有效性,算法的时间复杂性优于同类算法。结合粗糙集和支持向量机的各自优点,提出了基于粗糙集与支持向量机相结合的文本分类方法,在对文本进行特征选择后,利用改进后的粗糙集属性约简算法,对特征选择后的特征向量空间进行约简,进一步降低特征向量空间的维数,减少冗余属性对分类效果的影响,缩短支持向量机的训练时间,并据此设计和实现了一个结合粗糙集理论和支持向量机技术的文本分类实验系统,对比了降维前后分类效果,探讨了惩罚因子C的选择对分类结果的影响。实验结果表明,在文本特征向量空间的维数大于2500维情况下,采用粗糙集和支持向量机相结合的文本分类方法取得了较好的分类效果。从而从实践上证明了本文提出的改进约简算法在高维情况下是有效的。最后,对本文取得的成果以及不足进行了总结,并对下一步的研究工作进行了展望。5.期刊论文王剑锋.乔冬.麻丽娜.李新叶基于潜在语义分析的网页文本分类研究-应用能源技术2009,(11)传统的基于词空间的文本分类方法很难处理文本的高维特性,提出基于潜在语义空间的网页文本分类方法,将文本数据由高维空间映射到低维空间,通过奇异值分解提取文本的潜在语义空间.在潜在语义空间中利用支持向量机方法实现文本分类;实验表明该方法对于改进文本分类的性能具有较好的效果.6.期刊论文应伟.王正欧.安金龙.YingWei.WangZhengou.AnJinlong一种基于改进的支持向量机的两类文本分类方法的研究-现代图书情报技术2005,(12)提出了一种基于预抽取支持向量机及模糊循环迭代算法的改进的支持向量机(SupportVectorMachines,SVM)的两类文本分类方法,与传统的SVM相比,该方法具有高得多的计算效率.文中给出了具体算法并将其用于文本分类中,实验表明了本算法用于文本分类的有效性及其高效率.7.学位论文卢娇丽基于粗糙集的文本分类方法研究2005随着网络技术的迅猛发展,信息处理成为人们获取有用信息不可缺少的工具。文本分类是中文信息处理的一个重要的研究领域。其目标是在分析文本内容的基础上,给文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。目前已经有许多方法应用到该领域。如支持向量机方法(SVM)、K近邻方法(KNN)、朴素贝叶斯方法(NaiveBayes)、决策树方法(DecisionTree)等等。与这些方法相比将粗糙集理论用于文本分类有以下优点:粗糙集理论无需提供除问题所需处理的数据集合之外的任何先验信息;包括了知识的一种形式模型,使得知识有了清晰的数据意义,并且可用数学方法来分析处理;能够获得分类所需的最小特征属性集,可以在不影响分类精度的条件下降低特征向量的维数;可以得到最简的显式表达的分类规则。而其它方法则有的无法得到显式规则,如朴素贝叶斯方法和K近邻方法,有的得到的规则含有大量的冗余条件,如决策树方法。本文正是利用了粗糙集优越的约简理论来对文本进行了分类。8.期刊论文牛强.王志晓.陈岱.夏士雄.NIUQiang.WANGZhi-xiao.CHENDai.XIAShi-xiong基于支持向量机的Web文本分类方法-微电子学与计算机2006,23(9)Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型,并给出具体的算法.通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%).9.学位论文周倩基于RS-SVM的中文文本分类研究2009随着通信技术和计算机技术的飞速发展,信息处理已经成为人们获取信息和知识不可或缺的工具。文本分类是信息处理的重要研究方向,它是指在://既定的分类体系下,根据文本的内容自动判别文本类别的过程。粗糙集理论是一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。它在不影响分类精度的前提下通过信息约简,去掉冗余信息,得到显式的文本分类规则,简化信息的表达空间维度。支持向量机是一种基于统计学习理论的方法,它遵照结构最小化原则,在统计样本较少的情况下获得良好的统计规律和泛化能力,为解决小样本学习问题提供一个框架,但是由于庞大的文本特征维数,支持向量机的性能也经常会受到限制。因此本文采用了一种粗糙集和支持向量机相结合的文本分类方法,即利用粗糙集属性约简减少属性数,然后用支持向量机进行训练,再利用训练得出的分类知识对新文本进行分类,通过两者有机的融合增强了它们在文本分类中的实用性。本文沿着“文本分类理论→粗糙集理论→支持向量机理论→基于RS-SVM分类方法的提出→将RS→SVM分类方法应用到文本分类中”的思路对文本分类研究内容进行了介绍。在仿真过程

1 / 51
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功