支持向量机在专利文本分类中的应用研究作者:李程雄学位授予单位:华南理工大学参考文献(40条)1.张代民专利信息在企业竞争中的作用[期刊论文]-情报探索2002(1)2.林伟峰.丁海晖试论专利信息的作用[期刊论文]-科技情报开发与经济2004(3)3.厉宁略论专利信息的统计、分析与预测2000(05)4.袁德试论专利制度对高新技术发展的作用[期刊论文]-安徽科技2002(6)5.李淑文试论文本自动分类[期刊论文]-现代计算机(专业版)2004(7)6.有效利用专利信息制定企业发展战略--记恒和顿企业知识产权管理系统2002(05)7.周宏企业技术创新之路——恒和顿企业专利战略解决方案2002(06)8.韩秀成美国的专利政策及其高科技企业的战略[期刊论文]-知识产权2001(3)9.冯晓青试论日本企业专利战略及对我国的启示[期刊论文]-北京航空航天大学学报(社会科学版)2001(3)10.邢素军中国企业应对国际市场竞争的专利策略[期刊论文]-电子知识产权2002(8)11.林艺文专利战略分析系统的研究与实现200412.高洁.吉根林文本分类技术研究[期刊论文]-计算机应用研究2004(7)13.欧振猛中文分词算法在搜索引擎应用中的研究[期刊论文]-计算机工程与应用2000(8)14.赵伟.戴新宇.尹存燕.陈家骏一种规则与统计相结合的汉语分词方法[期刊论文]-计算机应用研究2004(3)15.张滨.晏蒲柳.李文翔.夏德麟基于汉语句模的中文分词算法[期刊论文]-计算机工程2004(1)16.YimingYang.JanOPedersenAcomparativestudyonfeatureselectionintextcategorization199717.秦进.陈笑蓉.汪维家.陆汝占文本分类中的特征抽取[期刊论文]-计算机应用2003(2)18.DavidDLewisFeatureSelectionandFeatureExtractionforTextCategorization199219.CooperWSGettingbeyondBoole198820.SaltonG.LeskMEComputerevaluationofindexandtextprocessing196821.MaronMEOnrelevance,probabilisticindexingandinformationretrieval196022.李永平.程莉.叶卫国基于隐含语义的kNN文本分类研究[期刊论文]-计算机工程与应用2004(6)23.王实.高文增强型朴素贝叶斯学习[期刊论文]-计算机科学2000(4)24.刘钢.胡四泉.范植华.王勇.张彤神经网络在文本分类上的一种应用[期刊论文]-计算机工程与应用2003(36)25.VapnikVNTheNatureofStatisticalLearningTheory199526.BottouL.CortesC.DenkerJComparisonofclassifiermethods:Acasestudyinhandwrittendigitrecognition199427.柳回春.马树元支持向量机的研究现状[期刊论文]-中国图象图形学报A辑2002(6)28.张学工关于统计学习理论与支持向量机[期刊论文]-自动化学报2000(1)29.边肇祺.张学工模式识别200030.王国胜.钟义信支持向量机的若干新进展[期刊论文]-电子学报2001(10)31.崔伟东.周志华.李星支持向量机研究[期刊论文]-计算机工程与应用2001(1)32.王亮申.侯杰支持向量机及其核函数2001(12)33.边肇祺.张学工模式识别200034.JohnFoleyManagingInformation:Infoglut199535.KrebelUlrichHGPairwiseclassificationandsupportvectormachines199936.都云琪.肖诗斌基于支持向量机的中文文本自动分类研究[期刊论文]-计算机工程2002(11)37.李蓉.叶世伟.史忠植SVM-KNN分类器——一种提高SVM分类精度的新方法[期刊论文]-电子学报2002(5)38.李红莲.王春花.袁保宗一种改进的支持向量机NN-SVM[期刊论文]-计算机学报2003(8)39.文贵华创新计算的旋转动力学理论200540.文贵华.郑启伦.丁月华创新思维的旋转动力学理论框架[期刊论文]-系统仿真学报2004(8)相似文献(5条)1.学位论文叶志飞并行化最小最大模块化支持向量机及其在专利分类中的应用2009超大规模机器学习问题往往是许多机器学习算法在实际应用中的一大限制。这种大规模问题经常会遇到,比如专利分类。即便是像支持向量机这样高效率的学习算法,面对超大规模的数据,照样会难以克服。在这种情况下,突破单机限制,利用丰富的并行计算资源,解决这些大规模学习问题往往是比较可行的办法。最小最大模块化支持向量机(M3-SVM)是基于“分而治之”的思想解决大规模问题的有效学习算法。它通过分解大规模问题,变成大量小规模问题进行学习,并通过有效的分类器组合算法将他们重新组合,成为大规模问题的原始解,该算法具有天生的并行特性。本研究主要探讨在并行计算环境下,并行M3-SVM的实现和特点,分析其并行训练和测试时间复杂度。在原有的最小最大模块化并行测试算法基础上,提出了基于流水化作业的对称分类器选择(SCS)算法、非对称分类器选择(ACS)算法和决策树分类器选择(TCS)算法。实验证明利用流水化作业的分类器选择算法大大提高了分类器测试的效率。在问题划分环节上,我们提出了质心连线划分方法,在不使用先验知识的情况下,该划分方法有效提高了分类效果。在应用方面,本研究利用并行最小最大模块化支持向量机解决超大规模的专利分类问题。我们主要在计算机集群环境下,对日文专利分类问题进行比较深入的研究。对比M3-SVM与传统SVMlight,我们发现M3-SVM有更高的学习效率和更好的分类精度。此外,因为M3-SVM通过任务分解可以把不平衡的大规模问题分解成许多平衡的子问题,所以它能有效解决不平衡的模式分类问题。本研究在三个不同领域的不平衡数据上,通过实验比较系统地对比了M3-SVM与几种流行的解决不平衡分类问题的方法。实验结果表明,相比代价敏感学习和SMOTE采样等方法,M3-SVM能更有效地解决不平衡分类问题。2.期刊论文梁静.徐亮.程文堂.LiangJing.XuLiang.ChengWentang机器学习算法在药物专利分类中的应用研究-计算机与应用化学2007,24(10)为实现药物专利的自动分类,本文结合药物专利的特点,研究了机器学习算法如何应用于药物专利分类.将2000余份药物专利按疗效分类,选取其中五类作为训练样本,对每一类提取特征文本,利用向量空间模型将非结构化的文本数字化,用支持向量机、NaiveBayes、RBFNetwork三种机器学习算法,分别测试专利样本的分类,使用5重交叉验证比较了三种算法的查准率(precision)和召回率(recall),结果表明支持向量机的分类效果最好.将机器学习算法应用于药物化学专利分类,有助于提高药物化学专利信息检索的效率.3.学位论文褚晓雷基于机器学习的专利分类研究2008实现专利文本的自动分类有着重要的意义。专利以每年几十万条的速度递增,完全依靠人类专家进行分类需耗费大量人力物力。此外,专利分类是专利分析的基础,通过对专利进行分析,可以挖掘出许多有价值的信息,例如某个领域的技术发展趋势,竞争对手的市场策略和研发方向等。然而专利分类是大规模、层次结构、多标号和不均衡的文本分类问题,大多数传统的学习算法都是针对小规模的、单标号且平衡的问题设计的,无法很好地解决类似专利分类这样的复杂问题。支持向量机是一种基于结构风险最小化原则的通用模式分类方法,由于其强大的学习能力和良好的泛化性能,支持向量机已经应用到许多模式分类领域。支持向量机的学习过程是一个求解二次规划问题的过程,其训练时间与训练样本个数接近平方级关系。因此,利用支持向量机解决大规模的实际问题是相当费时的。因此吕宝粮和他的合作者提出了一种并行的支持向量机,称为最小最大模块化支持向量机。它能够将复杂问题分解成一系列简单的容易解决的子问题。这些子问题彼此独立,因此可以利用计算集群实现并行计算。最后将子问题的解通过两条基本的规则进行合并,从而得到原问题的解。本文提出使用最小最大模块化支持向量机来解决专利分类问题。在其基础上,我们提出了利用专利的先验知识的问题分解策略来提高最小最大模块化支持向量机的性能。该分解策略利用了专利的时间信息和分类体系结构的信息,可以实现对问题的有效分解,使得分解结果逼近原始数据的分布情况。传统的分类器如SVM对参数的依赖性较大,为了达到该分类器的最佳性能,需要使用最优的训练参数。然而调参的过程对于大规模的学习问题需要耗费大量的时间。我们发现最小最大模块化支持向量机通过把复杂问题分解为简单子问题,从而降低了与训练参数的依赖性。此外最小最大模块化支持向量机还支持增量学习,这对于专利分类系统具有实际意义。专利分类系统可以学习新的专利知识而无需对已学习过的模块进行反复学习,从而实现快速的系统更新。我们在NTCIR专利数据库上进行的专利分类的仿真实验,比较了不同的数据划分方法的性能以及支持向量机与最小最大模块化支持向量机的各项性能。实验结果证明了基于先验知识的问题划分策略取得了最好的性能,最小最大模块化支持向量机无论是泛化能力还是训练速度都超过了传统的支持向量机。此外我们通过仿真实验,验证了最小最大模块化支持向量机的增量学习能力。4.期刊论文李程雄.丁月华.文贵华.LiChengxiong.DingYuehua.WenGuihuaSVM-KNN组合改进算法在专利文本分类中的应用-计算机工程与应用2006,42(20)提出了基于支持向量机的专利文本分类器的总体设计方案和实现方法;提出并分析了该分类器的改进算法SVM-KNN组合改进算法.文章对两种算法进行了大量的实验并对实验结果进行比较分析,在此基础上得出了三个结论.5.学位论文梁静药物专利的数据挖掘技术研究2007目前,英、美、法等发达国家已经建成了世界权威的专利数据库,对药物化学专利文献处理方面的技术比较成熟,我国近几年也十分重视药物化学信息资源的建设和计算机处理水平的发展并取得了一定的成果。事实证明对专利文献深度挖掘和高技术处理能够明显提高数据库的查全率和查准率,本文以此为出发点,使用目前被广泛应用于各个领域的数据挖掘技术全面处理了药物专利中包含的化学结构图形和文本信息。本论文运用面向对象编程技术,使用C++编程语言完善了本课题组开发的化学结构图形输入输出软件StruDraw,实现了文字向结构图形的翻译功能。用户只需输入要查找的化合物名称便可在图形输出界面得到所需的化学结构图形,免去了费时费力查找资料的过程。本文的重点是药物专利文本信息的处理。保证查全率和查准率的关键在于专利文献的分类准确度,数据挖掘类型之一便是文本的自动分类,机器学习算法是实现数据挖掘技术的手段。本文为实现药物专利分类的机器处理,结合药物专利本身特点,使用机器学习算法实现了专利文本自动分类。首先对,2000余份药物专利按照治疗功能分类,抽取其中五类作为训练样本,对每一类提取特征文本,使用向量空间模型将非结构化的文本进行数字化表示,分别使用支持向量机(SupportVectorMachine,SVM),朴素贝叶斯(NaiveBayes,NB),径向基神经网络(RadicalBasisFunctionNetwork,RBFNetwork)对专利样本进行分类测试,并通过各种分类模型评估指标对这三种分类算法进行了分类性能评估,证明SVM算法在药物专利自动文本分类方面的优越性。使用机器学习算法对药物化学专利分类,取代了以往人工分类的方法,为专利信息检索奠定了基础。本文链接: