3面向文本分类的特征词选取方法研究

shanda494827
1 ℃
2020-03-14

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

合肥工业大学硕士学位论文面向文本分类的特征词选取方法研究姓名：陈键申请学位级别：硕士专业：计算机技术指导教师：胡学钢;王韦伟20090909://://://://://://://://://://://://://://://://://://://://://://://://://面向文本分类的特征词选取方法研究作者：陈键学位授予单位：合肥工业大学相似文献(6条)1.学位论文郑良夫基于多级模糊识别的文本自动分类的研究2002该文提出了一种基于多级模糊识别的文本自动分类体系.在文本的表示方式上,采用了以词语表示文本的方式,对文本进行以词为单位的切分.在词频统计上,提出了基于位置加权的词频统计方式.鉴于标题、摘要等特殊位置处的词反映文本内容的能力更强,针对不同特殊位置的词给予不同的加权系数,综合后得到各文本的词频向量.在特征词的选取上,提出了基于综合指标的有效特征词的选取原则.词在类内分布的均匀性指标,词在类内分布均匀,则它在某类的算术平均词频值才能体现它在该类中的总体分布,按照类内方差的阈值筛选特征;词频指标,低频词具有一定的偶然性,对分类效果会产生负面影响,过滤那些每个类的词频均值都低于某阈值的词;类间差异性指标,特征词对各个类的区分性较强,按照词的类间方差阈值选取一定数量的特征词,这样形成最后的特征词集合.文本分类采用基于模糊模式识别的分类器.在结构上提出一种多级的分类结构.模糊分类器是通过计算测试样本模糊集与标准类别模糊集之间的贴近度对文本进行归类.如果第一级分类结果不能满足阈值的要求,则在测试样本最可能属于的标准类别子集范围内再进行二级分类以提高分类的性能.实验数据表明了该系统的可行性.2.期刊论文陈键.胡学刚.CHENJian.HUXue-gang词分布均衡度评价特征词选取方法的文本分类-安徽科技学院学报2009,23(2)对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均衡度评价的支持向量机文本分类算法,并实验证明其优越性.3.学位论文戴劲松基于内容的中文垃圾邮件过滤系统研究与实现2005本文在深入研究垃圾邮件的特点及其产生的根源、现有反垃圾邮件技术的优劣、中文分词技术、文本分类技术的基础上，将目前最优秀的中文分词技术与贝叶斯方法相结合，提出了针对中文特点的基于内容的邮件过滤方法。在该方法中，对中文分词技术的处理结果进行了适合邮件过滤问题特点的再处理，对贝叶斯方法中的特征词选取、邮件信息的计算方法、阈值选择与设定等关键问题做了改进。基于上述方法实现了基于内容的邮件过滤系统，经实验测试及与其它系统对比，本文实现的系统在中文邮件过滤方面具有突出性能。4.学位论文刘杰知识管理系统中的知识树的自动构建技术研究2009我们正处于一个知识经济的时代，知识正取代传统的土地、自然资源、资本和劳动力成为推动社会进步与发展的主要力量。知识经济在客观上要求有与之相适应的管理模式和理论，以及有效的技术手段。基于这个背景，本文着重研究和探讨了文本知识管理中知识树的自动构建，文本特征选择方法，并设计和实现了一个知识管理原型系统。具体来说有以下几个方面：(1)基于文本聚类方法设计了一种新的知识树构建方法。针对当前知识管理系统中知识树的创建和维护问题，设计了一种新的基于文本聚类的知识树构建方法。由于从传统的K-means和SOM等文本聚类的结果中难以提取知识树中节点对应的概念和词汇列表，本文选取概率潜在语义分析(ProbabilisticLatentSemanticAnalysis，简称PLSA)方法进行聚类和知识层次树构建。实验表明，新方法除了在聚类精确度上优于传统方法，聚类结果还包含文档的主题与词汇之间的概率关系，因此新方法在聚类的同时，可以方便的提取知识树上每个节点对应的概念或概念集合。(2)基于潜在语义信息提出了一种新的特征词选取方法。特征选择在文本分类中起着重要的作用。文档频率(documentfrequency,简称DF)、信息增益(informationgain,简称IG)和CHI以及类别区分词(category-discriminatingword,简称CDW)等特征选择方法在文本分类中广泛应用。上述特征选择方法基于概率统计和信息论的理论提取对分类贡献值大的词，而没有考虑词的语义信息。为此，基于词的潜在语义信息提出了一种新的文本特征选择方法。实验结果表明，新方法能有效的提高文本分类的性能。(3)基于以上工作，设计和实现了一个基于文本知识的组织知识管理系统，系统中集合了知识获取模块，知识管理模块，知识共享模块。同时，系统中提供丰富的接口供特定的组织和个人对其进行定制开发。关键词：知识管理，知识树构建，文本特征选择，PLSA，文本分类5.期刊论文王涛.裘国永.何聚厚.张娇艳.WANGTao.QIUGuo-yong.HEJu-hou.ZHANGJiao-yanNaiveBayes邮件过滤模型的特征词选取方法研究-航空计算技术2008,38(2)将文本分类中的各种特征词选取方法引入到NaiveBayes邮件过滤模型(NBF)中,包括文档频度、信息增益、互信息、期望交叉熵、文本证据权、几率比及x2统计量.分析比较了这些方法的特点.实验结果显示在NBF中采用x2统计量选取邮件特征词有最好的效果.6.学位论文王涛基于统计模型的垃圾邮件过滤技术研究2007电子邮件已经成为人们日常生活中通信、交流的重要手段之一。但电子邮件给用户带来便利的同时，也遭到了一些人的滥用，结果就是有大量的垃圾邮件充斥Internet，给用户和ISP造成了巨大的损失。因此，反垃圾邮件成为Internet目前亟待解决的问题。目前常用的反垃圾邮件技术主要有：基于信件源的技术和基于内容的技术两类。其中基于内容的技术主要是将数据挖掘和机器学习的理论引入到垃圾邮件内容过滤中来，又可分为基于规则和基于统计两类。在众多基于统计的方法中，朴素贝叶斯(NaiveBayes，NB)是一种简单的机器学习方法，它通过区分垃圾邮件(Spam)和正常邮件(Ham)的特征构建统计模型进行自学习。在新邮件到来时，由分类器根据训练学习的统计规律预测新邮件为垃圾邮件或正常邮件的可能性，将邮件归入可能性最大的那一类。NB以其运算速度快、易于实现等特点在垃圾邮件过滤中得到了广泛的应用。NB垃圾邮件过滤模型(NBF)中的关键问题有：邮件文本的形式化描述，特征词选取方法，概率计算模型等。本文针对这些问题进行了深入的研究，在分析传统方法的基础上，对其进行了有效的改进，并做出了一些大胆的尝试。本文主要研究了以下内容：1)概述了垃圾邮件过滤问题的研究现状，包括垃圾邮件的定义、危害、特征分析以及常用的过滤技术；2)介绍并详细分析了通用的邮件语料库以及评价体系；3)详细分析了传统的NBF模型的实现方法及关键问题；4)将文本分类中常用的特征词方法引入NBF模型中，综合分析各种方法的特点，通过实验发现在Ling-Spam语料上采用CHI方法能使NBF过滤效果最优；5)针对期望交叉熵(ECE)特征词选取方法的不足，提出了改进的期望交叉熵(AECE)选取方法；)综合分析了NBF中现有的概率计算模型，通过实验比较，选出了最优计算模型，在计算模型的最优选择和特征词选取方法优化的基础上，提出了在分类时通过特征词加权的方法，提高过滤精度，从而实现了改进NaiveBayes的垃圾邮件过滤模型(A-NBF)；7)综合分析了传统的基于最小风险的NaiveBayes过滤模型的特点，提出一种新的过滤模型一基于直线几何分割的贝叶斯邮件过滤模型(LGDNBF)，定义了新的风险因子，以更加准确地描述风险，从而提高了过滤精度。本文链接：授权使用：吕先竟(wfxhdx)，授权号：eb2801db-92e3-4148-b7a5-9e1100a03796下载时间：2010年10月16日