中文文本分类算法设计及其实现

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

毕业设计(论文)任务书毕业设计(论文)题目中文文本分类算法的设计及其实现电信学院计算机系84班学生姓名丰成平学号2008055089指导教师相明设计所在单位西安交通大学计算机系2013年6月西安交通大学本科毕业设计(论文)系(所)计算机科学与技术系(所)主任批准日期毕业设计(论文)任务书电信学院计算机系84班学生丰成平毕业设计(论文)工作自2013年2月21日起至2013年6月20日止毕业设计(论文)进行地点:西安交通大学课题的背景、意义及培养目标随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。设计(论文)的原始数据与资料1、文本语料库(分为训练集与测试集语料库)。2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。3、中科院文本分词工具(nlpir)。4、文本分类中需要用到的各种分类方法的资料描述。课题的主要任务毕业设计(论文)任务书1.学习文本特征向量的构建方法及常用的降维方法。2.学习各种分类器的基本原理及其训练与测试方法。3.设计并编程实现文本分类器。4、对试验结果进行分析,得出各种结论。5、撰写毕业论文。6、翻译一篇关于文本分类的英文文献。课题的基本要求(工程设计类题应有技术经济分析要求)1、程序可演示。2、对源代码进行注释。3、给出完整的设计文档及测试文档。完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等)1、提交毕业论文2、提交设计和实现的系统软件源程序及有关数据3、提交外文资料翻译的中文和原文资料主要参考文献:自然语言处理与信息检索共享平台:(支持向量机)算法:基于神经网络的中文文本分析(赵中原):的线性图解:东南大学向量降维文献:指导教师相明接受设计(论文)任务日期2013-02-21~2013-06-20学生签名:毕业设计(论文)任务书西安交通大学毕业设计(论文)考核评议书院系(专业)班级指导教师对学生所完成的课题为的毕业设计(论文)进行的情况,完成的质量及评分的意见:指导教师年月日毕业设计(论文)评审意见书评审意见:评阅人职称年月日西安交通大学本科毕业设计(论文)毕业设计(论文)答辩结果院系(专业)毕业设计(论文)答辩组对学生所完成的课题为的毕业设计(论文)经过答辩,其意见为并确定成绩为毕业设计(论文)答辩组负责人答辩组成员年月日摘要1论文题目:中文文本分类算法的设计及其实现学生姓名:丰成平指导教师:相明摘要随着当今社会,计算机的普遍使用,出现了连绵不断的文本文件,如何对这些毫无逻辑、毫无层次的文件进行分门别类的整理,做到井井有条,层次鲜明呢?文本自动分类就是针对上述情况,采用机器,通过一定的约束条件和一些分类算法,自动的对这些文件进行遍历,从而实现分门别类。这样用机器代替人来“阅读”文章,用机器代替人来“整理”文章,不仅减轻了工作人员的负担,而且大大节省了时间,工作人员可以去做更多有意义的事情。文本分类主要有以下三个方面:第一、文本的空间向量表示:由于计算机并不能识别真正的文本,本质上只懂得0,1,因此若要对文本进行分类,首先要让计算机能够“读懂”每篇文章,引入文本空间向量表示,将文章里面的特征词形成空间向量,通过计算向量之间的差距,来实现分门别类。第二、文本特征的降维:由于中文词汇成千上万,那么形成的文本向量肯定也很长,计算起来会很麻烦,因此要对向量进行处理。第三、文本分类器的设计:文本分类方法例如:KNN、朴素贝叶斯、SVM、决策树,BP神经网络,运用这些算法设计分类器,从而处理文本向量之间的关系,实现对文本的分门别类。最后,将文本分类运用于众多领域,例如:信息过滤、文档管理、网络安全、电子图书整理、网络图书馆,搜索引擎,这样则不是通过关键字过滤,而是基于文本内容的过滤或者是搜索,能大大提高过滤的可靠性以及搜索的准确性,无疑使文本领域的一项重大的突破关键词:文本向量;特征降维;分类算法;分类器设计。西安交通大学本科毕业设计(论文)2Title:ThedesignandimplementationofChinesetextclassificationalgorithmName:FengChengpingSupervisor:XiangMingABSTRACTWithtoday'ssociety,thewidespreaduseofcomputers,thecontinuousofthetextfile,howaboutthesenologic,nolevelofsort,classifyfilesondoinperfectorder,hierarchyandbright?Textautomaticclassificationisaccordingtotheabovesituation,usingthemachine,throughacertainconstraintconditionandsomeclassificationalgorithm,automatictotraversethesefiles,soastorealizeclassify.Sousingmachinesinsteadofpeopletoread,tofinish,replacingworkerswithmachinesnotonlyreducetheburdenofthestaff,andgreatlysavestimeandstafftodomoremeaningfulthings.Textclassificationismainlyhasthefollowingthreeaspects:First,Textspacevectorsaid:becauseofthecomputerandcan'tidentifytherealtext,essentiallyunderstandonly0,1,soifyouwanttocategorizetext,firstofall,allowthecomputertoreadeacharticle,introductionoftextvectorspace,saidthearticleintheformationofkeyspacevector,vectorbycalculation,thegapbetweentoclassify.Second,Textfeaturedimensionreduction:duetothehundredsofthousandsofChinesevocabulary,thenformthetextvectorisalsoverylong,calculateitwillbeverytrouble,sowanttodealwithvector.Third,Textclassifierdesign:textclassificationmethodforexample:KNN,naivebayes,theSVMandthedecisiontree,BPneuralnetwork,usingthesedesignclassifieralgorithm,toprocessthetextvector,therelationshipbetweentheimplementationoftextcategorization.Finally,thetextclassificationusedinmanyfields,suchas:informationfiltering,documentmanagement,networksecurity,electronicbooksandnetworklibrary,searchengine,itisnotbykeywordfiltering,butbasedontextcontentfilterorsearch,cangreatlyimprovetheaccuracyofthereliabilityofthefilterandsearch,nodoubtmakeasignificantbreakthroughinthefieldoftextKeywords:textvector;Characteristicswillbe;Classificationalgorithms;Classifierdesign.Keywords:textvector;featurereduction;Classificationalgorithms;Classifierdesign.目录3目录第一章绪论......................................................................................................................61.1、文本分类背景和意义.............................................................................................61.2、文本分类的应用领域.............................................................................................61.2.1、Internet上面应用.............................................................................................61.2.2、网络图书馆方面的应用...................................................................................71.2.3、网络安全方面...................................................................................................71.2.4、电子邮件方面...................................................................................................71.3、目前国内外研究现状.............................................................................................71.4、文本分类的发展趋势展望.....................................................................................81.5、本章小结..................................................................................

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功