基于大数据文本聚类关联的网络招聘信息挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

教学单位湖北工程学院学生学号012301124127本科毕业论文(设计)题目基于大数据文本聚类关联的网络招聘信息挖掘学生姓名郑小乐专业名称统计学指导教师张学新2016年4月5日目录1、引言..........................................................................................................................11、引言.............................................................................................................................................12、网络招聘信息挖掘综述.............................................................................................................12.1文本挖掘定义及特点.................................................................................................................12.1.1文本挖掘的定义......................................................................................................12.1.2文本挖掘的特点......................................................................................................12.2文本挖掘及其网络招聘信息挖掘的现状.................................................................................23、网络招聘信息挖掘步骤.............................................................................................................33.1读取网页招聘信息文本文件.....................................................................................................33.2招聘信息文本分词.....................................................................................................................43.2.1分词..........................................................................................................................43.2.2设置频繁出现的领域干扰词..................................................................................53.3词频统计与词云.........................................................................................................................63.4招聘信息文本聚类分析.............................................................................................................73.4.1特征词权重..............................................................................................................73.4.2TF-IDF法计算关键词权重.....................................................................................83.4.3相似度计算..............................................................................................................83.4.4创建文本—词条矩阵..............................................................................................93.4.5K-均值聚类...............................................................................................................94、招聘信息文本Web图分析......................................................................................................125、建议...........................................................................................................................................13参考文献.........................................................................................................................................15附录.................................................................................................................................................16致谢.................................................................................................................................................18基于大数据文本聚类关联的网络招聘信息挖掘摘要:随着计算机网络技术的迅速发展,网络招聘信息平台已成为招聘者发布信息和应聘者获取职位的主要途径。大量的网络招聘信息蕴含着用人单位丰富的需求知识,诸如对人才的能力、素质等方面的要求。本文自行爬取2015年11月-2016年4月拉钩网24万5千多条企业招聘信息,使用R语言编程,通过中文分词,设置频繁出现的领域干扰词,词频统计,文本向量化,应用k-均值聚类及网状Web图方法分析社会各行业对人才的能力及素质要求,描绘企业基本信息、薪资水平、工作经验要求间的关联强度,给高校及时了解社会对人才的需求变化,有针对性的调整人才培养方案以及应届毕业生求职提出有益建议。关键词:大数据;网络招聘信息;聚类分析;Web图;R语言编程OnlinerecruitmentinformationminingbyvastamountsoftextclusteringandassociatingAbstract:Companyingwithcomputernetworktechnologyrapiddevelopment,networkrecruitmentinformationplatformhasbecomeamainwayforrecruitertoreleaseinformationandforjobseekertogetjob.Alargenumberofnetworkrecruitmentinformationcontainstheknowledgeofdemandofunitsforemployees,suchastherequirementoftalents'abilityandquality,etc.Inthispaper,morethan24,5thousandsenterprisesnetrecruitmentinformation,fromNovember2015toApril2016inLagounetarecrawledout.throughsettingfrequentfielddisturbanceterms,Chinesewordsegmentation,wordfrequencystatistics,textvectorization,k-meansclusteringusingRlanguageprogrammingandWebdiagrammethodareappliedtoexcavateabilityandqualityrequirementsfromsocialvariousindustriesfortalents,todescribethecorrelationstrengthsamongenterprisebasicinformation,wages,jobexperiencerequirementsforemployees.Finally,somebeneficialsuggestionsareputforwardforcollegesanduniversitiestotimelyunderstandofthesocialdemandfortalentsandtargetedadjustthetalenttrainingscheme,andsomereferenceareprovidedforthefreshgraduatestoapplyforajob.Keywords:Bigdata;Networkrecruitmentinformation;Clusteringanalysis;Webgraph;Rlanguageprogramming11、引言随着互联网技术的迅速发展,网上信息呈爆发式增长,这种增长超过了创造机器的速度,甚至超过了人们的想象。数据库中以文本形式存储的信息越来越多,包含各种数据源的文本,如研究报告、研究论文、数字图书馆、电子邮件和页面等。这些信息的存储方式分为两大类:一是可以用数字、符号等表示的结构化数据,另一类则是非结构化数据。其中非结构化数据的挖掘更难。当今,众多用户开始显示出对文本挖掘的兴趣,希望挖掘出有用的信息、规则。例如,企业把人才招聘信息越来越多的发布到互联网上,这些招聘信息含有用人单位对人才的需求及能力要求,在一定程度上代表了人才需求的未来走向。高校希望利用现代技术手段从互联网上获取有用信息,分析用人单位对人才的需求特点,及时了解社会对人才的需求变化情况,有针对性的调整人才培养方案和设置相关课程,培养出更多的优秀人才以满足社会的需求。应聘者也需要从网络招聘信息平台获取信息,做好

1 / 21
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功