第四届“泰迪杯”全国数据挖掘挑战赛优秀作品作品名称:网络招聘信息的数据挖掘与综合分析荣获奖项:特等并获企业冠名奖作品单位:北京林业大学作品成员:孙海锋郑中枢杨武岳指导老师:崔晓晖第1页网络招聘信息的分析与挖掘摘要近年来,随着互联网的广泛应用和网络招聘的迅速发展,网络招聘信息平台已成为招聘者获取信息的主要渠道。因此,运用网络文本分析和数据挖掘技术对网络招聘信息的研究具有重大的意义。对于问题1,通过PositionId对招聘信息表、职位描述表进行去重,得到不重复的招聘职位信息。利用jieba中文分词工具对岗位描述信息进行分词,并通过TF-IDF算法提取每个职位描述的前5个关键词。再利用TF-IDF算法得到每个职位描述的TF-IDF权重向量,采用K-means对TF-IDF权重向量进行聚类,得到7个质心。分别求出距离各个质心最近的5个职位,结合招聘信息表的PositionFirstType字段,根据KNN算法,为各个类加上行业性质标签。再分别对各个职业类型的PositionName进行统计分析,得出各个职业类型对应的专业领域。对于问题2,通过利用excel对去重后的招聘信息表对行业领域、工作地域、职位分类三个项目进行分类筛选,对各个项目的各类内容进行计数汇总统计,根据计数多的内容去定于热门的行业、地域、职位。对于问题3,根据数据挖掘与分析的职位特征,将新兴的职位定义为两大类并分别筛选出来。利用发散性思维,再分别对筛选出来的结果按照城市(city)、公司阶段(financestage)、学历要求(Education)、薪资(Salary)四个方面对其进行多方面系统地统计,结合图表进行分析预测相关职位的需求。对于问题4,通过寻找it职位对应的id的职业描述,并对其分词和it专业语义库构建,在此基础上筛选出所有的it职位。对附件1进行数据预处理,在预处理得到的数据上进行数据初步筛选出it行业的职位。对筛选出的it职位对应的职业id找到职位描述表的职位描述,对该描述构建it专业语义库。判断职业描述表中职位是否符合it职业,通过判断与专业语义库的交集长度来确定是否为it职业并统计地域。对于问题5,根据研究结果,通过分析目前的主要职业类型、职业要求、热门行业及地域、工作经验及就业现状等问题,给在校大学生的就业规划提出可行性的建议。关键词:去重中文分词K-means聚类KNN算法TF-IDF算法预测相关职位第四届“泰迪杯”全国数据挖掘挑战赛(IndustryField)toindustryfield,workarea(City),thepositionclassification(PositionFirstType)classifythreeprojectsselection,allkindsofcontenttocalculatesummarystatisticsforeachproject,accordingtocalculatingmorethancontenttoindustryandregion,duetobepopular,position.Aimingattheproblemofthethird,accordingtothecharactersofthepositionofdataminingandanalysis,definsingthepositionofemergingastwocategoriesandfiltered,respectively.Usingdivergentthinking,andthenwouldgetresultsofscreeningoutrespectivelyaccordingtotheCity(City),phase(Financestage),Education(Education),compensation(Salary)fromfouraspectsonthevariousstatisticssystematically,withthedemandofchartanalysisforecastrelatedposition.Aimingattheproblemoftheforth,bylookingfortheitpositioncorrespondingtotheidofthejobdescription,andthewordsegmentationandbuiltitprofessionalsemanticlibraryonthebasisofscreeningallitposition.Toannex1fordatapreprocessingindatapreprocessingthedataonapreliminaryscreeningthepositionoftheitindustry.Toscreenouttheitpositionsthecorrespondingprofessionalidtofindthejobdescriptiontableinthejobdescription,descriptiononthebuilditprofessionalsemanticrepository.Determiningthejobdescriptioninthetablepositionisinlinewiththeitprofession,throughthejudgmentandprofessionalsemanticrepositorytodeterminewhethertheintersectionoflengthfortheitprofessionalandstatisticalarea.Aimingattheproblemofthefifth,accordingtotheresearchresults,throughtheanalysisofthecurrentmainprofessionaltype,theprofessionalrequirements,popularindustryandregion,workexperience,andtheproblemofemployment第四届“泰迪杯”全国数据挖掘挑战赛第四届“泰迪杯”全国数据挖掘挑战赛、挖掘目标......................................................................................................................................62、分析方法与过程.........................................................................................................................62.1问题1分析方法与过程......................................................................................................72.1.1流程图............................................................................................................................72.1.2数据预处理...................................................................................................................72.1.3职业类型的分类..........................................................................................................92.1.4Knn最邻近分类算法2..........................................................................................112.2问题2分析方法与过程....................................................................................................122.2.1数据筛选