基于网络爬虫的招聘信息可视化分析系统

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于网络爬虫的招聘信息可视化分析系统摘要:随着信息化时代的降临,当今世界信息化水平也越来越高。越来越多的招聘信息在网络上发布,这就使得应聘者在眼花缭乱的招聘信息中不知如何选择最适合自己的工作。因此需要对这些海量的招聘信息进行更深入的更高层次的分析。系统通过网络爬虫技术对网络上海量的招聘信息进行爬取,并对其进行相关的数据清洗工作,对清洗后的数据进行可视化分析。实现了对爬取到的招聘信息进行分类查看、模糊查询以及多条件联合查询,按关键字对招聘信息进行爬取等功能。随着大数据分析技术日渐成熟,可以在合理的时间内对海量的数据进行管理、整理以及分析,从而发掘出数据之间隐藏的关联规则以及预测未来的发展趋势。关键词:招聘信息;数据可视化分析;网络爬虫随着大数据的相关知识在这个时代越来越普及,我们这个时代即将迎来大数据的黄金时期,大数据已经有着越来越重要的战略意义[1]。对于招聘信息而言,每天都会有海量的招聘信息发布在网络上,在不同的网站上有着各种不同的招聘信息,然而数据库只能满足对这些数据的增加、修改、删除、查询等简单的功能,这些简单的功能无法深层次的发掘这些数据源的潜在价值,发挥数据源应有的效益[2]。应聘者往往希望找到最适合自己的工作,诸如介于工作地点,工作报酬,工作经验,以及学历的要求,导致应聘者很难从海量的招聘信息中获取到最适合自己的工作信息[3]。大数据分析技术可实现高度自动化的对数据进行分析,发掘数据中隐含的、未知的、潜在的趋势和模型,有助于发现业务的趋势,控制风险[4]。因此。对于招聘信息大数据的可视化分析是有其可行性的,通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。因此本项目开发了一款招聘信息可视化分析系统。因此对于招聘信息大数据的可视化分析是有其可行性的,通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。因此本项目开发了一款招聘信息可视化分析系统。在实际的运行中规避风险,帮助数据分析这作出合理的决策,从而实现效益的最大[5]。1系统简介基于网络爬虫的招聘信息可视化分析系统基于B/S架构,整个系统可以分为数据爬取模块、数据可视化分析模块、用户功能模块三大模块。功能结构图如图1所示。图1系统功能结构图本文以对前程无忧以及智联招聘的招聘信息可视化分析业务为例,介绍数据分析模块的需求分析、设计与实现。2系统需求分析招聘信息的可视化分析包括数据的整理,清洗以及绘制可视化图形。主要业务流程是后台管理员通过指定关键字从智联招聘或者前程无忧上获取相关的招聘信息,将获取到的数据保存在本地数据库中,然后通过对可利用的数据进行清洗工作,筛选出可以进行统计分析的招聘信息,最后通过管理员将可视化的分析结果上传到网站上。(1)能够实现将MySql数据库中的相关工作的数据转存为JSON格式,并保存在本地服务器上,以供后续进行数据可视化分析。(2)能够将JSON格式的数据导入使用Python编写的使用pandas库的数据格式——DataFrames中,从而对数据进行数据清理,从而将冗余的重复的无用的信息排查出去,并且对数据进行分类整理,聚类分析。(3)招聘信息经过数据清洗之后,筛选出来的可用的信息再进行可视化分析:工作月薪—工作地点分布关系图、工作月薪—工作经验分布关系图、工作月薪—最低学历—工作经验分布关系图、工作数量—工作地点分布关系图、最低学历—工作数量分布关系图、工作数量—工作经验分布关系图。招聘信息可视化分析系统数据爬取爬取智联招聘信息数据分析用户功能爬取前程无忧招聘信息对招聘信息可视化分析按关键字爬取招聘信息查看与检索招聘信息查看可视化分析结果招聘信息可视化分析用例图如图2所示。图2招聘信息可视化分析用例图查看可视化分析用例描述如表1所示。表1招聘信息可视化分析用例描述标题说明用例名称查看可视化分析分布图用例标识号Report001简要说明用户可以通过可视化分析页面查看可视化分布图,分布图主要包括前程无忧和智联招聘两个数据来源的可视化分析,用户可以点击图片放大查看,可以点击下一张按钮上下移动右侧缩略图。前置条件用户打开可视化分析页面。基本事件流1.用户点击右侧分布图的缩略图。2.用户点击页面中间的主浏览图片放大查看,点击翻页按钮实现图片的分页下滑。3.用例终止。其他事件流若用户没有点击任何按钮,默认显示数据库中第一张图片。异常事件流1.提示数据库中没有已分析结果,用户确认。2.返回到可视化分析页面。后置条件跳转招聘信息可视化分析主界面,查看成功。查看可视化分析用户智联招聘信息爬取相关招聘信息前程无忧招聘信息3系统的设计可视化分析模块实现的主要功能是对从智联招聘和前程无忧上爬取到的数据进行可视化分析,即对爬取到的数据进行关联分析,对每一个字段进行统计,并将统计的结果通用Python中Matplotlib库相关方法将数据可视化[6]。招聘信息可视化分析活动图如下图3所示:图3招聘信息可视化分析活动图通过对系统各个模块的需求分析,设计得到系统类图如图4所示。发布可视化分析结果通过爬虫爬取信息数据验证丢弃无效信息不通过可视化分析结果审核对招聘信息进行清洗通过对招聘信息进行可视化分析不通过保存清洗后的数据将招聘信息分类通过本地服务器系统管理员图4系统类图4系统的实现对招聘信息可视化分析业务具体实现是通过将MySql数据库中的相关工作的数据转存为JSON格式,并保存在本地服务器上。之后将JSON格式的数据导入使用Python编写的使用pandas库的数据格式——DataFrames中,从而对数据进行数据清理,从而将冗余的重复的无用的信息排查出去,并且对数据进行分类整理,聚类分析。招聘信息经过数据清洗之后,筛选出来的可用的信息再进行可视化分析:的到工作月薪—工作地点分布关系图、工作月薪—工作经验分布关系图、工作月薪—最低学历—工作经验分布关系图、工作数量—工作地点分布关系图、最低学历—工作数量分布关系图、工作数量—工作经验分布关系图。招聘信息可视化分析顺序图如图5所示。图5招聘信息可视化分析顺序图实现对招聘信息的可视化分析的数据清理部分代码如下所示。foriinrange(len(df['ZWnum'])):#处理职位数量try:item=df['ZWnum'].iloc[i].strip()result=re.findall(pattern,item)ifresult:df['num'].iloc[i]=result[0]exceptExceptionase:continuedf_city=df['ZWadd'].copy()pattern2=re.compile('(.*?)(\-)')#处理工作地点foriinrange(len(df['ZWadd'])):item=df['ZWadd'].iloc[i].strip()result=re.search(pattern2,item)ifresult:df_city.iloc[i]=result.group(1).strip()else:df_city.iloc[i]=item.strip()df['add']=df_cityself.log.info(u'json数据清洗完毕')运行结果图如图6所示。管理员管理员爬虫程序爬虫程序进行可视化分析进行可视化分析业务逻辑层业务逻辑层数据库数据库1.招聘信息关键字2.数据清洗3.提交已清洗的招聘信息4保存数据5.提交可视化申请6.招聘信息关键字7.返回招聘信息8.进行可视化分析9.审核可视化分析结果10.保存可视化分析结果图6最低学历-工作经验-平均月薪分布图5结束语本文通过对招聘信息的可视化分析业务为例,详细介绍了基于网络爬虫的招聘信息可视化分析软件的需求分析、设计与实现。对于招聘信息而言,每天都会有海量的招聘信息发布在网络上,在不同的网站上有着各种不同的招聘信息。通过对招聘信息的可视化分析有利于应聘者发现最适合自己的工作。参考文献[1]吴俊锋.基于Django的高性能计算Web系统的设计与实现[D].成都:电子科技大学,2016.[2]刘文哲.词语关联搜索查询系统的设计与实现[D].武汉:华中科技大学,2015.[3]熊晟.知识库质量控制平台的设计与实现[D].北京:北京交通大学,2016.[4]周嫣然.基于大数据时代的数据可视化应用分析[J].网络安全技术与应用,2014,(11):47-48.[5]杨超明.基于.NET框架的高职就业管理系统的设计与实现[D].长沙:湖南大学,2016.[6]王囝囝,杨树,毕焘.大数据时代数据信息可视化的研究[J].通讯世界,2015,(14):185-186.[7]HuangZ,ZhangL,XuR,etal.ApplicationofbigdatavisualizationinpassengerflowanalysisofShanghaiMetronetwork[C].IEEEInternationalConferenceonIntelligentTransportationEngineering.IEEE,2017:184-188.项目基金:江西省高等学校科技落地计划项目,项目编号为KJLD14054。

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功