2018年第12期ChinaComputer&Communication基于Python的网络爬虫系统的设计与实现刘 杰 葛晓玢 闻顺杰(铜陵职业技术学院信息工程系,安徽铜陵244061)互联网发展至今已成为人类日常工作与生活中获取信息的主要途径之一。传统的信息获得方式主要是用户使用搜索引擎搜索信息,这种方式虽然具有出色的搜索速度,但也存在着搜索信息与所需信息契合度不高、信息未进行有效分类等不足。因此,如何提升用户信息搜索的质量就成为了互联网从业者当前关注的重点,而其中的很多人都将研究重点放在了通过系统层面改善用户信息获取质量上。笔者介绍一种基于Python的网络爬虫系统的设计要求,具体阐述如何实现信息的高质量获取。Python;网络爬虫系统;搜索引擎号:TP393.092 文献标识码:A 文章编号:1003-9767(2018)12-092-03DesignandImplementationofWebCrawlerSystemBasedonPythonLiuJie,GeXiaobin,WenShunJie(DepartmentofInformationEngineering,TonglingPolytechnic,TonglingAnhui244061,China)Abstract:ThedevelopmentofInternethasbecomeoneofthemainwaystoobtaininformationindailyworkandlife.Thetraditionalwayofobtaininginformationisthatusersusesearchenginestosearchinformation.Thisway,althoughithasexcellentsearchspeed,therearealsoshortcomingssuchaspoormatchingdegreeofsearchinformationandrequiredinformationandnoeffectiveclassificationofinformation.Therefore,howtoimprovethequalityofuserinformationsearchhasbecomethefocusofInternetpractitioners,andmanyofthemfocusonimprovingthequalityofuserinformationacquisitionthroughthesystemlevel.TheauthorintroducesthedesignrequirementsofawebcrawlersystembasedonPython,andspecificallydescribeshowtoachievehighqualityinformationacquisition.Keywords:Python;networkcrawlersystem;searchenginesPythonPythonPythonPythonPython2.1Python2017铜陵职业技术学院科研重点项目“基于网络爬虫的Web漏洞扫描的研究与设计”(项目编号:tlpt2017NK002);2016安徽省教研一般项目“基于‘以赛促改、以赛促练、以赛促教、以赛促学’协同的高职网络技术专业实践教学模式构建与实施”(项目编号:2016jyxm1063)。刘杰(1983-),男,安徽铜陵人,硕士研究生,讲师。研究方向:计算机网络和系统安全。2018年第12期ChinaComputer&CommunicationPythonurlliburllib2PythonScrapyHTML2.23.1URLURLURL3.2URLURL4.1DNSCookiesUserAgentRefererSessionDNSURLURLURLURLURLDNSDNSURL4.2HTMLHTMLHTMLXPath962018年第12期ChinaComputer&CommunicationArcgisForServerAjaxGPNDVI[1],,.ArcGISServer[J].,2012,28(6):113-115.[2],,.RESTAJAXWebGIS[J].,2013,36(7):57-59.[3].Landsat8[J].,2015,38(S2):383-386.XPathXPathget_titletitle=responsexpath/html/head/title/text().extract()PythonPythonWeb[1].Python[J].,2017(9):26-27.[2],,,.Python[J].,2016(8):17-19.[3].python[J].,2016(6):00028.[4].Python[J].,2017,13(12):47-49.[5].Python[J].,2017(23):248-249.[6],.Python[J].,2017(8):72-73.[7].python[J].,2017(9):44-45.93