浅议WEB数据挖掘技术在政府采购中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1浅议WEB数据挖掘技术在政府采购中的应用丁伟边漫远陈超政府采购平台网站包括信息公告、注册与资格审核、电子招投标、审批与后续管理等内容,关系着公共部门、采购代理机构与供应商等多方利益,涉及面广,信息量大,亟待应用web挖掘技术进行高效地管理。一、政府采购平台网站的数据来源与类型所谓的Web数据挖掘技术是指面向网站的数据抽取与分析过程,它不仅能汇总查找网站资源中的已存在信息,还能识别发现其中隐含的、有效的规律。政府采购网站平台上可供web挖掘使用的数据来源和类型主要有:1)用户与评价数据:指注册用户信息和客户评价信息。其中,注册用户包括政府采购需求方和供应商,用户信息涵盖名称、组织机构编码、单位性质或经营范围等内容。评价信息是指用户对政府采购物品与服务的质量、采购效率等方面提出的反馈意见。2)使用记录数据:指对政府采购网站的浏览行为与服务器的访问,被网络日志记录下来内容,包括时间、客户端IP地址、调用的Web应用程序所使用的参数等。3)网页内容数据:指平台网页上的HTML和XML等文档、音频、视频、图片,Flash等各种资源,还包括动态脚本生成的数据、嵌入在网站或单独页面中的元数据等。4)网页结构数据:指描述网页组织方式的数据,平台网页内结构可用超文本标记成树形结构,从而反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等;网页间结构也要用超链结构表示,它展示了以设计者的角度所看到的政府采购网站的组织结构。二、web挖掘的主要方法1、内容挖掘。政府采购网站要求有明确的主题内容和大量的资料性信息积累,Web内容挖掘就是对这些“内容”进行总结、分类、聚类、关联分析,以及利用web文档进行趋势预测等,是从web文档内容或其描述中抽取知识的过程。目前的研究方法主要有利用词频统计、分类算法、机器学习、隐藏模式发现等技术。Web内容挖掘按实现方法分为两大类:信息检索(informationretrieve,IR)方法和信息抽取(InformationExtraction,IE)。其中,IE主要采用数据库方法,IR主要采用自然语言分析方法。以文本内容为例,挖掘目的包括文本主题的类属和文本内容的浓缩,所涉及的具体技术包括:①特征抽取,分为一般特征与数学特征,其中,一般特征主要包括名词和名词短语;数字特征主要包括日期、时间、货币以及单纯的数字参数。②主题标引,是指利用主题词标引代替关键词标引。③文本分类,指预先对文本进行特征抽取,利用文本特征向量进行分类,按照内容将自然语言文本自动地分配给预定义的类别。④文本聚类,不同于文本分类,它的划分类的标准是未知的,因而仅根据文本的相似度进行聚类。⑤自动摘要,指通过系统分析文本内容,找出主题语句和核心重点,经整理组合,构成摘要的过程。2、结构挖掘。从政府采购网站设计角度而言,评价标准包括:①页面易用性,即用户使用时是否方便,页面布局是否合理;②可扩充性,即添加一个栏目或更新内容时是否方便;③兼容性,即页面转换以及在各种浏览器不同分辨率下能否正常运行等。Web结构挖掘就是分析页面的结构和Web间的结构,一方面解决上述的网站设计问题,另一方面对页面和超链接关系进行分类和聚类,从而发现那些包含于超文本结构互相关系以及文档结构中的个性化信息。Web结构挖掘主要技术有机器学习、专有算法等,一般以图的形式,实现页面权重分析和模式发现。23、用户行为挖掘。政府采购网站用户使用Web获取信息的过程中,需要不停地从一个Web站点通过超文本链接跳转到另一个站,这种过程在Web上每一个提供信息资源的服务器上都有一个结构好的记录集,即Web访问log日志,包括服务器端的serverlog、proxyserverlog和客户端的cookielog等。每当有获取资源的请求到来时,Web服务器都将记录和积累了所访问的页面、时间和用户ID等信息,Web客户行为挖掘主要通过分析用户访问Web的记录,包括注册信息、用户会话信息交易评价信息、上网时间、浏览速度、点击流量等一切用户与站点之间可能的交互记录,了解客户需求与特征,对客户行为进行合理预测与识别。对用户行为挖掘采用的算法有:路径分析、关联规则及有序模式的发现、聚类分析等。三、应用优势简述Web挖掘技术的应用可以在平台建设、运营效率和安全维护上发挥有益的功效。1、平台建设更加优化。随着云存储术技术的不断发展,政府采购网上数据规模呈指数级增长。以“中央政府采购网”为例,近期在网站上新增了“网上商城”栏目,引入了“苏宁易购”、“国美在线”和“天猫商城”三家中标电商,极大地丰富了网页内容。用户面对如此众多的资源,一方面为能获得丰富的信息而感到高兴,但另一方面又为如何从这些信息资源中快速的找到自己所需要的东西而烦恼,因此,迫切需要一种高效快速的信息资源分析工具,帮助用户快速浏览网络,并能从这些大量的信息中找出隐含的内容,减少用户的负担。通过WEB挖掘,可以进一步在扩充文本、照片、视频等多媒体内容以及供需、性能、比价等信息规模的基础上,实现对相关海量信息的充分覆盖与高效处置。2、运营效率进一步提升。对需求方而言,通过政府采购招标信息的非结构文本聚类与摘要,以及对需求商品参数相似度的web内容挖掘,可以将政府采购需求根据“事务识别”,进行商品、服务的归并,有利于更好地发挥规模效应,进一步降低行政成本。对供应商而言,通过对招标主题、时限等内容要求的提取,可以更有效率地关注政府采购招标信息,进行盈亏平衡点估算,合理组织货源,进行投标决策。对于网站用户而言,通过WEB结构挖掘,可以针对照片、图片等影响网页打开速度的资料,设计合理的运营支撑系统(OSS:Operationsupportsystem),以支持大规模并发性的访问,提高用户上网体验。3、安全维护更加有效。近年来,我国电子政务网站不断遭到恶意攻击,攻击手段包括:盗取用户cookie,伪造用户身份登录;控制用户浏览器,衍生URL跳转漏洞;种植木马病毒、蠕虫攻击等等。通过WEB用户行为的数据挖掘,可以从监测、防护、应急恢复等多方面构造完善政府采购网站安全体系,从单纯的防御转化为更为主动的具备一定对抗能力和应急处置功能,从而实现WEB网络安全的综合监控。四、应用前景展望新时期Web2.0的主要特征是参与、互动和分享,其核心思想在于以用户为中心,更加注重交互性,国内知名成功电子商务网站在平台建设中均体现了如上理念。与之相比,兼顾电子政务与B2B电子商务特点的政府采购网络平台,仍需在web挖掘技术的支持下,在以下方面予以完善改进:1、在线客服。目前,国内政府采购网站上的信息不断扩容,功能繁多,短时间内完全了解熟悉相关操作流程确有一定难度。这方面可以借鉴商务网站的做法,在适当时段设置人工问询答疑外,添加全天候的智能机器客服,运用web挖掘技术提炼常见问题与答复内容。同时,针对政府采购商品方面的咨询,可引申到由相关供应商方面来解答。对于政府采购需求方对商品和服务性能的模糊性描述,也可以通过web挖掘,根据用户的工作需求和经费属性,实施搜索推荐,这将极大地方便采购用户。2、配送查询。无论是自建物流还是利用第三方物流,国内电子商务基本上做到了配送3限时承诺和物流节点上的可视化查询,这是利用物联网和射频识别技术(RFID)在web上实现的物流行程跟踪。尽管有些政府采购商品价格中包含了配送费用,但在实际中,不同时限标准的配送,其收费也是有所差异的。因此,政府采购平台的配送服务也应具备实时查询功能,以促进政府采购流程的全面透明公开。3、交流评价。政府采购最终需求方和供应方一般是通过各级采购中心代理来撮合交易的,为了进一步改进工作提高服务水平,体现web2.0背景下以客户为中心和网络交互性的特点,应在政府采购平台上增添采购论坛或设置服务评价打分功能。当然,从现实经验来看,这样做也可能引发网络水军和欺诈性评论泛滥。但由于政府采购平台的参与者均是实名注册登录的供需方,因此观点持有者的身份可认证;而且也可以通过web挖掘技术,根据发言者IP地址的重复性或评价内容相似度高的特点,对多个倾向性相同的评价内容进行统计分析,从中发现异常进行纠正。4、信息追溯。在网上交流评价的基础上,可以进一步完善政府采购供应商信用体系,实施失信惩罚,即终止有失信行为的供应商参与政府采购资格。同时,还可以通过web挖掘技术实现对相关商品信息和责任人信息的追溯与公示,有效防止其在处罚后改头换面再次违规登场。另一方面,在web挖掘技术支持下,所有政府采购平台上的供应商可完全平等地获得信息保障的权利,即防止招投标信息、专家评标信息等各类与采购业务相关的信息在存储或者传输的过程中被非法复制、篡改、丢失和破坏,保证接收和发送双方的信息正确、有效以及一致,从而提供公平的竞争环境。一旦发生纠纷时,这些过程数据也可追溯提供证据。总之,功能日趋完善的政府采购平台上的“在线数据”中蕴含着巨大潜在开发价值,通过web挖掘技术的应用,可以进一步促进政府采购工作的智能化管理。(作者单位:中国联通、中国建行、长城人寿)

1 / 3
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功