01垂直搜索引擎应用陈建平

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第1页共32页试论垂直搜索引擎在工商行政网监工作中的应用北京市工商行政管理局特殊交易监管处处长国家电子商务示范城市专家咨询委员会成员陈建平二O一二年八月※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第2页共32页试论垂直搜索引擎在工商行政网监工作中的应用——不是万能与万万不能绪言:按照国家工商总局市场司的安排,我受北京市局领导的指派,在北京局近年来学习、研究和实践的基础上,从应用前提、应用方式、应用发展和应用挑战四个角度,就垂直搜索引擎在工商行政网监工作中的应用进行探讨和交流。第一部分:我们究竟需求什么?——千里同行始于不同足下国家工商总局决定在全国建设工商行政网监垂直搜索引擎以来,许多地方局的领导越来越关心这样一个问题:面对网络市场相关信息的超海量级、非均衡性、高变化率等特殊属性,如何选择适合不同时期、不同地区网监工作需要的垂直搜索引擎?这也是北京局多年来持续攻坚的课题之一。鉴于工商行政管理系统涉足垂直搜索引擎领域的时间还不长,在本文的开始部分,采取专业性和通俗性相结合的原则,先虚拟性地描绘一个技术发展的参考坐标系以形成分析基础。此外,出于众所周知的原因,本文未将国(境)外搜索引擎列入分析范围。※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第3页共32页一、需求内容的选择——只有节点、没有终点按照通常理解,垂直搜索是指用户利用搜索引擎获取互联网特定目标信息的具体行为或行为方式,垂直搜索引擎则是支持特定用户大量、持续地获取互联网特定目标信息的专用搜索引擎。由于不同用户对特定目标信息的类型、广度和深度存在不同的需要,相应地也会对垂直搜索引擎产生不同的需求。(一)垂直搜索目标的选择范围从特定目标信息的搜索广度分析,可将工商行政网监垂直搜索引擎分为单一目标和组合目标两类。1.单一目标垂直搜索引擎:支持特定用户大量、持续地获取互联网某一类特定目标信息的专用搜索引擎。从特定目标信息的搜索深度分析,按照北京局的理解,可将适用于工商行政网监工作的单一目标垂直搜索引擎分为三个亚类。(1)网上经营主体垂直搜索引擎:支持特定用户大量、持续地发现和确认经营主体开展网上经营活动的组织形式(独立网站、信息平台、交易平台、网店、其它)的专用搜索引擎。(2)网上经营客体垂直搜索引擎:支持特定用户大量、持续地获知与确认经营主体开展网上经营活动的具体内容(商品和服务)的专用搜索引擎。其中重点关注的是法律、法规禁止或限※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第4页共32页制生产、销售、提供的商品和服务。(3)网上经营行为垂直搜索引擎:支持特定用户大量、持续地掌握和确认经营主体网上经营行为方式的专用搜索引擎。其中重点关注的是违反禁止性和限制性规定的行为方式。2.组合目标垂直搜索引擎:支持特定用户大量、持续地获取互联网某些类特定目标信息组合的专用搜索引擎。从特定目标信息的搜索维度分析,按照北京局的理解,可将适用于工商行政网监工作的组合目标垂直搜索引擎分为“主体+客体”、“主体+行为”、“主体+客体+行为”三种组合。由于未知主体的客体和行为缺乏实际监管意义,本文未将“客体+行为”的组合列入分析范围。特别说明:从特定目标信息的搜索类型分析,还可将工商行政网监垂直搜索引擎分为文字、图片、音频和视频等不同类别。鉴于图片、音频和视频的搜索技术仍处于发展阶段,而且运行成本高昂,短期内恐难大范围地应用于工商行政管理网监工作,因而本文以下内容均以中文文字搜索为分析基础。(二)垂直搜索引擎的研发难点垂直搜索引擎被公认为互联网领域最复杂的前沿技术之一。借鉴“更多、更快、更准”的通用评价指标,北京局认知的主体垂直搜索引擎研发难点:一是对于待搜索目标表现形式及变化模式※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第5页共32页的认知程度,即能否高准确率地持续发现有哪些不同形式的商务网站。二是搜索结果与登记信息的自动匹配水平,即能否高准确率地自动识别它们是谁办的网站。三是搜索结果与监管辖区的自动匹配水平,即能否高准确率地自动区分它们是谁管的网站。北京局认知的客体垂直搜索引擎研发难点:一是对于待搜索目标靶向性的认知程度,即待搜索目标是否为商事活动所指向的商品和服务。二是高覆盖率、高准确率搜索结果(召回率与查准率)的可持续性技术实现水平,即搜索结果能否是尽可能大且准的商品、服务集合,且其中包括违禁、违限的商品和服务子集。北京局认知的行为垂直搜索引擎研发难点:一是对于待搜索目标系统性的认知程度,即能否掌握不同性质的网上违禁、违限经营行为复杂多样的表现方式及其变异模式。二是高覆盖率、高准确率搜索结果的可持续性技术实现水平,即搜索结果能否与可知网上违法经营行为的类型与量级相吻合。(三)垂直搜索目标的选择参考北京局通过学习、研究和实践认识到,无论对于领域专家团队还是对于技术专家团队而言,主体、客体、行为三类垂直搜索引擎的研发难度均依次递增,且存在几何级数的难度差。如将未来一个周期的网监工作分为三个阶段,主体垂直搜索意味着基※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第6页共32页础,因其待搜索目标多属于结构化数据,且综合建设成本相对较低,通过“主体搜索+人工网巡”也能开展监管工作,可将其作为第一阶段的建设重点;客体垂直搜索意味着发展,因其待搜索目标存在大量半结构化数据,且综合建设成本相对较高,可将其作为第二阶段的建设重点;行为垂直搜索意味着跃迁,因其待搜索目标多属于非结构化数据,且研发和建设成本会直线上升,可待监管业务需求更加迫切、相关前沿技术更加稳定、领域专家团队更加成熟之时,将其作为第三阶段的建设重点。二、基础架构的选择——只有选择、没有对错从垂直搜索引擎技术基础与网监工作发展阶段之间的关联角度分析,按照北京局的理解,可将工商行政网监垂直搜索引擎的基础架构分为实验级、雏形级、成型级和定型级。(一)实验级垂直搜索引擎的基础架构目前国内尚无中文搜索引擎规模的权威定义。从中文网页搜索数量角度分析,国内大规模搜索引擎一般达到百亿级,其中著名的搜索引擎(如百度、搜狗)已达到千亿级;国内中规模搜索引擎(如人民搜索)一般达到十亿级;国内小规模搜索引擎(如部分企业和政府自建的搜索引擎)一般在亿级或以下。元搜索引擎是通过统一的用户界面、帮助用户在多个搜索引※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第7页共32页擎中选择和利用合适的(或多个)搜索引擎以实现检索操作,属于对多种检索工具的全局控制机制。元搜索引擎虽无网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果排序方面都有独特的技术支持。实验级垂直搜索引擎的基础架构:是基于中、小规模搜索引擎或元搜索引擎的定向数据挖掘。主要优势:技术门槛低,研发周期短,资金投入少。主要代价:承载能力弱、应用限制强、扩展空间小。如果不设定较高的工作标准,而且忽略通用搜索引擎对元搜索引擎使用者的限制因素,在地方局网监工作的初始阶段,这一级别的架构应能体现出较高的性价比。(二)雏形级垂直搜索引擎的基础架构雏形级垂直搜索引擎的基础架构:是基于大规模通用搜索引擎的、面向对象的数据挖掘。主要优势:一是借助大规模通用搜索引擎的搜索能力和数据资源,可显著提高搜索结果的召回率和时新性。如果忽略部分交易平台对搜索引擎的限制因素,它可使网监工作视野接近全网级水平。二是融合了领域专家的专业知识和面向对象的数据挖掘技术,可较好地满足特征相对稳定、规律相对清晰、样本相对充分的垂直搜索需求,能够显著提高合法主体商务网站的查准率,以及初步解决非法主体商务网站和经营客※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第8页共32页体的垂直搜索。三是承载能力较强,应用限制较小,扩展空间较大。主要代价:一是对领域专家需求研究水平的依赖度较高。二是技术门槛较高,资金投入较多,研发周期较长。三是受通用搜索引擎网络爬虫抓取策略的限制,搜索召回率的提升空间有限。四是难以有效解决违法经营行为的垂直搜索。在地方局网监工作的初步成型阶段,这一级别的架构应能体现出较高的性价比。(三)成型级垂直搜索引擎的基础架构成型级垂直搜索引擎的基础架构:是基于大规模通用搜索引擎的、“定向抓取+面向对象”的数据挖掘。在一定意义上可将其视为雏形级的升级版。主要优势:增加了针对专业需求的网页定向抓取功能,可突破通用搜索引擎网络爬虫抓取策略的局限,进一步提高搜索结果的召回率,以及非法主体搜索和客体搜索的查准率。如果忽略部分交易平台对搜索引擎的限制因素,它可使网监工作视野初步达到全网级水平。主要代价:一是搜索引擎的运营成本明显增大,从而导致系统建设资金的增加。二是仍难以有效解决特征相对不稳定、规律相对不清晰、样本相对不充分(如网上违法经营行为)的垂直搜索难题。在地方局网监工作的成型阶段,这一级别的架构应能体现出较高的性价比,只是目前在国内政府网监工作领域还缺少成功范例。※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第9页共32页(四)定型级垂直搜索引擎的基础架构定型级垂直搜索引擎的基础架构:是基于大规模通用搜索引擎的、“定向抓取+面向用户”的数据挖掘。主要优势:引入了“面向用户”这一正在迅速发展的数据挖掘技术,可逐步解决网上违法经营行为的垂直搜索难题。如果忽略部分交易平台对搜索引擎的限制因素,它可使网监工作视野达到全网级水平。主要代价:一是因面向用户的数据挖掘技术尚未成熟,容易影响系统的稳定性。二是对领域专家团队的需求研究水平依赖度很高。三是技术门槛、研发周期、资金投入和运行成本均高于其它级别。在地方局网监工作的定型阶段,这一级别的架构应能体现出较高的性价比,只是目前在国内政府网监工作领域尚未出现。小结:整体还是局部,这是一个问题。求同还是存异,这也是一个问题。渐进还是跨越,这还是一个问题。令人振奋的是,发展垂直搜索引擎的千里之行,已正式始于全国工商行政管理系统领导和干部的足下。或许技术架构只有选择、没有对错,业务需求只有节点、没有终点。也许初期探索以借助公共为宜,目标选择以适合阶段为好,架构设计以预留空间为佳,技术突破以地方尝试为先,总体规划以全国统筹为上。※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第10页共32页第二部分:它能帮助我们什么?——定位是一项累人的差事网络市场的虚拟性和多变性极易造成“互联网迷雾”,对于管理部门因时、因地进行工作定位造成了较大困难,从而可能直接影响网监工作的效能。垂直搜索引擎或能协助我们识得庐山面目、摆脱工作迷航。北京局目前使用的第一代商务网站垂直搜索引擎始建于2006年,属于雏形级、单一目标垂直搜索引擎,初步实现了北京合法主体独立商务网站的自动搜索。受限于现有技术和监管实践的水平,对于垂直搜索引擎在工商行政网监工作领域的应用,本文只能进行非常有限的分析。一、协助我们有策略地开展行政执法——没有比较就没有鉴别如同于工商行政管理其他监管工作一样,“管什么?”、“谁来管?”和“怎样管?”也是网监工作的基础性问题。不同于工商行政管理其他监管工作的是,由于“互联网迷雾”的作用,网络市场的广域性与行政管理的地域性之间存在着广泛的冲突。垂直搜索引擎或许能够协助我们寻找解决之道。(一)协助我们了解“管什么?”尽可能及时、准确、全面地掌握经营主体从事网上经营活动的组织形式,或许是实施工商行政网监工作的第一前提。对此,※试论垂直搜索引擎在工商行政网监工作中的应用※试论垂直搜索引擎在工商行政网监工作中的应用※第11页共32页我们可能有五种解决途径。第一种途径:通过经营者自主公示以掌握网上经营主体。这已是一条有规可依的途

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功