Web信息采集技术在纺织面料公共服务平台中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

东华大学硕士学位论文Web信息采集技术在纺织面料公共服务平台中的应用姓名:卜昌荣申请学位级别:硕士专业:检测技术与自动化装置指导教师:王直杰20070130Web信息采集技术在纺织面料公共服务平台中的应用作者:卜昌荣学位授予单位:东华大学相似文献(9条)1.学位论文宗校军中文网页定题采集及分类研究2006网络正深刻地改变着我们的生活,Internet已经发展成为当今世界上最大的信息库,如何快速、准确地从浩瀚的信息资源中寻找到所需的信息已经成为网络用户的一大难题。因而基于Web的网上信息的采集和相关的信息处理日益成为人们关注的焦点。传统的Web信息采集所采集的页面数量过于庞大,所采集页面的内容过于杂乱,需要消耗非常大的系统资源和网络资源。同时Internet信息的分散状态和动态变化也是困扰着信息采集的问题。定题搜索引擎将信息检索限定在特定主题领域,就主题相关的信息提供检索服务,相应特定主题所需采集的网页数量极大减少且主题统一。与通用的搜索引擎相比较,定题搜索引擎由于检索的范围较小,查准率和查全率易于保证。本文所研究的就是建立定题搜索引擎的前期关键技术—Web信息定题采集及分类技术。全文的主要内容如下:通过对Web结构和Web链接特性的研究,分析了一些在定题Web信息采集过程中有用的规律。对元数据进行定义,讨论了几种基本的超链及其元数据类型。研究了网页信息抽取问题,分析了常见类型的元数据并确定了适合作为定题信息采集依据的元数据类型。讨论了如何基于元数据通过主题扩展得到主题相关词集,包括禁用词过滤、主题候选词的抽取及相关策略过滤等过程。重点研究了利用改进的Apriori算法,对元数据库进行关联挖掘抽取主题候选词,并给出了主题词关联挖掘和过滤,即主题扩展的迭代算法。实验证明,本文所提供的元数据处理策略,能很好地进行主题的抽取与扩展,为实现更有效的定题Web信息采集提供良好前提。给出了一个基于Web元数据的定题信息采集系统并加以描述。对经典的基于超链分析的相关性判别算法HITS和PageRank进行了描述和分析,给出了基于Web元数据的多种相关性判别算法,并利用Web元数据对HITS和PageRank算法进行了改进,提出了M-PageRank算法和M-HITS算法。测试了各种算法的性能并作了比较研究,实验验证了所提出的算法能为实现定题检索提供良好前提。讨论了文本分类的基础及Web网页在文本分类中的特性和特殊处理,将HTML文档用TFE表示,考虑半结构文档词条所处结构对分类的影响,修正了反映特征词在网页中的权重函数,引入扩展文本作为网页分类的内容补充。研究了既考虑文档结构又兼顾文档内容的改进的朴素贝叶斯和支持向量机Web网页分类方法,并通过实验验证了两种分类方法的良好效果。通过对Web定题采集和分类的研究,本文从技术和方法上做出了一些增强及改进,提出的方法及改进的算法取得了较好的实验效果,所得到的若干结论也具有理论和实践上的指导意义。2.学位论文何章鸿教育新闻聚类平台的设计与实现2009阅读网络新闻已渐渐成为人们获取信息的一个重要渠道。网络新闻来源众多,并且报道角度和立场各不相同,粗略的新闻分类方式无法帮助用户了解新闻事件的前因后果。因此人们迫切希望通过计算机自动处理海量新闻流,快速发现社会热点事件,及时找到感兴趣的相关新闻报道。br  本文面向教育领域,采用Web信息采集、网页分类、网页信息抽取以及话题检测以及追踪等技术对新闻话题信息进行挖掘,设计并实现了一个面向教育科研网络的教育新闻聚类平台,以帮助用户方便、快捷地了解当前教育国内外新闻热点和专题报道等密集型信息。br  在Web信息抽取方面,本文结合新闻主题型网页动态模板的共同特点,以及待抽取信息块的不同语义特性,分别提出两种方法来完成新闻内容的抽取。在新闻正文抽取方面,提出一种基于信息块结构的迭代过滤方法,对每个互相嵌套的信息块采取“由内到外”以及“从小到大”的次序,通过语义过滤规则依次进行判断、抽取块内信息以及去除,最后达到正文精确抽取的效果。为了对新闻标题以及发布时间等进行信息抽取,结合其位置相对固定的特点,本文提出一种基于XPath规则的信息抽取方法,可以较有效地实现对这些重要信息的抽取。br  在话题检测和追踪技术方面,以网络新闻报道流为研究对象,提出了一个实用的话题动态检测算法。该算法主要有以下改进:在文本向量空间模型下对特征项的选择,采用了命名实体以及重要动名词,降低了高维处理;在特征项权重的计算,考虑了新闻标题的重要影响指标,提高话题检测的精度;在话题排序方面,结合考虑了主题的时间和数量特性,提出一种话题得分排序方法来过滤不重要的话题;引入话题合并和调整的机制,提高话题追踪的效果。br  从实验测试来看,本文提出的Web信息抽取方法能有效提高新闻信息抽取的准确度,而话题动态检测算法可有效改善系统的实用性。3.学位论文彭黎明Web数据抽取在商业银行信用风险监控系统中的应用2008对于商业银行来说,银行的利润就是经营风险的收益。而如何打破银行间的界限,跳出银行产品的“窠臼”,使客户的信用风险信息共享,最终以完整的视图看待一名客户的风险,是商业银行急需解决的一个问题。而随着Internet/Web技术的快速普及和迅猛发展,各种海量的客户基本数据信息可以在网络上获得。如何合理的利用这些客户信息,是一个值得大家探讨和研究的课题。本文讨论和研究了基于XML的Web信息抽取在商业银行实际系统的具体应用,对Web上客户信息的有效采集和搜索做了进一步研究。主要研究了和Web数据抽取相关的XML技术、Web数据挖掘理论,以及Web信息采集技术、网页信息抽取技术、Web信息搜索技术等,在此基础上结合商业银行自身的特点和要求,根据XML技术的特点和要求,采集抽取已知Web系统的客户详细信息,完成Web页面解析,Web数据采集,Web数据清理,Web数据服务等功能,实现客户的“一站式”查询和检索,使得商业银行的风险监控由事后反应转变为事前预测,实现经营风险的自动预警,全面提升商业银行分析、使用信息和管理风险的能力。商业银行客户信息风险监控系统合理的对外部Web系统上各种海量的客户基本数据信息进行数据采集、挖掘、清理、分析,使之成为商业银行自己可以充分利用的数据。系统打破了银行间的界限,跳出银行产品的“窠臼”,使客户的信用风险信息共享,最后以完整的视图看待一名客户的风险。因此,Web数据抽取在商业银行中的应用将变得非常具有现实意义。从技术成熟度和业务需求的迫切性来讲,Web数据抽取研究具有一定的可行性和必要性。课题将结合实际,将理论与现实需求相结合,提炼出Web数据抽取在商业银行客户风险监控中的实际意义和影响。同时也可以提供同行业借鉴和参考。4.学位论文贾自艳Web信息智能获取若干关键问题研究2004该文对Web信息获取若干关键问题,包括信息采集、信息抽取、事件探测和追踪、以及事件来龙去脉等方面,从模型、算法和应用三个层次上进行了深入细致的研究,主要贡献和创新点包括如下几个方面:(1)通过对Web信息采集过程及其实例系统分析,基于主体的基本理论与技术,提出了一种网络信息采集的多主体模型,并在实验室研制的多主体环境MAGE下完成了建模和实现.(2)通过分析Web噪音数据存在的特点,提出了三种噪音数据判别模型:基于URL标记信息的噪音判别模型、基于噪音数据冗余特点的判别模型、基于URL标记文本信息熵的噪音数据判别模型,并且基于这三种判别模型实现了Web噪音数据去除算法.(3)提出了一种基于概率统计和规则相结合的新词/短语发现算法.实验结果验证了基于概率统计和规则方法相结合的新词发现算法的有效性,它有效地结合了统计方法速度快和规则方法质量高的特点.(4)通过分析网络新闻的特点,借鉴Single-Pass聚类思想提出了一种基于动态模型的新闻事情探测和追踪算法.实验结果验证了基于时间距离的相似度计算模型的有效性以及引入类间距离后算法执行的高效性.(5)提出了一种事件来龙去脉生成算法.该算法是基于时间要素和新颖性计算模型,将报导同一事件的所有新闻文档的摘要进行组织,然后根据粒度要求对组织结果进行处理最后生成事件来龙去脉.5.学位论文肖明军多策略的Web信息采集系统的研究2004该文结合国家自然科学基金项目--具有突现智能的多主体模型及应用(70171052)和国家科技部项目--互联网竞争情报智能监测系统的研究,对基于多策略协作的Web信息采集系统进行了研究和实践.对于多策略的Web信息采集系统的研究,该文对系统所涉及到的基本技术:Web信息检索技术、Web信息抽取技术以及多Agent系统中多策略协作的规划问题进行了研究,并在这些工作的基础上,实现了一个基于多策略协作的Web信息采集系统:该文首先对Web信息检索的核心技术之一--网页的排序算法进行了研究.在HITS算法[Kleinberg99]的基础上,引入了网页内容与查询主题的相似度的影响因素,提出了一种基于超链接和网页内容的网页排序算法--SHITS(Similarity-HITS)算法.其次,该文对表格式Web页面的信息抽取进行了研究.针对已有的基于路径学习的信息抽取方法[于琨03,蔡智02]具有人工维护代价较大的缺点,提出了一种多策略联合的信息抽取方法--MSCIE(Multi-StrategyCombinationwebInformationExtraction).MSCIE由于采用了不同的学习策略,通过协作共同完成信息抽取任务,使得该方法能够以较小的人工维护代价、较高的准确率和召回率对大量Web站点的表格式网页进行信息抽取.对多Agent系统中策略协作学习的协作规划和协作效益问题,该文也进行了初步研究,从参与协作的Agent的功能合成的角度出发,提出了一种多策略协作的规划方法.该方法不需要对复杂任务进行分解,不仅能够对给定任务的协作求解的可行性进行判定,而且能够直接获得所有的协作求解方案.最后,则介绍了该文所实现的一个基于多策略协作的Web信息采集系统--互联网竞争情报智能监测系统CIS.net,该系统采用了多种策略的Web信息检索技术和信息抽取技术,能够对大量Web站点中的商品供求信息、厂商信息等企业生产相关的竞争情报信息进行检索和抽取.6.学位论文黄远文面向新闻领域的Web信息抽取与采集方法及应用2006互联网上的信息是当今世界上最丰富的知识宝藏,但如何有效地获取信息却一直是个难题。Web信息采集系统可以对用户所关心的目标站点进行数据采集和信息抽取,得到结构化的数据,进行存储和相关处理。其中最关键的技术就是如何进行Web信息抽取。国内外很多学者和研究人员致力于研究Web信息的抽取和集成。本文的研究重点在于面向新闻领域的Web信息抽取和采集。新闻是互联网上最重要的资讯。本文通过对海量新闻网页的分析,总结出新闻网页在内容和结构上的特征,设计了一种基于主标记的网页分块算法,可以全自动地高效率地从网页中抽取出新闻的基本要素,包括标题、正文(含图片、附件)、来源和时间。在此基础上,本文设计并实现了一个新闻网站信息采集系统——方正天钩2.0,并详细介绍了其中线程池、URL词典、网络蜘蛛等模块的设计和实现方法。最后,通过实验数据分析和实际应用效果,对系统提出了改进方法。7.学位论文周应强基于本体的Web非规范知识处理中采集技术研究2005随着Internet的快速发展,现在世界上绝大多数人都在用网络进行交流,网络在把信息传到用户方面已经取得了难以置信的成功,Web己经成为一种主要的知识来源,它经过十年左右的发展已经成为一个巨大的全球化知识仓库。Web数据的组织格式主要以HTML这种半结构化的形式为主,是典型的非规范知识。这种语言不能处理网络上的很多需求,因为它只是一种用于浏览信息的语言,不能表达数据本身,网络还没有形成一个良好的结构化文档的存贮,而只是一个可变的HTML页的聚集,因此迫切希望来自网络资源的信息以一种结构化的方式来存贮,XML和它的各种扩展功能(如数据模型、查询语言等)是实现结构化方式的一种。使用扩展的标志语

1 / 93
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功