Web挖掘与信息抽取系统英国日用品零售商GUS需要准确预测未来的商品销售量,以便减少库存数量:借助数据挖掘技术,使库存成本比原来减少了3.8%汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户……使营销费用减少了30%美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象……发现可能存在欺诈的交易,节约了大量的调查成本发现商品组合销售规律,提高销售率我选择《货币战争》,当当又给我推荐《沉思录》、《资本战争》…1Web挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1.1概述1.1.1数据挖掘定义狭义数据挖掘是知识发现(KDD)过程中的一个特定步骤,是用专门算法从数据中抽取模式,然后通过解释和评价转换成最终用户可理解的知识广义由于KDD的其他步骤对数据挖掘的运行性能和结果正确性影响很大,因此,通常所说的数据挖掘往往包括KDD的全过程。一般定义数据挖掘是从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的过程。特点有效性–保证挖掘出来的信息的可靠性;新颖性–要挖掘那些不能靠直觉发现的信息或知识潜在有用性–发现的知识有实用价值和可实现最终可理解性–发现的模式能被用户理解、接受、运用1.1.2数据挖掘涉及多学科领域数据库技术人工智能神经网络统计学模式识别知识库系统知识获取信息检索高性能计算可视化…1.1.3数据挖掘一般过程数据收集:通过各种方式广泛收集用户的信息,建立必要的数据库与数据表,为数据挖掘做准备。数据处理:对收集到的信息进行诸如去噪等操作,从而确保数据能够真实反映待要挖掘的对象。数据变换:将经过去噪的数据进行一定的格式转换,使其适应数据挖掘系统或数据挖掘软件的处理要求数据挖掘:利用挖掘方法对数据进行分析,挖掘出需要的各种规则、趋势、类别、模型等模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证发现的模式的正确性知识表示数据收集预处理格式转换数据挖掘模式评估知识表示1.1.4数据挖掘功能数据总结数据压缩分类模型发现学科分类聚类模型发现主题聚类发现研究热点关联规则发现如股市升降与突发事件的关联序列模式发现如DNA序列相似性发现依赖模型发现如发现A事件发生前一定有B事件发生异常和趋势发现等如:发现交易中的欺诈行为,或者根据主题词演变,发现学科研究走向等1网络信息挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1.2Web挖掘1.2.1Web挖掘(WebDataMining)定义利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取蕴涵的、未知的、有潜在应用价值的信息的过程。指从大量的Web文档集合C中发现隐含模式P的过程:C-PWeb挖掘与传统数据挖掘Web挖掘传统挖掘挖掘对象类型大量、异质、分布的Web文档。结构化数据。挖掘所得模式可能是关于Web内容的,也可能是关于Web结构的。关于内容的。预处理过程半结构或无结构数据,预处理过程复杂、重要。结构化数据,预处理简单。Web挖掘与Web信息检索Web挖掘Web信息检索方法论随机的,其结果独立于用户信息需求,也是用户无法预知的。目标驱动的,用户需要明确提出查询要求目的帮助用户发现文档中隐含的知识。在于帮助用户发现资源着眼点试图更多地理解其内容和结构。着重于文档中显式存储的字词和链接;评价方法收益(Gain)置信度(Certainty)简洁性(Simplicity)精度(Precision)召回率(Recall)1.2.2Web挖掘分类Web内容挖掘Web结构挖掘Web使用挖掘Web内容挖掘什么是Web内容挖掘从网络的内容、数据、文档中发现有用信息的过程。网络信息资源由文本、图象、音频、视频等数据组成,因而Web内容挖掘是一种多媒体数据挖掘。挖掘策略利用搜索引擎技术直接挖掘文档的内容;在搜索引擎等工具处理基础上做进一步的处理,以便获得更为精确和有用的信息。面临问题挖掘算法效率和可扩展性问题信息遗漏及噪声数据的处理问题私有数据保护问题数据安全问题等Web内容挖掘主要应用研究内容文本摘要文本分类文本聚类关联分析分布分析趋势预测Web内容挖掘文本摘要从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。有篇首截取法、上下文截抽取法、论题句抽取法、仿人法等。Web内容挖掘文本分类文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。Yahoo!采用人工分类,大大影响了索引的页面数目。利用自动文本分类技术可以对大量文档进行快速、有效分类,大型搜索引擎都采用自动分类技术。Web内容挖掘文本聚类文本聚类是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。“聚类假设”与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档。意义利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。Web内容挖掘关联分析从文档集合中找出不同词语之间的关系。实例:有人提出一种算法,可以从大量文档中发现一对词语同时出现的模式,利用该算法可在Web上寻找作者和书名的出现模式,从而发现了若干本在Amazon网站上找不到的新书籍。以Web上的电影介绍作为测试文档,通过使用OEM模型从页面中抽取词语,进而得到一些关于电影名称、导演、演员、编剧的出现模式。从科技论文中挖掘主题词演变模式,发现学科发展趋势。Web内容挖掘分布分析指通过对文档的分析,得到特定数据在某个历史时刻的分布情况。实例:Feldman等人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布情况。Web内容挖掘趋势预测指通过对文档的分析,得到特定数据将来的取值趋势。实例Wuthrich等人通过分析Web上出版的权威性经济文章,对每天的股票市场指数进行预测,取得了良好的效果。Web结构挖掘挖掘对象网站中超级链接结构之间的关系,它体现了文档之间的逻辑关系,与文档所处位置无关。目标找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对Web页面重新分类,用于寻找相似的网站,评价网站社会关系及其对应用影响。Web结构挖掘Web结构图G=(V,E)V是页面的集合,构成图的顶点;E是页面之间的超链集合,构成图的边。图形中,不仅顶点(页面)包含主题信息,而且,边(超链)也包含了大量潜在的语义,对它的分析构成了Web挖掘的重要内容,即结构挖掘。Web结构挖掘结构挖掘的主要方法PageRank一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面HITS衡量网页重要性有两个要素(ranking):权威级别(依赖于指向它的页面)、中心级别(依赖于它指向别人的页面)ARC基于主题相关性的挖掘,同时考虑锚点文字。CLEVER在计算网页权威度与中心度时,保留相关节点,裁剪无关节点。Web使用挖掘挖掘对象用户网络交互过程中产生的数据如服务器访问记录、日志记录、用户对话或交易信息、用户提问式等。挖掘目的帮助人们理解用户行为和Web结构之间得关联;指导网站建设,改善网站服务效果。挖掘方法一般访问模式跟踪通过分析Web访问日志来理解访问倾向,获得Web结构信息及资源提供者分组情况。定制使用跟踪分析个人倾向,以便为每个用户定制符合其个人特色的web站点、资源以及信息呈现方式等。一个用户访问网络路线实例网络信息挖掘网络内容挖掘网络结构挖掘网络使用挖掘信息检索观点数据库观点数据形式非结构化、半结构化半结构化、数据库形式的网站链接结构交互形式主要数据文本文档、超文本文档超文本文档链接结构服务器日志记录浏览器日志记录表示Bagofwords、n-grams、词、短语、概念或实体、关系型数据边界标志图(OEM)、关系型数据图形关系型表、图形方法TFIDF和变体、机器学习、统计学(包括自然语言处理)Proprietary算法、ILP、(修改后)的关联规则Proprietary算法机器学习、统计学、(修改后)的关联规则应用归类、聚类、发掘抽取规则、发掘文本模式、建立模式发掘高频的子结构、发掘网站体系结构归类、聚类站点建设、改进与管理、营销、建立用户模式1网络信息挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势数据挖掘应用在金融领域中的应用观察金融市场的变化趋势,进行贷款偿付预测和客户信用分析;对用户群体进行识别和目标市场分析;左图是Altos做的实时价格指数与房价指数的关联分析,可为房地产、金融机构提供参考。数据挖掘应用在电信业中的应用通过分析用户对电信服务的使用模式,划分用户群,使营销策略更有针对性;采用多维分析、聚类分析和孤立点分析等方法识别异常模式,追踪盗用行为;分析呼叫数据来规划和优化网络。数据挖掘应用在销售领域的应用有助于划分顾客群体,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,通过关联分析更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满意程度。数据挖掘应用在医学中的应用DNA分析利用数据挖掘技术可以进行DNA序列间的相似搜索和比较,对同时出现的基因序列的相关分析,遗传研究中的路径分析等。在搜索引擎中的应用对网页Links信息的挖掘,提高采集效率通过对网页内容挖掘,实现网页的聚类、分类、自动标引通过用户提问及操作历史记录分析,跟踪用户需求模型,提高用户的检索效果数据挖掘应用情报研究—GoogleTrends情报研究—CNKI学术趋势其他应用银行:交叉销售分析百货公司/超市:购物篮分析(关联规则)保险:交叉销售与客户流失原因分析信用卡:欺诈探测电子商务:网站日志分析税务部门:偷漏税行为探测警察机关:犯罪行为分析…数据挖掘应用1网络信息挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势NetpercerptionsNetPerceotion公司的主要产品。它采用了一个叫做“实时建议”的技术,让它的产品对象(主要是网站)能够根据用户以往的浏览行为,找出与之相类似的行为,从而预测该用户后续的浏览操作,为用户提供个性化的浏览建议。由于是实时运行的,随着浏览量的增加,它会变得越来越“聪明”。Accrue公司AccrueInsight和AccrueHitListAccrueInsight通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期顾客关系。AccrueHitList是一个功能强大的Web报表分析工具,主要运用于市场分析、信息采集等方面。1网络信息挖掘1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势发展趋势未来研究重点Web数据挖掘的内在机制研究及其实现Web知识库的动态维护、更新半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法研究专门用于知识发现的数据挖掘语言及其标准化关联规则和序列模式的应用研究2信息抽取2.1信息抽取概述2.2与IE相关的研究活动2.3信息抽取类型2.4信息抽取系统介绍2.5信息抽取系统设计2.6信息抽取应用############NHSTRUST-PATIENTCASENOTE########:################DOB:1944CLEF-RMH-Entry-Key:52A4F6DB2B46EAB1992SeeninGeneralSurgicalThisladywhohashadamastectomyandleftopencapsulotomyandremovalofherprosthesiswassee