2020/4/21决策量化技术1六、Web挖掘2020/4/21决策量化技术2总目录一、数据挖掘概述二、关联规则挖掘三、数据分类四、聚类分析五、序列模式挖掘六、Web挖掘七、数据挖掘系统2020/4/21决策量化技术3Web上的数据挖掘1、Web数据的特点2、Web挖掘的分类3、Web挖掘的应用2020/4/21决策量化技术4Web数据的增长国内CNNIC于2006年1月17日发布的第15次《中国互联网络发展状况统计报告》中的数据,我国大陆的上网用户总人数已经超过1.11亿,比去年同期增长了18%,上网计算机4950万台,增长19%,CN下注册域名数和网站数分别达到109万和69.4万,比去年同期增长了63%和61.4%对99%的用户来说,Web上99%的信息是毫无用处的2020/4/21决策量化技术5Web数据的特点数据库研究的角度Web的每一个站点就是一个数据源,每个数据源都是异构的,构成了一个巨大的异构数据库环境数据管理的角度Web页面散布在世界各地的Web服务器上,形成的分布式数据源。每个服务器自主地管理自己的资源,没有统一的管理机制,这为数据分析和处理带来了更高的难度数据模型的角度半结构化是Web上数据的最大特点。与传统的数据库中的数据不同,Web数据非常复杂,是一种非完全结构化的数据,称为半结构化数据2020/4/21决策量化技术6结构数据前面的数据挖掘针对结构数据,而可获得的大部分信息在文本数据库中,它们不是结构数据。半结构数据(semistructuredata)例如:一个文档的标题,作者包含结构字段,而摘要,内容为非构化文本成分。2020/4/21决策量化技术7Web数据的特点数据内容的角度Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等各种多媒体数据,体现了数据的多样性和复杂性数据更新的角度Web是一个动态性极强的信息源,不仅增长的速度极快,而且信息也在不断地更新,各站点的链接信息和访问记录的更新非常频繁用户的角度Web面对的是一个庞大的用户群体,而且用户群在不断地扩张之中,每个用户具有不同的背景、兴趣和使用目的2020/4/21决策量化技术8Web挖掘的要求效率高:数据量非常庞大,每天都在迅速增长和更新,从如此海量的数据中有效地提取有用的信息要求数据挖掘速度必须很快强大的并行性:分布在网络上各个站点的资源通过互连网连成一个大型分布式数据库,数据的巨大规模和广泛分布对数据挖掘的并行性要求很高实时动态性:Web中数据更新非常迅速,有些信息可能很快过时,所以要提供准确的决策支持要求数据挖掘具有实时和动态的特性有效地组织和管理数据:目前数据挖掘多应用于关系和面向对象数据库,有完美的结构,按照预先定义的模式进行组织、存储和存取,而Web的信息往往具有半结构化或非结构化特性,难以映射到一个固定的模式,使传统数据模型和数据库系统难以支持Web上的信息管理2020/4/21决策量化技术9Web上的数据挖掘1、Web数据的特点2、Web挖掘的分类3、Web挖掘的应用2020/4/21决策量化技术10Web挖掘Web结构挖掘Web内容挖掘Web页面挖掘查询结果归纳Web日志挖掘用户访问模式分析个性化分析Web挖掘的分类Web挖掘是对Web文档的内容、Web上可利用资源的使用情况以及资源之间的关系进行分析,从中发现有效的、新颖的、潜在有用的、并且最终可理解的模式。2020/4/21决策量化技术11Web内容挖掘Web内容挖掘是从Web文档的内容或描述中提取知识的过程,可以协助用户搜索信息或者根据用户的配置文件为用户过滤无用的信息。Ahoy!:利用像搜索引擎一类的互联网服务来获取与个人有关的服务,输入用户名,找到用户的主页EdgeGain:分析商家的主页和电子商务站点的文档结构,抽取价格列表;帮用户找到任意产品的最低价格,前提是这个产品在网络上有售。FAQ-Finder:从常用问题文件(FAQ)中抽取问题的答案。它把用户用自然语言提出的问题自动匹配到FAQ文件中的相应问题,然后返回对应的答案研究内容:文本挖掘和多媒体挖掘2020/4/21决策量化技术12文本挖掘文本分析(TextAnalysis)、文本解释(TextInterpretation)、文档分类(DocumentCategorization)和文档可视化(DocumentVisualization)预处理分词过滤虚词合并词根特征抽取过滤特征计算权值合并特征文本挖掘关联分析文本分类聚类分析模式提取关联规则分类模式聚类模式数据转换特征约减文档建模权值调整文本挖掘的步骤2020/4/21决策量化技术13文本预处理分词是识别文本中短语的过程,特别对中文来说分词是必不可少的,主要有以下几种方法最大匹配法(MM):从文本的右部开始,选取包含6~8个英文单词或汉字作为最大符号串,将它们与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止逆向最大匹配法(RMM):匹配方向与MM法相反,是从左向右。对汉语来说,逆向最大匹配法比最大匹配法更有效双向匹配法(BM):比较MM法与RMM法的分词结果,决定正确的分词最佳匹配法(OM):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度联想回溯法(AB):采用联想和回溯的机制来进行匹配过滤虚词:建立虚词库合并词根:词性、名词的单复数、动词的时态2020/4/21决策量化技术14特征抽取过滤特征识别出姓名、前称谓词、后称谓词、数字和日期等,这些词将不作为关键词计算权值词频法:以关键词的出现次数为权值FTIDF法:某个词在一个文档中出现的频率越高,它越能体现该文档的主题。相反,这个词出现在其它文档中的频率越低,它越能体现该文档区别于其它文档的主题合并特征合并从每个文档中抽取的关键词作为关键词,每一个关键词对应一个二元组集合关键词,权值2020/4/21决策量化技术15数据转换文档建模根据特征词及权值建立词频矩阵,其中行对应关键词,列对应文档,将每个文档表示为空间向量,向量值即关键词的权值,反映关键词与文档的关联度2020/4/21决策量化技术16词频矩阵–行对应关键词t,列对应文档d向量–将每一个文档视为空间向量v–向量值反映单词t与文档d的关联度表示文档词频的词频矩阵词/文档d1d2d3d4d5d6t132285356915320t236190765713370t325331604822126t4301407020116352020/4/21决策量化技术17权值调整根据文档的访问记录和链接来调整关键词的权值。文档被访问的时间、路径、访问方式、关键词出现的位置等2020/4/21决策量化技术18文本挖掘和模式提取文本挖掘文档分类:将选取一组预分类的文档作为训练集,从训练集中得出分类模式,然后用导出的分类模式对其它文档加以分类关联分析:以文档(句子或段落)为一条事务,发现经常同时出现的关联词文档聚类:以文档向量作为对象,根据相似性将文档划分为不同主题的组模式提取根据挖掘方法和计算结果,获取各类知识,包括分类模式、聚类模式和关联规则等2020/4/21决策量化技术19Web结构挖掘Web结构挖掘主要是通过对Web站点的超链接结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索发现Web的结构和页面的结构及其蕴含在这些结构中的有用模式对页面及其链接进行分类和聚类,找出权威页面发现Web文档自身的结构,这种结构挖掘能更有助于用户的浏览,也利于对网页进行比较和系统化2020/4/21决策量化技术20Web日志文件对用户的每次访问,记录访问时间、用户网络地址、目的信息网络地址及传输信息量等2020/4/21决策量化技术21Web日志挖掘通过分析Web服务器的日志文件,以发现用户访问站点的浏览模式,为站点管理员提供各种利于Web站点改进或可以带来经济效益的信息。用户访问模式分析通过分析Web使用记录来了解用户的访问模式和倾向,从而帮助销售商确定相对固定的顾客群,设计商品的销售方案,评价各种促销活动以及发现Web空间最有效的逻辑结构个性化分析倾向于分析单个用户的偏好,根据不同用户的访问模式,动态地为用户定制观看的内容或提供浏览建议,使得网站更加生动而独特2020/4/21决策量化技术22Web日志挖掘的过程2020/4/21决策量化技术23Web上的数据挖掘1、Web数据的特点2、Web挖掘的分类3、Web挖掘的应用2020/4/21决策量化技术24发现客户偏好网页相关性分析从用户的访问路径中发现网页之间的关联,在动态网页中嵌入个性化的浏览模式,让用户更有效地访问目标网页,提高回访率用户分类记录用户在一段时间内访问某个网站网页的集合,根据这些信息将用户归类,然后根据这个类中用户的历史行为向他推荐在同类用户接下来所浏览的网页利用聚类发现兴趣模式将文档转化为由关键词构成的向量,利用聚类算法从特征向量集合产生用户的兴趣主题2020/4/21决策量化技术25模型质量的评价•文本检索的基本度量–{relevant}:与某查询相关的文档的集合。–{retrieved}:系统检索到的文档的集合。–{relevant}∩{retrieved}:既相关又被检索到的实际文档的集合。–查准率(precision):既相关又被检索到的实际文档与检索到的文档的百分比。–查全率(recall):既相关又被检索到的实际文档与查询相关的文档的百分比。}{retrieved}{retrieved{relevant}precision{relevant}}{retrieved{relevant}recall2020/4/21决策量化技术26模型质量的评价实例–{relevant}={A,B,C,D,E,F,G,H,I,J}=10–{retrieved}={B,D,F,W,Y}=5–{relevant}∩{retrieved}={B,D,F}=3–查准率:precision=3/5=60%–查全率:recall=3/10=30%B,D,F相关并被检索到的文档所有文档A,C,E,G,H,I,J相关的文档W,Y检索到的文档2020/4/21决策量化技术27智能查询(1)智能查询信息归纳信息抽取资源发现基于内容的检索通过搜索引擎查询索引得到相关资料分类和聚类技术实现查询结果的自动归类,有助于用户按类别有选择地浏览结果根据用户感兴趣的程度和对用户有帮助的程度排序,过滤查询结果2020/4/21决策量化技术28智能查询(2)智能查询信息归纳信息抽取资源发现基于内容的检索从资源中自动抽取信息,减少手工编码识别文档的模式结构Ahoy!识别个人主页ILA抽取电话号码和Email地址文摘的自动获取解决词的多义问题,自动语义标注技术基于上下文的关联词法、词性搭配法、基于统计的最大可能义项法等2020/4/21决策量化技术29智能查询(3)智能查询信息归纳信息抽取资源发现基于内容的检索将杂乱无章的信息组织起来的有效机制Yahoo把搜集到的索引信息按主题分类,组成一个层次型的目录系统,但对资源的分类和组织主要还是依赖于人工分类技术可自动组织和管理数据,也可以用于发现用户的兴趣模式聚类技术对Web数据进行分类且不需要数据的类标志2020/4/21决策量化技术30智能查询(4)智能查询信息归纳信息抽取资源发现基于内容的检索根据媒体和媒体对象的内容语义及上下文联系进行检索图象中对象的形状、颜色和纹理视频中的运动声音的音调查询内容转换为文本或关键词的形式转换带有一定的主观性,描述不准确相似性匹配的方法,逐步求精,获得查询结果。这是一个迭代过程,通过不断减小查询结果的范围,定位到要求的目标2020/4/21决策量化技术31利用关联规则预测访问站点Web上