第1章认识数据挖掘数据挖掘定义机器学习数据查询专家系统数据挖掘过程/作用/技术/应用Weka数据挖掘软件清华大学出版社本章目标•掌握数据挖掘的定义•了解机器学习中的基本方法–概念学习–归纳学习–有指导的学习–无指导的聚类•了解与数据挖掘有关的数据查询、专家系统•了解数据挖掘的过程、作用、技术、应用•掌握Weka数据挖掘软件的使用方法2020年2月16日星期日第2页,共65页1.1数据挖掘定义清华大学出版社数据挖掘(DataMining)•技术角度–利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。–目的是寻找和发现数据中潜在的有价值的信息、知识、规律、联系和模式。–数据挖掘与计算机科学有关,一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现。•学科角度–数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、统计学、可视化技术、并行计算等多种技术。2020年2月16日星期日第4页,共65页清华大学出版社•商业角度–商业智能信息处理技术;–围绕商业目标开展的,对大量商业数据进行抽取、转换、分析和处理,从中提取辅助商业决策的关键性数据,揭示隐藏的、未知的或验证已知的规律性,是一种深层次的商业数据分析方法。2020年2月16日星期日第5页,共65页数据挖掘(DataMining)1.2机器学习清华大学出版社1.2.1概念学习•通过对大量实例进行训练,从中发现经验化规律的过程。•机器学习结果的通常表现形式为概念。•机器最擅长的是学习概念。•概念(Concept)–具有某些共同特征的对象、符号或事件的集合。•概念可以从三个不同的角度来看待2020年2月16日星期日第7页,共65页清华大学出版社1.2.1概念学习1、传统角度(ClassicalView)–所有概念都有明确的定义。2、概率角度(ProbabilisticView)–对个别样本实例进行概括性描述,概括性说明构成了概率角度中的概念。3、样本角度(ExemplarView)–样本角度中的概念是将某个概念中的典型实例组成一个集合,使用该集合来描述概念定义。2020年2月16日星期日第8页,共65页清华大学出版社1.2.2归纳学习(Induction-BasedLearning)•基于归纳的学习–机器学习方式–人类学习最重要方式之一•人类通过对事物的特定实例的观察,对所掌握的已有经验材料研究。•归纳学习–从归纳中获取和探索新知识,并以概念的形式表现出来的学习。2020年2月16日星期日第9页,共65页清华大学出版社1.2.3有指导的学习(SupervisedLearning)•定义–通过对大量已知分类或输出结果值的实例进行训练,调整分类模型的结构,达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导(监督)的学习。•数据实例(Instance)–用于有指导学习的样本数据•训练实例(TrainingInstance)–用于训练的实例•检验实例(TestInstance)–分类模型建立完成后,经过检验实例进行检验,判断模型是否能够很好地应用在未知实例的分类或预测中。2020年2月16日星期日第10页,共65页【例1.1】给定如表1.1所示的数据集T,使用有指导的学习方法建立分类模型,对未知类别的实例进行分类。清华大学出版社表1.1感冒诊断假想数据集序号Increased-lym淋巴细胞升高Leukocytosis白细胞升高Fever发烧Acute-onset起病急Sore-throat咽痛Cooling-effect退热效果Group群体发病Cold-type感冒类型1YesNoYesYesNoGoodYesViral2NoYesYesNoYesNotgoodYesBacterial3YesNoYesYesYesGoodYesViral4YesNoNoYesNoUnknownNoViral5NoNoNoNoYesUnknownNoBacterial6NoYesYesYesYesNotgoodNoBacterial7NoYesYesNoYesNotgoodNoViral8YesNoYesNoNoGoodYesViral9YesYesYesYesYesGoodYesViral10YesYesYesNoYesNotgoodNoBacterial2020年2月16日星期日第12页,共65页表1.1感冒诊断假想数据集清华大学出版社决策树(DecisionTree)•倒立树,非叶子节点表示在一个属性上的分类检查,叶子节点表示决策判断的结果,该结果选择了正确分类较多实例的分类。•决策树有很多算法(第2章)2020年2月16日星期日第13页,共65页Sore-throatCooling-effectYesColdType=Viral(3/0)ColdType=Bacterial(4/1)ColdType=Viral(2/0)NotgoodNoGoodColdType=Bacterial(1/0)Unknown图1.1感冒类型诊断C4.5决策树清华大学出版社分类未知实例•分类模型建立和检验完成后,就可以实际投入使用,即用该模型对未知分类的实例进行分类。2020年2月16日星期日第14页,共65页表1.2未知分类的数据实例序号Increased-lym淋巴细胞升高Leukocytosis白细胞升高Fever发烧Acute-onset起病急Sore-throat咽痛Cooling-effect退热效果Group群体发病Cold-type感冒类型NoYesYesNoNoNotgoodNo?YesNoYesNoYesGoodNo?清华大学出版社产生式规则•决策树一般都可以被翻译为一个产生式规则集合。•产生式规则的格式为:–IF前提条件THEN结论•图1.1翻译为4条产生式规则(1)IFSore-throat=NoTHENCold-type=Viral(2)IFSore-throat=Yes&Cooling-effect=GoodTHENCold-type=Viral(3)IFSore-throat=Yes&Cooling-effect=NotgoodTHENCold-type=Bacterial(4)IFSore-throat=Yes&Cooling-effect=UnknownTHENCold-type=Bacterial2020年2月16日星期日第15页,共65页清华大学出版社1.2.4无指导的聚类(UnsupervisedClustering)•无指导(监督)聚类–一种无指导(无教师)的学习;•在学习训练之前,无预先定义好分类的实例,数据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一个组——簇(Cluster)中,再解释和理解每个簇的含义,从中发现聚类的意义。2020年2月16日星期日第16页,共65页【例1.2】给定如表1.1所示的数据集T,使用无指导聚类方法,对所有实例进行分类,解释每个簇的含义。清华大学出版社挖掘准备•删除Cold-type(感冒类型)属性•选择算法–无指导聚类有很多种算法,–K-means(K-均值)算法、凝聚聚类方法、概念分层Cobweb算法、EM算法等。–K-means算法是一种最为常用和易用的算法。•指定初始簇–K-means(K-均值)算法在聚类前指定一个初始的簇的个数,本例指定为2。2020年2月16日星期日第18页,共65页清华大学出版社聚类结果•聚类为两个簇,每个簇有5个实例,分别为–Cluster0={1,3,4,8,9}–Cluster1={2,5,6,7,10}•每个簇的概念结构可以表示为一个产生式规则(1)IFIncreased-lym=Yes&Cooling-effect=GoodTHENCluster=0(ruleaccuracy=4/4=100%,rulecoverage=4/5=80%)(2)IFSore-throat=Yes&Cooling-effect=NotgoodTHENCluster=1(ruleaccuracy=4/4=100%,rulecoverage=4/5=80%)2020年2月16日星期日第19页,共65页1.3数据查询清华大学出版社数据查询(DataQuery)•通过数据查询语言在数据中找出所需要的数据或信息。•什么时候使用数据挖掘,什么时候使用数据查询呢?–获取浅知识或多维知识(MultidimensionalKnowledge)–获取数据中潜在的、隐藏的信息或知识——隐含知识(HiddenKnowledge)2020年2月16日星期日第21页,共65页1.4专家系统清华大学出版社专家系统(ExpertSystem)•一种具有“智能”的计算机软件系统。•能够模拟某个领域的人类专家的决策过程,解决那些需要人类专家处理的复杂问题。•一般包含以规则形式表示的领域专家的知识和经验,系统就是利用这些知识和方法进行推理和判断,从而解决该领域中实际问题。•专家(Expert)–有能力解决领域中复杂问题的人通常被称为该领域中的专家(Expert)2020年2月16日星期日第23页,共65页清华大学出版社专家系统方法与数据挖掘方法2020年2月16日星期日第24页,共65页人类领域专家知识工程师专家系统创建工具数据挖掘工具数据规则:IFSore-throat=NoTHENCold-type=Viral规则:IFSore-throat=NoTHENCold-type=Viral图1.2专家系统方法vs数据挖掘方法1.5数据挖掘的过程清华大学出版社KDD过程•数据挖掘是KDD过程中的一个阶段(第3章)•一次数据挖掘实验分为4个步骤(1)准备数据,包括准备训练数据和检验数据(2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件(3)解释和评估结果(4)模型应用2020年2月16日星期日第26页,共65页数据准备数据挖掘数据解释和评估模型应用传统数据库/数据仓库/平面文件数据挖掘技术和算法图1.3数据挖掘实验过程示意图清华大学出版社1.5.1准备数据•是整个数据挖掘过程中较为重要和费时费力的阶段。•在明确数据挖掘目标后,可以通过从传统数据库、数据仓库和平面文件三种途径收集和抽取数据。1、传统数据库–操作型数据库(OperationalDatabase),它是面向日常事务处理的数据库,通常结构为关系模型。数据库中包含若干个规范化了的二维关系表。2、数据仓库–数据仓库(DataWarehouse)是面向决策支持而不是日常事务处理而设计的。3、平面文件–一些数据量较小的数据集可以存储在如Excel电子表格、.csv、.arff等平面文件中。2020年2月16日星期日第27页,共65页清华大学出版社1.5.2挖掘数据•选择一种数据挖掘技术或算法,将数据提交给数据挖掘工具,应用该算法建立模型。•选择数据挖掘技术或算法需要考虑(1)判断学习是有指导的还是无指导的。(2)数据集中的哪些实例和属性提交给数据挖掘工具;哪些数据实例作为训练数据;哪些数据实例作为检验数据。(3)如何设置数据挖掘算法的参数。2020年2月16日星期日第28页,共65页清华大学出版社1.5.3解释和评估结果•对数据挖掘的输出进行检查,评估其是否达到挖掘目标,确定所发现的信息或知识是有价值的。•数据挖掘的评估工具有多种(第5章)•如果结果不理想,可以(1)(2)进行重复实验,直到得到满意结果为止。(1)使用或选择新的数据实例或属性(2)选择新的数据挖掘算法或参数•一个数据挖掘过程是个迭代的过程。2020年2月16日星期日第29页,共65页清华大学出版社1.5.4模型应用•数据挖掘的终极目标。•可以应用分类模型解决如例1.1中的疾病诊断问题;•可以应用聚类模型解决对顾客的分类,找出不同类中顾客的行为特征,从而为诸如促销活动等提供决策支持;•可以通过应用关联分析模型,找出顾客购买的商品之间的关联关系,对于货架摆放、商品促销等提供决策支持。2020年2月16日星期日第30页,共65页1.