一、数据挖掘(1)依据挖掘对象:关系数据库、面向对象数据库、空间数据库、时序数据库、DNA数据库、多媒体数据库、异质数据库、遗产数据库以及Web数据库等;(2)依据挖掘方法:机器学习方法、统计方法、神经网络方法和数据库方法等;a.机器学习方法可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。b.统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非參数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。c.神经网络方法可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。(3)依据开採任务:可分为关联规则、分类、聚类、时间序列预測模型发现和时序模式发现等。a.关联规则:典型的关联规则发现算法是Apriori算法,该算法也称广度优先算法,是A.Agrawal和R.Srikandt于1994年提出的,它是眼下除AIS算法、面向SQL的SETM算法外差点儿全部频繁项集发现算法的核心,其基本思想是:假设一个项集不是频繁集,则其父集也不是频繁集,由此大大地降低了须要验证的项集的数目,在实际执行中它明显优于AIS算法。Apriori算法是关联规则挖掘中最具有影响的一种算法.所谓关联规则就是从事务数据库、关系数据库和其它数据存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性.关联规则能够分为两步:1)找出全部频繁项集.这部分主要由后面介绍的Apriori算法来解决.2)由频繁项集产生相关联规则:这些规则必须满足最小支持度和最小置信度.b.分类规则:数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法非常多,包含决策树方法、统计学方法、神经网络方法、近期邻居方法等等。当中,基于决策树的分类方法与其他的分类方法比較起来,具有速度较快、较easy转换成简单的而且易于被理解的分类规则、较易转换成数据库查询语言、友善、可得到更高的精确度等长处。c.数据聚类:其基本思想是:对数据进行分析的过程中,在考虑数据间的“距离”的同一时候,更側重考虑某些数据间具有类的共同内涵。数据聚类是对一组数据进行分组,这样的分组基于例如以下的原理:最大的组内类似性与最小的组间类似性。d.时序模式:可用例如以下的样例描写叙述时序模式:一个顾客先租看影片“StarWars”,然后租“EmpireStrikesBack”,再租“ReturnoftheJudi”,注意到这些租借事物的发生不一定是连着的。像这样一次事件的发生会导致某些事物的相继发生的事件模式,称为时序模式。e.类似模式:时态或空间—时态的大量数据存在于计算机中,这些数据库样例包含:股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。在时态或空间—时态数据库中搜索类似模式的目的是发现和预測风险、因果关系及关联于特定模式的趋势。二、Web挖掘Web网站上的数据有其自身的特点,基本的能够归纳为下面几点:1、数据量巨大,动态性极强;2、异构数据库环境;3、半结构化的数据结构。Web数据挖掘能够分为Web内容挖掘,Web结构挖掘,Web使用挖掘三类。Web内容挖掘是从文档内容或其描写叙述中抽取实用信息的过程,Web内容挖掘有两种策略:直接挖掘文档的内容和在其它工具搜索的基础上进行改进。採用第一种策略的有针对Web的查询语言WebLOG,利用启示式规则来寻找个人主页信息的AHOY等。採用另外一种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和实用的信息。属于该类的有WebSQL,及对搜索引擎的返回结果进行聚类的技术等。依据挖掘处理的数据能够将Web内容挖掘分为文本挖掘和多媒体挖掘两个部分。Web结构挖掘是从Web组织结构和链接关系中推导知识。挖掘页面的结构和Web结构,能够用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能。同一时候还能够用来指导页面採集工作,提高採集效率。Web结构挖掘能够分为Web文档内部结构挖掘和文档间的超链接结构挖掘。这方面的代表有PageRank和CLEVER,此外,在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。Web使用挖掘是从server端记录的用户訪问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据能够帮助理解用户隐藏在数据中的行为模式,做出预測性分析,从而改进网站的结构或为用户提供个性化的服务。Web挖掘相关技术:数据挖掘方法通常能够分为两类:一类是建立在统计模型的基础上,採用的技术有决策树、分类、聚类、关联规则等;还有一类是建立一种以机器学习为主的人工智能模型,採用的方法有神经网络、自然法则计算方法等。Web内容挖掘:1、Web文本挖掘2、Web多媒体挖掘3、特征提取4、分类眼下文本分类的方法非常多,如多元回归模型、K-邻近方法、神经网络法、贝叶斯方法、决策树法、支持向量机等,这些方法基本上能够分为两类:统计分类方法和基于机器学习的分类方法。支持向量机(SVM)是统计学习理论领域近几年才提出的新知识,眼下仍处于发展阶段,但就眼下的应用而言,SVM在非常多领域的运用效果都非常理想。网页自己主动分类是Web内容挖掘的主要研究内容之中的一个,採用的主要技术是分本分类技术,这是由于文本是眼下Web内容的主体,而且对文本的处理较音频、视频的处理easy。文本分类首先要进行特征抽取。所谓特征是指一个词或词组。眼下英文分类算法大多以单词为特征,在分词的时候利用空格和其他一些标点符号作为分隔符,从而抽取出文档中出现的全部特征,全部抽取出来的特征称为全特征集。特征抽取完成后一般还要进行特征提取。特征提取是指从全特征集中提取一个子集的过程。提取出来的子集称为特征子集。依据JohnPierre的理论,用来表示文本的特征理论上应具有例如以下特点;(1)数量上尽量少;(2)出现频率适中;(3)冗余少;(4)噪音少;(5)与其所属类别语义相关;(6)含义尽量明白;从全特征集中提取特征子集时通常依据特征的权值进行取舍,权值的计算方法有多种,比方信息赢取(InformationGain),互信息(MutualInformation)等。特征提取后就能够用特征子集来表示文本,然后就能够构造用不同分类方法用来分类。常见的分类模型有:(1)K一近邻模型,(2)Rocchio模型,(3)贝叶斯模型,(4)神经网络模型,(5)决策树模型。眼下研究人员己经提出了很多文本分类方法,如向量空间法(VSM)、回归模型、K近邻法、贝叶斯概率方法、决策树、神经网络、在线学习、支持向量机等。在完毕特征提取之后,我们就能够使用这些特征来表示一个文本。详细的表示方法因分类方法而异。每种分类模型都会採用自己的方法来表示一个文本,并将这样的表示方法纳入到自己的体系中去。全部的分类模型大体上都可分为训练和分类两个步骤。一般来说,训练例越多分类的精确度越有保证,但也并非越多越好。(1)基于TFIDF的Rocchio算法Rocchio算法来源于向量空间模型理论,向量空间模型(Vectorspacemodel)的基本思想为採用向量来表示一个文本,之后的处理过程就能够转化为空间中向量的运算。基于TFIDF的Rocchio是这样的思想的一种实现方法,当中文本以一个N维向量来表示,向量维数N即特征数,向量分量是特征的某种权重表示,该权值的计算方法称为TFIDF方法,过程例如以下:通过TFIDF方法首先将训练集中的文本表示为向量,然后生成类别特征向量(即能够用来代表一个类别的向量)。类别特征向量取值为该类中全部文本向量的平均值。Rocchio算法训练的过程事实上就是建立类别特征向量的过程。分类的时候,给定一个未知文本,先生成该文本的向量,然后计算该向量与各类别特征向量的类似度,最后将该文本分到与其最类似的类别中去。向量的类似度度量方法有两种:(以x,y代表向量,xi,yi代表向量分量):整体来看,Rocchio算法简单易行,执行速度尤其是分类速度较快。(2)朴素贝叶斯模型贝叶斯分类是一种统计学分类方法,它基于贝叶斯定理,能够用来预測类成员关系的可能性,给出文本属于某特定类别的概率。分类时依据预測结果将该样木分到概率最高的类别中去就可以。假定有m个类c1,c2,c3…Cm,给定未知文本X,贝叶斯分类将给出条件X下具有最高后验概率的类别,即最大化P(Ci|X)依据贝叶斯定理可得:显而易见,P(X)对于全部类是个常数,则仅仅需最大化P(X|Ci)P(Ci)就可以。P(ci)能够依据训练集中的类别分布来计算,即,当中|Ci|为类别Ci包括的文本数,|D|为训练集中的文本总数。在一个具有很多属性的事例中,计算P(X|Ci)的开销会很大,为了减少这样的开销而引出了称为类条件独立的朴素假定:假定文档的一个属性对于分类的影响独立于其它属性,即文档的属性之间是不相关的。这就是朴素贝叶斯(Na?veBayes)的由来。这样就能够简单的以各个属性在类别Ci上出现的概率来推算P(X|Ci)。通常使用拉普拉斯预计(Laplaceanprior)来推算。又因实现细节的不同有两种朴素贝叶斯模型,多元模型(Multi-variateBernoulliModel)仅仅考虑了特征在文本中是否出现(出现记为1,否则记为。),多项式模型(MultinomialModel)考虑了特征在文本中的出现次数:朴素贝叶斯分类模型训练的过程事实上就是统计每个特征在各类中出现规律的过程。从理论上讲,贝叶斯分类的出错率最小,就试验结果来看,朴素贝叶斯在大型的数据集上表现出来难得的速度和精确度。(3)决策树决策树(DecisionTree)是一个相似于流程图的树结构,当中每一个节点代表一个属性上的測试,每一个分支代表一个測试输出,最后的叶结点代表类别。决策树方便改写为形如if-then的分类规则,易于理解。决策树的核心算法是一种贪心算法,它以自顶向下的方式在训练集的基础上构造决策树,之后取未知文本的属性在决策树上測试,路径由根结点到叶结点,从而得到该文本的所属类别。决策树的算法有C4.5(发展于ID3),CART,CHAID等,他们的差别在于构造决策树与树枝剪除的算法细节不同。决策树能够非常好的抵抗噪声。最大的缺点在于不适应大规模的数据集,此种情况下决策树的构造会变得效率低下。(4)神经网络神经网(NeuralNetwork)的学习结果为目标函数,根据这个目标函数的输出作为分类的根据。输入即为文本在各个特征上的各分量值。神经网络实际上是一组连接的输入/输出单元,当中每个连接都具有一定的权值。通过训练集来训练的过程就是调整这些权值的过程,使得神经网络能够正确的预測类别。神经网络的训练是针对训练例逐个进行的,所以神经网络的训练集能够随时加入,不须要又一次进行训练就可完毕网络的调整。同一时候有实验结果表明,在训练例过少的情况下,神经网络的分类准确率较低。由于可通过训练来针对特征取一定的合适的权值,神经网络能够较好地抵御噪音的干扰。(5)K近邻K近邻分类(K-nearestneighbor)的思想也来源于向量空间模型,相同採用将文本转化为向量的思想。KNN是一种基于类比的分类方法。在训练的过程中KNN会生成全部训练例的特征向量,并将其保存下来。给定一个未知文本,首先生成它的特征向量,之后KNN会搜索全部的训练例,通过向量类似度比較从中找出K个最接近的训练例,然后将未知文本分到这K个近邻中最普遍的类别中去。类似度能够通过欧几里德距离或向量间夹角来度量。依据经验x一般取45。KNN是一种懒散的方法,即它没有学习过程,仅仅是存放全部的训练例,直到接到未知文本的时候才建立分类。ON的训练过程较快,并且能够随时加入或更新训练例来调整。但它分类的开销会非常大,由于须要非常大的空间来保存训练例,并且分类效率非常差。有看法觉得在小数据集上KNN的表现优异。(6)SVM方法SVM方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,依据有限的样本信息在模型的复杂性(即对特定训