Uway_DM数据挖掘简述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Forexternaluse1UWAYSCIENCE&TECHNOLOGYCO.,LTDUwayDataMining&Wekazhangc@uway.cnForexternaluse2UWAYSCIENCE&TECHNOLOGYCO.,LTDDM概述相关概念主要算法Weka的使用Forexternaluse3UWAYSCIENCE&TECHNOLOGYCO.,LTDDM概述数据挖掘(Datamining)数据库知识发现(Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中,通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。Forexternaluse4UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。描述任务:寻找概括数据中潜在联系的模式,如关联分析、演化分析、聚类分析、序列模式挖掘。Forexternaluse5UWAYSCIENCE&TECHNOLOGYCO.,LTDDM日常应用应用领域互联网:电子商务购物篮分析;广告定投;用户感知评价;网络入侵智能检测金融:证券市场投资电信:客户行为分析、精准营销电力:电力负荷预测生产:养殖投入产出多目标优化仿真医疗卫生:病例分析……Forexternaluse6UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤数据清理数据集成数据仓库任务相关数据选择数据挖掘模式评估Forexternaluse7UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤了解应用领域相关的知识和应用的目标创建目标数据集:选择数据,数据整合数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换找到有用的特征,维数缩减/变量缩减,不变量的表示。选择数据挖掘的功能数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等.选择挖掘算法,寻找感兴趣的模式模式评估和知识表示可视化,转换,消除冗余模式等等运用发现的知识Forexternaluse8UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗为什么要预处理数据不完整的含有噪声的不一致的没有高质量的数据,就没有高质量的挖掘结果Forexternaluse9UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗数据筛选剔除不必要的噪声点。噪声:一个测量变量中的随机错误或偏差A.分箱(binning)(等深或等宽分箱)首先排序数据,并将他们分到等深或等宽的箱中,然后可以按箱的平均值平滑,按箱中值平滑,按箱的边界值平滑B.聚类:检测并且去除孤立点C.计算机和人工检查结合:计算机检测可疑数据,然后对他们进行人工判断D.回归:通过让数据适应回归函数来平滑数据,对连续的数字型数据较好Forexternaluse10UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗数据变量转换将某一数据进行某种转换,并将转换后的值作为新的变量存放在样本数据中。目的是为了使数据和将来要建立的模型更好的拟合。Forexternaluse11UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗缺失值处理空值存在的主要影响:1、系统丢失了大量有用信息。2、系统所表现的不确定性更加显著。3、包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。处理方法:A.忽略元组B.人工填写空缺值C.使用一个全局变量填充空缺值D.使用属性的平均值填充空缺值E.使用与给定元组属同一类的所有样本的平均值F.使用最可能的值填充空缺值,使用像Bayesian公式或判定树这样的基于推理的方法Forexternaluse12UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗坏数据处理可使用绝对均值法或莱因法等对样本中的坏点数据进行剔除处理。Forexternaluse13UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗数据标准化目的是消除变量间的量纲关系,从而使数据具有可比性。比如不同进制数据的比较。常用的有:Z标准化(均值为0,方差为1)、0-1标准化、最小-最大规范化、小数定标规范化等。Forexternaluse14UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗主成分分析主成分分析(PCA)是用几个较少的综合指标来代替原来较多的指标,尽可能反应原有用信息,且综合指标相互之间是无关的。PCA运算就是一种确定一个坐标系统的直交变换,在这个新的坐标系统下,变换数据点的方差沿新的坐标轴得到了最大化。这些坐标轴经常被称为是主成分。PCA运算利用了数据集统计性质的特征空间变换。Forexternaluse15UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗属性选择数据集中,各个属性所含信息熵不同。采用相应算法,对数据属性值进行评估,如去掉某属性后,对挖掘结果无影响,从而较少后续挖掘算法的运行时间,也能有效的去除噪声数据。Forexternaluse16UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗数据规约将繁杂的样本数据进行简化处理(压缩)。数据离散化:数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要Forexternaluse17UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要步骤——数据清洗总结噪声点处理(增加/减少噪声点)、空值处理降维处理标准化处理Forexternaluse18UWAYSCIENCE&TECHNOLOGYCO.,LTDDM主要分析方法概念/类描述:特性化和区分归纳,总结和对比数据的特性。关联分析发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。分类和预测通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。聚类分析将类似的数据归类到一起,形成一个新的类别进行分析。孤立点分析通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的发展规律或趋势Forexternaluse19UWAYSCIENCE&TECHNOLOGYCO.,LTD模型评估定性评估标准预测的准确率正确预测新样本的准确率。速度产生和使用模型的计算开销。强壮性对于有噪声或者缺失值的数据,模型正确预测的能力。可伸缩性给定大量数据,能有效的构建模型的能力。可解释性学习模型提供的理解和解释的层次。Forexternaluse20UWAYSCIENCE&TECHNOLOGYCO.,LTDForexternaluse21UWAYSCIENCE&TECHNOLOGYCO.,LTD相关概念分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。Forexternaluse22UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——决策树决策树是一种类似流程图的树结构,其中:每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,每个树叶节点存放一个类标号。一旦建立好了决策树,对于一个未给定类标号的元组,跟踪一条有根节点到叶节点的路径,该叶节点就存放着该元组的预测。决策树的优势在于不需要任何领域知识或参数设置,适合于探测性的知识发现。Forexternaluse23UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——决策树Weka中weather数据集决策树Forexternaluse24UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——决策树属性选择度量属性选择度量又称分裂规则,目前比较流行的属性选择度量有--信息增益、增益率和Gini指标。信息增益信息增益率Gini指标Forexternaluse25UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——决策树_ID3ID3算法描述Forexternaluse26UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——决策树_ID3ID3算法思想描述:(个人总结仅供参考)a.对当前例子集合,计算属性的信息增益;b.选择信息增益最大的属性Aic.把在Ai处取值相同的例子归于同于子集,Ai取几个值就得几个子集d.对依次对每种取值情况下的子集,递归调用建树算法,即返回a,e.若子集只含有单个属性,则分支为叶子节点,判断其属性值并标上相应的符号,然后返回调用处。ID3算法使用信息增益最高的属性进行划分。信息增益倾向于使用值最多的属性进行划分,有可能造成树过宽。Forexternaluse27UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——决策树_C4.5C4.5算法做了一个改进,使用信息增益率最高的属性,这样做的好处是,可以避免树过宽。1、能够处理连续型属性和离散型属性的数据2、能够处理具有缺失值的数据3、使用信息增益率作为决策树的属性选择标准4、对生成树剪枝,降低过拟合Forexternaluse28UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——决策树_CARTCART(ClassificationAndRegressionTree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。分类树两个基本思想:1、将训练样本进行递归地划分自变量空间进行建树,2、用验证数据进行剪枝。Forexternaluse29UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——线性分类概念线性分类:寻找“最适合”的超平面,将两类数据分开。标准就是这条直线离直线两边的数据的间隔最大。所以,需要寻找有着最大间隔的超平面。Forexternaluse30UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——SVM(SupportVectorMachine)SVM的主要思想可以概括为两点:1.线性分析针对线性可分情况直接分析;对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分。2.基于结构风险最小化理论,在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。Forexternaluse31UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——SVM(SupportVectorMachine)一般的升维都会带来计算的复杂化,但SVM方通过核函数的展开定理的巧妙应用,从而在某种程度上避免了“维数灾难”。选择不同的核函数可以生成不同的SVM。常用的核函数有以下4种:⑴线性核函数K(x,y)=x·y;⑵多项式核函数K(x,y)=[(x·y)+1]^d;⑶径向基函数K(x,y)=exp(-|x-y|^2/d^2)⑷二层神经网络核函数K(x,y)=tanh(a(x·y)+b).Weka中的SVM实现LibSVMSMOSMOregForexternaluse32UWAYSCIENCE&TECHNOLOGYCO.,LTD分类&回归——KNNkNN算法的核心思想(K-近邻/KNN(k-NearestNeighbor)):如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。对于类域的交

1 / 63
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功