第2章数据挖掘过程与知识发现

innn2008
3 ℃
2019-12-23

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第二章数据挖掘过程与知识发现第一节CRISP_DM介绍跨行业数据挖掘标准流程被行业成员广泛应用，这一模型包括以下六个阶段：一、业务理解：业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。应该是对数据挖掘的目标有一个清晰的认识，知道利润所在，其中包括数据收集、数据分析和数据报告等步骤。二、数据理解：一旦商业对象和计划书确定完备，数据理解就考虑将所需要的数据。这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。由于数据挖掘是目标导向的，不同的商业目的需要不同的数据系列。数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据，来正确描述研究问题；即对问题进行简单描述；识别问题的相关数据；所选择的变量要相互独立，变量独立意味着不涵盖重复信息。三、数据准备：确定可用的数据资源以后，需要对此进行筛选、清理、调整为所需要的形式。数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行，新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。数据预先处理：1、噪声问题和缺失问题a)数据重复b)数值错误c)数据缺失2、数据的变换a)数据类型的变换b)数据的平滑c)数据的概化d)数据的规范化十进制缩放：将某个数据全部除以10的相同的幂通过极值来转化：新数据=（原数据-最小数值）/（最大数值-最小数值）通过均值和标准差来转化：新数据=（原数据-均值）/标准差通过对数来转化：对每个数据经过自然对数进行数据转换，例如下面的转换可以把数据转换到0-1之间：O=1/(1+exp(-x))四、建立模型：数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程。首先往往是聚类分析和数据视觉探究。依据数据挖掘类型的不同，应用各种不同的模型，如果任务是对数据分组，则运用判别分析；如果任务是估计，在连续数据类型的情况下，回归分析就可以运用，对于不连续的数据则可以运用逻辑回归分析，神经网络技术对两者都是可以的。决策树是进行数据分类的另外一个重要的工具，在以后的章节中将要进行介绍。数据处理：数据挖掘的本质是在获取大规模的数据基础上进行统计数据的分析。通过对数据进行分割，一部分成为训练集，另外一部分成为测试集。一部分进行模型开发，另外一部分成为模型检验的部分。数据挖掘就是：数据挖掘可以通过关联、分类、聚类、序列模式、类似时间序列等方法来实现。五、模型评估：数据解释阶段是至关重要的，要对建立的模型是否能够达到问题解决的目的进行研究，即包括模型是否能够达到研究的目标；模型是否能够用合适的方法显示。评估办法：一般来说，研究中把大规模数据集合分为两个部分：训练集和测试集，分类误差通常运用错差矩阵（干扰矩阵）表现出来，它可以表示出正确分类的案例数目，以及分到不正确类别的案例数。错差矩阵中所揭示的两类错误的损害有时候不是一样的，例如，银行贷款给一个希望偿还但是没有能力偿还的，比起没有把款项贷给实际会偿还的客户更加令人痛苦。运用成本分析方法可以比较不同的预测判别方法的成本，运用错差矩阵来度量，并且计算成本函数，例如：表1：错差矩阵：误分类成本相等电话帐单模型中不能够偿付模型中可以偿付实际不能够偿付501464实际能够偿付76578654126592718总分类正确率等于可用正确分类数量（50+578=628）除以总案例（718）数量而得到，于是，案例中有87.5%的数据得到了正确的分类。这里的成本函数：190×关闭良好帐户+10×保留帐户=190×76+10×14=14580美元实际上，把好的当作不好的比例相当高，是实践中难以接受的。如果充分运用先验概率对此进行研究，则可以得到如下矩阵：表2：错差矩阵：误分类成本不相等电话帐单模型中不能够偿付模型中可以偿付实际不能够偿付362864实际能够偿付2263265458660718案例中93%得到了正确地执行，说明方法得到了显著的改进。六、模型发布：数据挖掘既可以应用于核实先前的假设，也可以应用于知识发现（识别未预期的有用的关系）。显然，这几个步骤不是一成不变的，而是互相作用的。讨论1.将下列客户年龄的数值转换为年轻（40岁以下）、中年（40-60）和老人（60岁以上）的类别。客户年龄（岁）Fred46Herman52George36Frieda39Hermione282.将下列工资转换为数值范围，20000等于0，220000等于1，其他在0-1之间客户工资（美元）Fred120000Herman200000George50000Frieda65000Hermione350003.几种数据挖掘技术应用于数据测试中，哪种结果是最好的？主语实际回归聚类神经网络基于规则Fred好好好好好Herman差好差好差George好好差差差Frieda好好好好差Hermione差好差差好4.如果把好的当作差的成本为100美元，差的当作好的成本为500美元，则上述各种方法的成本是多少？第二节数据挖掘的数据库支持一、数据仓库因为存在大量的数据、所以才有数据挖掘。这些数据必须以结构化和可靠的形式存在。数据仓库是已知事实和相关数据有序保存、容易读取的存储地，而这些数据可以更好地有利于决策。数据仓库通常整合不同的来源的信息，需要识别、获取数据并对其进行清理、分类，以利于组织决策的方式进行存储。通常数据仓库处理流程包括以下三点：数据产生流程；数据管理流程；信息分析流程。数据仓库具有以下作用：1.为商业用户提供完成任务所需要的数据支持；2.通过合并和协调，消除业务元素间的屏障；3.提供组织中重要部分的宏观视野；4.使信息获取更加及时和详细；5.为特定的团队提供特定的信息；6.提供判断未来发展趋势的能力。二、数据集市是用来为数据挖掘分析进行特定的服务提取的特定信息。最初，数据集市从独立的数据仓库中区别开来。现在，许多数据集市是用于连接数据仓库而不是数据仓库的竞争产品，但是因为价格比较低廉，仍有很多数据集市被独立使用。度量数据仓库的详细程度的单位是粒度，数据挖掘关注于近乎原始形式的数据，所以需要处理数据，因为数据必须完整、正确、格式正确。三、联机分析处理联机分析处理(OLAP)是用于数据共享的多维电子表格，可以让用户在他们认为重要的维度上提取处理，生成报表。数据被分割成不同维度，并按照层级组织起来。OLAP可以生成许多变量和扩展元素。在由数据仓库、OLAP服务器和客户端组成的系统中，OLAP产品是组成部分，通常位于本地网络中，系统连接了客户端用户。OLAP服务器将信息从数据仓库中重新提取信息，然后对数据进行处理并发送至主服务器，用户通过网络或者电子表格获取这些信息。四、数据仓库的实现通过提供可靠的、完整的和干净的数据来源，数据仓库能够减轻上述情况的发生。从技术上来说，“脏数据”是不正确的、不完整的或格式是错误的。与实现数据仓库系统相关的三个主要步骤如下：系统开发；数据获取；依据用途提取数据。五、元数据：数据挖掘管理不同于数据管理，数据管理关注于管理企业的所有数据，而数据仓库管理指的是数据仓库生命周期中各个阶段的设计和操作。生命周期包括：管理元数据：设计数据仓库；2.确保数据质量；3.在操作中管理系统元数据（metadata）是跟踪数据所需要的参数集合，用于描述仓库的组织。数据目录的用户能够有针对性地了解数据仓库包含什么内容。数据仓库的内容由元数据定义，还提供数据的商业目的和技术目的。元数据包括以下内容：a)可获得的数据；b)各数据元素的来源；c)指定数据的位置；d)数据更新频率；e)预定义报表和查询；f)数据读取方法。技术元素仅仅数据仓库管理员可见：a)数据来源、内部和外部；b)数据准备特征；c)数据的逻辑结构；d)数据仓库的物理结构和内容；e)数据所有权；f)安全权限；g)系统信息。第三节数据挖掘方法概述本节准备介绍数据挖掘的基本方法，可依任务类别、估计、聚类和概要进行分类，类别和预测属于事前性质的，而聚类和概要属于事后性质的。一、数据挖掘方法：由于目的不同，数据挖掘使用了大量的模型化工具。很多作者通过可行的工具来阐释这些目的。这些研究方法既包括人工智能工具，也包括历史统计学方法的结晶。统计方法是强有力的诊断工具，能够以此促进参数估计、假设检验和其他方法的发展。而人工智能（artificialintelligence）方法不需要对数据做太多的假设。表1：数据挖掘模型化工具Radding算法Peacock算法基础任务聚类检测聚类分析统计学分类回归模型统计学估计逻辑回归统计学分类判别分析统计学分类神经网络神经网络人工智能分类Kohionen网络人工智能聚类决策树规则推理关联规则人工智能分类关联规则人工智能描述链接分析描述查询工具描述描述统计学统计学描述可视化工具统计学描述二、数据挖掘方法视野根据上述表格可以知道，若从统计学的角度看数据挖掘，其方法应该包括以下几类：聚类分析、各种形式的回归、判别分析、多目标线性回归方法等；从人工智能的角度看数据挖掘，其方法有：神经网络、规则推理、遗传算法等。对于数据的处理，不同的方法的处理优劣如表2所示，即处理不同数据的能力有显著的差别，应该根据实际情况进行处理。表2：数据挖掘方法处理数据的综合能力数据特征规则推理神经网络案例推理遗传算法处理杂乱数据好非常好好非常好处理丢失数据好好非常好好处理大数据集非常好差好好处理不同数据类型好转成数字非常好转成需要形式预测的准确性高非常高高高解释能力非常好差非常好好综合难易度好好好非常好运行难易度容易难容易难三、数据挖掘的作用通过公开出版物中的信息可以发现问题可以分为以下几类：分类：用测试数据集来识别常被用来分类数据的类别和聚类，这方法典型的应用有投资风险和回报特征进行分类，以及对贷款人员的信用风险分类。预测：识别数据的关键特征，以便于找到公式来预测未来的事件，回归模型就是如此。关联：识别决定实体关系的规则，这方面的例子主要有企业财务特征分析。检测：确定不规则属性，对于欺诈检测特别有价值。表3：按照方法分类的数据挖掘应用领域领域方法应用问题类型财务神经网络预测股票价格预测神经网络预测破产预测规则推理预测价格指数期货预测检测欺诈检测神经网络利率预测预测案例推理神经网络银行拖欠贷款检测可视化规则推理预测拖欠贷款预测信用评估预测证券管理预测风险分类分类金融客户分级分类规则推理预测案例推理规则推理、可视化贷款审批预测第四节实证数据集——贷款申请数据下组数据包含了贷款申请人，完整的数据集共有650个上述的观察目标。申请人信息有年龄、收入、资产和信用等级等变量，信用等级数据来自于信用机构，红色表示不良信用，黄色表示信用问题，绿色表示良好的信用记录，这些信息披露被假定为对申请贷款是有用的。按时偿还表示为1，反之表示为0。如果债务超过资产则表示为高风险，反之为低风险。表4：申请贷款训练数据集年龄收入资产债务贷款量风险信用等级结果2017152（低收入）1109020455400高绿按时2325862（低收入）14756300832300高绿按时2826169（低收入）47355493413100高黄按时2321117（低收入）2124230278300高红延时227127（低收入）2390317231900低黄按时2642083（中等收入）3572641421300高红不履行2455557（中等收入）27040481911500高绿按时2734843（中等收入）0210312100高红按时2974295（中等收入）88827100599100高黄按时2338887（中等收入）6260336359400高绿延时2831758（中等收入）58492492681000低绿按时2580180（高收入）31696695291000高黄延时3340921（中等收入）91111900762900中绿按时3663124（中等收入）164631144697300低绿按时3959006（中等