埃森哲大数据分析方法

wrlwrl
2 ℃
2019-10-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

大数据分析--埃森哲2015-7Copyright©2014AccentureAllrightsreserved.2目录概述数据分析框架数据分析方法数据理解&数据准备数据分析支撑工具关联分析聚类分析分类与回归时序模型结构优化Copyright©2014AccentureAllrightsreserved.3数据分析即从数据、信息到知识的过程，数据分析需要数学理论、行业经验以及计算机工具三者结合分析误区数据挖掘行业经验传统分析机器学习•数学&统计学知识数据分析的基础，将整理、描述、预测数据的手段、过程抽象为数学模型的理论知识•工具支撑各种厂商开发了数据分析的工具、模块，将分析模型封装，使不了解技术的人也能够快捷的实现数学建模，快速响应分析需求。•行业经验行业经验可在数据分析前确定分析需求，分析中检验方法是否合理，以及分析后指导应用，但行业特征不同，其应用也不同，因此本文不展开介绍•传统分析在数据量较少时，传统的数据分析已能够发现数据中包含的知识，包括结构分析、杜邦分析等模型，方法成熟，应用广泛，本文不展开介绍•分析误区不了解分析模型的数学原理，会导致错误的使用模型，而得出错误的分析结论，影响业务决策，因此在选用分析模型时，要深入了解该模型的原理和使用限制•机器学习不需要人过多干预，通过计算机自动学习，发现数据规律，但结论不易控制。•数据挖掘数据挖掘是挖掘数据背后隐藏的知识的重要手段Copyright©2014AccentureAllrightsreserved.4随着计算机技术发展和数据分析理论的更新，当前的数据分析逐步成为机器语言、统计知识两个学科的交集（备选）数据挖掘业务数据•数据挖掘就是充分利用了统计学和人工智能技术的应用程序，并把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。信息处理•信息处理信息处理基于查询，可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式，或隐藏在数据库中的规律。传统分析数据分析工具•传统分析在数据量较少时，传统的数据分析已能够发现数据中包含的知识，包括结构分析、杜邦分析等模型，方法成熟，应用广泛，本文不展开介绍•数据分析工具各种厂商开发了数据分析的工具、模块，将分析模型封装，使不了解技术的人也能够快捷的实现数学建模，快速响应分析需求。Copyright©2014AccentureAllrightsreserved.5随着计算机科学的进步，数据挖掘、商务智能、大数据等概念的出现，数据分析的手段和方法更加丰富•一系列以事实为支持，辅助商业决策的技术和方法，曾用名包括专家系统、智能决策等•一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成•对数据分析的体系化管理，数据分析的主体依然是数据挖掘结构分析分组分析杜邦分析预警分析……常规分析•揭示数据之间的静态关系•分析过程滞后•对数据质量要求高商务智能数据挖掘大数据技术数据可视化•统计学和计算机技术等多学科的结合•揭示数据之间隐藏的关系•将数据分析的范围从“已知”扩展到“未知”，从“过去”推向“将来”•从多种类型的数据中，快速获取知识的能力•数据挖掘技术的衍生•大数据时代，展示数据可以更好辅助理解数据、演绎数据•本文在描述数据分析的流程后，重点介绍通用的数据分析方法和主流的应用工具、软件。•随着数据量的不断扩大，数据分析理论正处于飞速发展期，因此本文的方法侧重于基础原理介绍。数据分析Copyright©2014AccentureAllrightsreserved.6目录概述数据分析框架数据分析方法数据理解&数据准备数据分析支撑工具关联分析聚类分析分类与回归时序模型结构优化Copyright©2014AccentureAllrightsreserved.71.业务理解(businessunderstanding）确定目标、明确分析需求2.数据理解（dataunderstanding）收集原始数据、描述数据、探索数据、检验数据质量3.数据准备(datapreparation)选择数据、清洗数据、构造数据、整合数据、格式化数据4.建立模型(modeling）选择建模技术、参数调优、生成测试计划、构建模型5.评估模型(evaluation)对模型进行较为全面的评价，评价结果、重审过程6.部署(deployment)分析结果应用数据分析标准流程CRISP-DM为90年代由SIG组织（当时）提出，已被业界广泛认可的数据分析流程。Copyright©2014AccentureAllrightsreserved.8数据分析框架业务理解数据理解数据准备建立模型理解业务背景，评估分析需求模型评估应用•理解业务背景：数据分析的本质是服务于业务需求，如果没有业务理解，缺乏业务指导，会导致分析无法落地。•评估业务需求：判断分析需求是否可以转换为数据分析项目，某些需求是不能有效转换为数据分析项目的，比如不符合商业逻辑、数据不足、数据质量极差等。数据收集数据清洗•数据收集：抽取的数据必须能够正确反映业务需求，否则分析结论会对业务将造成误导。•数据清洗：原始数据中存在数据缺失和坏数据，如果不处理会导致模型失效，因此对数据通过过滤“去噪”从而提取出有效数据数据探索数据转换选择方法、工具，建立模型建模过程评估模型结果评估分析结果应用分析模型改进•探索数据：运用统计方法对数据进行探索，发现数据内部规律。•数据转换：为了达到模型的输入数据要求，需要对数据进行转换，包括生成衍生变量、一致化、标准化等。•建立模型：综合考虑业务需求精度、数据情况、花费成本等因素，选择最合适的模型。在实践中对于一个分析目的，往往运用多个模型，然后通过后续的模型评估，进行优化、调整，以寻求最合适的模型。•建模过程评估：对模型的精度、准确性、效率和通用性进行评估。，•模型结果评估：评估是否有遗漏的业务，模型结果是否回答了当初的业务问题，需要结合业务专家进行评估。•结果应用：将模型应用于业务实践，才能实现数据分析的真正价值：产生商业价值和解决业务问题。•模型改进：对模型应用效果的及时跟踪和反馈，以便后期的模型调整和优化。Copyright©2014AccentureAllrightsreserved.9业务理解数据理解数据准备建立模型模型评估开始是否明确需求否否数据探索结构分析分布特性特征描述……分类与回归聚类分析时序模型关联分析结构优化分析结果应用数据分析框架图例流程概要方法分类处理方法模型检验理解业务背景，评估分析需求是是否满足要求收集数据否是是建立模型贝叶斯神经网络C4.5决策树……指数平滑支持向量机灰色理论……K均值算法……FP-growth算法Apriori算法……均方根误差均方误差正概率统计…………群间差异度群内相似度业务符合度支持度置信度……均方根误差均方误差正概率统计……灰色理论遗传算法……数据清洗数据转换SVM算法KNN算法Copyright©2014AccentureAllrightsreserved.10目录概述数据分析框架数据分析方法数据理解&数据准备数据分析支撑工具关联分析聚类分析分类与回归时序模型结构优化Copyright©2014AccentureAllrightsreserved.11数据清洗&数据探索数据收集的方法多种多样，本文不再详述。在对收集的数据进行分析前，要明确数据类型、规模，对数据有初步理解，同时要对数据中的“噪声”进行处理，以支持后续数据建模。数据清洗•异常值判别•缺失值处理•数据结构统一（人为因素较多，无统一方法，本文不详述）数据探索•特征描述•分布推断•结构优化数据探索数据清洗•数据清洗和数据探索通常交互进行•数据探索有助于选择数据清洗方法•数据清洗后可以更有效的进行数据探索Copyright©2014AccentureAllrightsreserved.12•给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常值。•常用的方法（数据来源于同一分布，且是正态的）：拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。•根据人们对客观事物、业务等已有的认识，判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果，判断异常值。•比较困难数据清洗的第一步是识别会影响分析结果的“异常”数据，然后判断是否剔除。目前常用的识别异常数据的方法有物理判别法和统计判别法数据清洗：1.异常值判别12物理判别法统计判别法•慎重对待删除异常值：为减少犯错误的概率，可多种统计判别法结合使用，并尽力寻找异常值出现的原因；若有多个异常值，应逐个删除，即删除一个异常值后，需再行检验后方可再删除另一个异常值•检验方法以正态分布为前提，若数据偏离正态分布或样本较小时，则检验结果未必可靠，校验是否正态分布可借助W检验、D检验注意Copyright©2014AccentureAllrightsreserved.13判别方法判别公式剔除范围操作步骤评价拉依达准则（3σ准则）大于μ+3σ小于μ-3σ求均值、标准差，进行边界检验，剔除一个异常数据，然后重复操作，逐一剔除适合用于n185时的样本判定肖维勒准则（等概率准则）大于μ+Zc(n)σ小于μ-Zc(n)σ求均值、标准差，比对系数读取Zc(n)值，边界检验，剔除一个异常数据，然后重复操作，逐一剔除实际中Zc(n)3，测算合理，当n处于[25,185]时，判别效果较好格拉布斯准则删除水平:异常检出水平:逐一判别并删除达到删除水平的数据；针对达到异常值检出水平，但未及删除水平的数据，应尽量找到数据原因，给以修正，若不能修正，则比较删除与不删除的统计结论，根据是否符合客观情况做去留选择T(n,α)值与重复测量次数n及置信概率α均有关，理论严密，概率意义明确。当n处于[25,185]时α=0.05，当n处于[3，25]时α=0.01，判别效果较好狄克逊准则f0f(n,α)，说明x(n)离群远，则判定该数据为异常数据将数据由小到大排成顺序统计量，求极差，比对狄克逊判断表读取f(n,α)值，边界检验，剔除一个异常数据，然后重复操作，逐一剔除异常值只有一个时，效果好；同侧两个数据接近，效果不好当n处于[3，25]时，判别效果较好T检验最大、最小数据与均值差值大于分别检验最大、最小数据，计算不含被检验最大或最小数据时的均值及标准差，逐一判断并删除异常值异常值只有一个时，效果好；同侧两个极端数据接近时，效果不好；因而有时通过中位数代替平均数的调整方法可以有效消除同侧异常值的影响()30.003pxuicnxxZ(n,)ixxT1(n,)ixxT12(n,)(n,)iTxxT0()(1)()(1)(2)(1)()(1)nnnnfxxxxxxxx或()(1)(,)(,)nxxKnxxKn或(,)Kn常见统计判别法Copyright©2014AccentureAllrightsreserved.14由包含m个插补值的向量代替每一个缺失值，然后对新产生的m个数据集使用相同的方法处理，得到处理结果后，综合结果，最终得到对目标变量的估计在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望（E步），后用极大化对数似然函数以确定参数的值，并用于下步的迭代（M步）基于完整的数据集，建立回归方程（模型），对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充；但当变量不是线性相关或预测变量高度相关时会导致估计偏差先根据欧式距离或相关分析确定距离缺失数据样本最近的K个样本，将这K个值加权平均来估计缺失数据值取所有对象（或与该对象具有相同决策属性值的对象）的平均值来填充该缺失的属性值数据清洗：2.缺失值处理平均值填充K最近距离法回归极大似线估计多重插补法在数据缺失严重时，会对分析结果造成较大影响，因此对剔除的异常值以及缺失值，要采用合理的方法进行填补，常见的方法有平均值填充、K