数据挖掘与clementine使用培训

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘与Clementine使用培训1一、数据挖掘概述•什么是数据挖掘•数据挖掘的实现路线和流程•数据挖掘方法论——CRISP-DM2为什么进行数据挖掘?商业观点•业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值–客户信息数据–客户交易行为数据–客户反馈数据–网络数据–……•计算机变得越来越便宜、功能却越来越强大•商业竞争越来越激烈,对客户了解越多就意味着机会越大3为什么进行数据挖掘?技术观点•业务中的数据量呈现指数增长(GB/小时)•传统技术难以从这些大量数据中发现有价值的规律•数据挖掘可以帮助我们从大量数据中发现有价值的规律0500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999TheDataGapTotalnewdisk(TB)since1995NumberofanalystsFrom:R.Grossman,C.Kamath,V.Kumar,“DataMiningforScientificandEngineeringApplications”4一个市场营销的例子在数据中发现有价值的规则或者模式女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关5一个市场营销的例子数据变的复杂会如何?女性对市场活动做出回应,老年男性也可能对市场活动做出回应6一个市场营销的例子数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发现回应的5条规则:1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应……通过数据挖掘发现不回应的5条规则:1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应……7数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义8利润分析图9数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000目的:发现新客户(使响应率从1%提高到1.2%)10什么是数据挖掘?•不同的定义–从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程–从大量数据中自动化(或者半自动化)的发现有价值规律的过程•数据挖掘的其他名称–数据库内知识发现(KDD-Knowledgediscoveryindatabases)–数据/模式分析–商业智能–人工智能–……11数据挖掘的起源•来源于机器学习/人工智能、模式识别、统计学和数据库•传统技术的局限性–巨量的数据–高维数据–数据分布不理想机器学习/模式识别统计学数据挖掘数据库系统12数据挖掘面临的挑战•海量数据•高维数据•数据复杂性•数据质量问题•数据所有权和分布•隐私问题13数据挖掘方法论—项目顺利实施的保证•商业理解•数据理解•数据准备•建立模型•模型评估•模型发布14商业理解商业理解数据理解数据准备建立模型模型评估结果发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估15数据理解商业理解数据理解数据准备建立模型模型评估结果发布收集原始数据数据描述数据探索性分析数据质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告16数据准备商业理解数据理解数据准备建立模型模型评估结果发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析17建立模型商业理解数据理解数据准备建立模型模型评估结果发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参数设定的修订模型描述18模型评估商业理解数据理解数据准备建立模型模型评估结果发布结果评估数据挖掘过程回顾确定下一步的工作评估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动决策19结果发布商业理解数据理解数据准备建立模型模型评估结果发布发布结果计划监测和维护模型计划生成最终数据挖掘报告项目回顾结果发布计划监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结20商业理解是数据挖掘的起点C2C1解决方案商业价值商业需要21商业理解的内容•数据挖掘能解决什么样的商业问题?•数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?•我们期望模型能够给我们怎样的精确率?•有那些前提假定?22约束分析•时间约束分析•资源约束分析人力资源数据资源软件资源硬件资源23制定特定的数据挖掘目标制定的数据挖掘目标应具有:•可评估性(assessable)•可实现性(attainable)24如何给定一个数据挖掘问题•是检验性数据挖掘还是探索性数据挖掘?•确定哪些是可以实现的数据挖掘问题结果可测度性信息(数据)的可获得性评估和控制其他相关因素的影响25数据来源与数据之间的关系26使数据适合数据挖掘•对数据进行适当的合并和汇总•一般数据挖掘分析都要一个行×列(记录×变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:所有的记录含有排列顺序一致的变量所有记录的变量信息是完整的(理想化状态,在现实中很难达到)27检查数据质量•影响数据质量的几个主要问题缺失值不合理值不同数据源的不一致异常值28对数据进行适当的变换•数据的标准化变换•生成新的变量•数据的重新编码•数据降维,从变量角度或者从记录角度29数据挖掘模型的分类•数据描述和汇总(Datadescriptionandsummarization)•细分(Segmentation)•概念描述(Conceptdescriptions)•分类(Classification)•预测(Prediction)•相关分析(Dependencyanalysis)30数据挖掘技术的分类数据挖掘描述预测统计回归关联规则决策树可视化聚类顺序关联汇总神经网络分类时间序列预测31数据挖掘的典型结果——金融•问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少•结果描述:(决策树)收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准32数据挖掘的典型结果——电信•问题描述:根据客户信息,预测客户流失可能性•结果描述:(神经网络)输入流失概率(0.87)输出男293000元/月套餐A130元/月…………33数据挖掘的典型结果——零售•问题描述:如何决定超市中商品的摆放来增加销售额•结果描述:(Web图)34数据挖掘的典型结果——制造业•问题描述:如何对市场进行细分,使产品满足最有价值客户•结果描述:(Koholen聚类)35数据挖掘的典型结果——政府•问题描述:如何从众多申请经费或者纳税中发现欺诈•结果描述:(回归、神经网络)36检验的形式•方法层面的检验训练集和检验集不同方法的互相印证和比较模型准确性的检验:•商业层面上的检验利润率的检验模型结果可操作性的检验其他检验37关注那些错误的预测38数据挖掘不成功的几种可能性•糟糕的数据•组织抵制•结果没有被有效的发布•得到了无用的结果39模型发布的形式•书面报告•数据库更新•针对特定主题的应用系统40数据挖掘的体系结构用户界面SPSSDataAccessPackClementineSolutionsPublisherRuntimeC/S结构或B/S结构发布数据挖掘模型C/S结构建立数据挖掘模型数据库模型库分析员Clementine4142二、Clementine概述•Clementine在数据挖掘中的地位•Clementine发展历史•Clementine的配置•Clementine操作基础43数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位Betterdataminingresults!InsightBusinessproblem?Whatyouknow44数据挖掘方法论——项目顺利实施的保证•商业理解•数据理解•数据准备•建立模型•模型评估•模型发布45Clementine发展历程•Clementine是ISL(IntegralSolutionsLimited)公司开发的数据挖掘工具平台•1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点1998-200746Clementine的软件构成•ClementineClient;•ClementineServer;•ClementineBatch;•SPSSDataAccessPack;•ClementineSolutionPublisher(Optional)。47Clementine的两种运行方式•单机版运行•以下情况必须使用单机版运行:–数据存储在本机,且不能在网络上共享;–机器不联网;–无ClementineServer可供使用。•以下情况可以使用单机版运行:–要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处;–单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。•C/S结构运行•以下情况必须使用C/S结构运行:–单机内存或者硬盘不够大,难以运行大量数据;–单机上没有或者无法配置数据连结,无法从数据库中获取数据;–组织规则不允许下载大量数据到单机。•以下情况可以使用C/S结构运行:要处理的数据量很大,并且存储在可以通过SPSSDataAccess技术可到达的数据库处;单机速度慢,ClementineServer运行的机器配置高。48Clementine的系统结构Clementine的三层结构:1、数据库层;通过ClementineServer进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。在三层结构下通过ClementineServer进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。ClementineClient和ClementineServer通过SDL(StreamDescriptionLanguage)之间进行信息交换,ClementineServer和Database通过SQL语句进行信息交换。49Clementine运行的两种方式•图形界面方式•适用操作系统–Windows系列•特点:–图形化界面–与客户直接交互–适合交互式分析过程命令行方式使用操作系统–Windows系列–Unix系列特点:命令行操作不能生成图形,所有结果保存在文件里或者数据库中适合于以下情况使用:1.运行耗时较长的建模过程2.希望在后台运行一些耗时较长的数据准备3.过程希望按照一定的时间定期运行(比如每周、每月等)4.希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中50Clementine的界面和设计思路•可视化界面•四个区域分别是建模区、结点区、模型描述区、项目管理区•通过连接结点构成数据流建立模型•Clementine通过6类结点的连接完成数据挖掘工作,它们是:–Source(源结点):Database、Var.Files等–RecordOps(记录处理结点):Select、Sample等`–FieldOps(字段处理结点):Type、Filter等–Graphs(图形结点):Plot、Distribute等–Modeling(模型结点):

1 / 306
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功