快速数据挖掘平台RapidMiner 01

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区RapidMiner开源数据挖掘工具第1课数据挖掘基本知识及RapidMiner工具介绍RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区RapidMiner工具简介RapidMiner官网地址:插件下载地址:开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区图片引用地址:简介RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区RapidMiner各周课程内容:1.数据挖掘基本知识、RapidMiner工具介绍、软件安装、数据导入与导出方法2.数据预处理:条件过滤、处理缺失值、采样、分割、合并、排序数据集、正则表达式的用法等。3.宏、循环、分支判断、异常处理,执行:sql、预定义流程、脚本、程序4.关联分析、关联规则5.K-Means聚类、辨别分析6.线性回归、逻辑回归7.决策树、神经网络8.模型评估-交叉验证、模型优化9.文本挖掘10.WEB挖掘(上)-网站信息爬取11.WEB挖掘(下)-网页元素值获取、数据入库12.协同过滤、推荐13.时间序列分析14.异常检测(离群点分析)、RapidminerServer使用介绍、命令行执行流程、源码调试启动RapidMinerRapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区本节课学习目标理解数据挖掘基本概念、术语含义了解常用挖掘算法种类及应用场景理解数据挖掘的流程熟悉RapidMiner工具平台界面功能组成RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区什么是数据挖掘?数据挖掘(从数据中发现知识)–从大量的数据中挖掘哪些令人感兴趣的、隐含的、先前未知的和可能有用的模式或知识–挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词–数据库中的知识挖掘(KDD)–知识提炼–数据/模式分析–数据考古–数据捕捞、信息收获等等。RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区数据挖掘:数据库中的知识挖掘(KDD)数据挖掘的核心––知识挖掘数据清理数据集成数据库数据仓库任务相关数据选择数据挖掘模式评估RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区数据挖掘的作用作为一门学科,数据挖掘对于世人来说在很大程度上是透明的。我们在大多数时间都从未注意到它的发生。但每当我们办理商店购物卡、使用信用卡购物或在网上冲浪时,都在创建数据。这些数据以大数据集形式存储在我们每天与之打交道的公司所拥有的功能强大的计算机上。存在于这些数据集之内的便是模式-表明我们的兴趣、习惯和行为。数据挖掘可让人们找到并解读这些模式,从而帮助人们作出更明智的决策,并更好地为客户服务。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区KDD的步骤数据商业理解数据理解数据准备建立模型模型评估发布模型CRISP-DM(Cross-IndustryStandardProcess-DataMining)RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区在何种数据上进行数据挖掘数据库数据数据仓库事务数据其他类型的数据–时间相关或序列数据(如历史记录、股票交易、时间序列、生物学序列)–空间数据库(如地图)–数据流(视频监控、传感器数据)–工程设计数据(如建筑、系统部件或集成电路)–超文本和多媒体数据(如文本、图像、音频、视频)–图和网状数据(如社会和信息网络、微博传播路径)–万维网RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区数据挖掘应用——市场分析和管理(1)数据从那里来?–信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生活方式研究目标市场–构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等–确定顾客的购买模式交叉市场分析–货物销售之间的相互联系和相关性,以及基于这种联系上的预测RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区数据挖掘应用——市场分析和管理(2)顾客分析–哪类顾客购买哪种商品(聚类分析或分类预测)客户需求分析–确定适合不同顾客的最佳商品–预测何种因素能够吸引新顾客提供概要信息–多维度的综合报告–统计概要信息(数据的集中趋势和变化)RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区数据挖掘应用——公司分析和风险管理财务计划–现金流转分析和预测–交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)资源计划–总结和比较资源和花费竞争–对竞争者和市场趋势的监控–将顾客按等级分组和基于等级的定价过程–将定价策略应用于竞争更激烈的市场中RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区数据挖掘应用——欺诈行为检测和异常模式的发现方法:对欺骗行为进行聚类和建模,并进行孤立点分析应用:卫生保健、零售业、信用卡服务、电信等–汽车保险:相撞事件的分析–洗钱:发现可疑的货币交易行为–医疗保险•职业病人,医生以及相关数据分析•不必要的或相关的测试–电信:电话呼叫欺骗行为•电话呼叫模型:呼叫目的地,持续时间,日或周呼叫次数.分析该模型发现与期待标准的偏差–零售产业•分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的–反恐怖主义RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区数据挖掘的主要功能—可以挖掘哪些模式?一般功能–描述性的数据挖掘–预测性的数据挖掘通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:–概念/类描述:特性化和区分–关联分析–分类和预测–聚类分析–孤立点分析–趋势和演变分析RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区概念/类描述:特性化和区分概念描述:为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述)–特征化:提供给定数据集的简洁汇总。•例:对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:40-50岁,有固定职业,信誉良好,等等–区分:提供两个或多个数据集的比较描述。•例:StatusBirth_countryAge_rangeGpaCountGraduateCanada25-30Good90UndergraduateCanada25-30Good210RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区关联分析关联规则挖掘:–从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。–广泛的用于购物篮或事务数据分析。例:%]70%,20[sup),()48...42,()39...30,(confidenceportcomputerXbuyskkXincomeXageRapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区分类和预测根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象类(预测)。–比如:按气候将国家分类,按汽油消耗定额将汽车分类–导出模型的表示:决策树、分类规则、神经网络–可以用来预报某些未知的或丢失的数字值例:•IFage=“=30”ANDstudent=“no”THENbuys_computer=“no”•IFage=“=30”ANDstudent=“yes”THENbuys_computer=“yes”•IFage=“31…40”THENbuys_computer=“yes”•IFage=“40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”•IFage=“40”ANDcredit_rating=“fair”THENbuys_computer=“no”RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区聚类分析聚类分析:–将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。–最大化类内的相似性和最小化类间的相似性例:对WEB日志的数据进行聚类,以发现相同的用户访问模式RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区孤立点分析孤立点分析–孤立点:一些与数据的一般行为或模型不一致的孤立数据–通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。应用–信用卡欺诈检测–移动电话欺诈检测–客户划分–医疗分析(异常)RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区趋势和演变分析描述行为随时间变化的对象的发展规律或趋势(时序数据库)–趋势和偏差:回归分析–序列模式匹配:周期性分析–基于类似性的分析RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区所有模式都是有趣的吗?数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。模式兴趣度的度量–一个模式是有趣的,如果(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设模式兴趣度的客观和主观度量–客观度量:基于所发现模式的结构和关于它们的统计,比如:支持度、置信度等等–主观度量:基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等RapidMiner开源数据挖掘工具讲师郭振未15901239872QQ:47647730DATAGURU专业数据分析社区能够产生所有有趣模式并且仅产生有趣模式吗?找出所有有趣的模式:数据挖掘算法的完全性问题–数据挖掘系统能够产生所有有趣的模式吗?•产生所有有趣的模式是不现实和低效的。•应当根据用户提供的约束和兴趣度度量对搜索聚焦

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功